李强
想必大家对大数据这个词并不陌生。我们每天都会产生大量的数据,比如使用支付宝、微信支付产生的每一笔交易都会形成相应的交易数据,使用手机上网浏览过程中也会不断产生流量数据,通过对这些数据进行挖掘和分析,就能产生有价值的信息。
作为大数据应用或者数据挖掘的典型案例,“啤酒和尿布”的故事就经常被人提起。这个故事讲的是美国沃尔玛超市通过分析超市的销售数据,发现尿布和啤酒经常出现在同一个购物车里,于是就将这两个商品摆放在同一个区域里。而这个小小的变动也为沃尔玛超市提升了尿布和啤酒的销量,增加了销售收入。这就是基于大数据的挖掘分析发现的新商机,其背后的原因也可从美国当时的文化来解释,比如母亲在家中照看婴儿,父亲则负责去超市购买尿布,而父亲在逛超市的时候就会顺带买些啤酒。当然这只是个故事,真实性还有待考证,但是这个场景充分体现了大数据技术的商业应用价值。
大众点评“必系列”榜单
大数据不只是“大”人们在谈论大数据的时候,通常可能会觉得大数据就是数据量大,数据多。这一说法其实并不全面,大数据通常被认为具有4V的特点:
Volume(体量大):这也是人们在直观上对大数据的认识,就是所谓的“大”。也即数据规模要海量。
Velocity(速度快):一方面,数据的价值只有通过充分挖掘后才能体现,而大量数据的处理分析又需要时间,因此就必须要快才行,这也体现了“时间就是金钱”的道理。另一方面,数据本身也有时效性。例如天气预报需要对大量的数据进行处理,而天气一直在变化,这些数据如果在一段时间内不能处理出结果,就已经失去了意义。
Variety(多样性):数据种类和来源类型要丰富。数据种类的多样性意味着可以在多个纬度上刻画出数据所描述的对象本身,从而形成立体的、全面的、细致的描述,有利于从数据中提取出信息。例如,对道路上交通流量进行检测,如果只从通过的车辆数据来分析,可以根据流量大小来判断哪些路口是拥堵的。但如果再考慮时间因素,就可能发现有些路口是经常拥堵的,有些路口只是上下班高峰时段才拥堵。再比如,超市在对销售数据进行分析的时候,除了商品本身的属性之外,还会考虑消费者的年龄、性别等属性,甚至消费当天的天气。例如,沃尔玛超市的“手电筒和馅饼”的故事,就讲述了灾害天气带来手电筒和馅饼的销量增长。
Value(价值大):人们关注大数据就是因为它所带来的价值,然而与数据的规模相比,其中真正有价值的数据就显得很少了,或者说数据价值的密度相对较低。例如,在安防应用场景中的视频监控数据,大量的都是正常的不需要关注的视频数据,真正有价值的可能就只有短短几秒钟。这就需要通过机器学习、数据挖掘或者人工智能等方法在大量数据中进行深度分析,找出真正有价值的信息。数字化生活中的大数据
驾车路线推荐
大数据就在我们身边,它融入到日常生活中,也改变了人们的生活消费习惯。例如,现在不少人若要去餐馆吃饭时,习惯先上大众点评看看推荐菜再点菜;上淘宝购物,会按搜索结果去选择。这些场景正属于大数据技术的典型应用。还有支付宝年度账单、网易云音乐年度总结、中国移动年度账单等,也是基于消费者的行为数据,使用大数据统计分析技术进行挖掘后产生的。再比如,大众点评在2019年1月推出的“必逛榜”、“必玩榜”、“必住榜”这3个榜单,就是基于海量的消费大数据和实地体验的评选验证数据挖掘出来的。
人们每天上下班的出行时间往往有一定的规律,如果通过大数据挖掘技术对道路数据、定位数据、导航数据等海量的交通出行数据进行分析,就可以预测交通拥堵情况,为公众出行、机构研究和政府决策提供参考依据,甚至可以帮助规划设立交通路线。例如,杭州的公交345路的运行线路,就是采用大数据技术规划的线路,它以公交地铁接驳为特色,是杭州的第一条“大数据常规公交”。
再比如高德在2018年提出了城市交通立体化诊断和评价体系,并推出交通健康指数,以时间、空间、效率三个维度的多项交通运行数据指标为评价标准,实现城市全方位、立体化智慧运行诊断。高德还研发了“城市交通CT”系统,搭建基于海量用户和行业专业浮动车数据相结合的交通数据分享平台,并定期发布《中国主要城市交通分析报告》,描述城市交通现状、呈现演变规律、预测未来发展趋势,从而研究拥堵成因及解决对策。
杭州公交345路线路图
上文提及的2个例子只是交通大数据的应用,而一个城市还有政务数据、企业数据、社会数据、互联网数据等等。这些数据汇聚形成了一个城市的大数据,就产生了更大的想象空间和更多的应用场景。例如,杭州的“城市大脑”就是依托大数据、云计算、人工智能技术等众多前沿技术倾力打造的,它能够实现城市的数字化管理,对整个城市的大数据进行实时分析,自动调配公共资源,其应用领域也从交通治理延伸到了城市治理、市民服务等。2019年4月,杭州城市大脑受邀参展香港国际资讯科技博览会,向全世界展示了杭州在城市大数据以及数字经济领域的探索和经验,受到了广泛关注。这个系统还将为2022年举办的杭州亚运会提供服务。
健康app
现在有很多智能设备,如智能手环、智能手表、智能体脂秤等,配合相应的app后可以展示相关的健康数据。大数据在医疗领域也得到了应用,例如很多医院都已经为患者建立了电子病历,在看病过程中会将诊疗和治疗过程中的所有数据,如患者的基本信息、电子病历、医学影像数据等全部电子化,构建医疗大数据。通过对这些数据的分析,特别是在医院影像诊断等方面采用人工智能等技术进行数据分析,可以辅助诊疗。
健康状态图
据上海社科院测算,2016年到2018年,我国数字经济对GDP增长的贡献率分别达到74.07%、57.50%和60%,我国数字经济的增速已连续三年排名世界第一。可见数字经济已成为我国经济增长的核心动力。数据作为数字经济的核心能源,是数字经济高速发展的重要动力,因此大数据技术要不断发挥其优势,赋能数字经济发展,助力中国经济的崛起。