全球数据产生量8.6ZB,大数据市场规模已达到170亿美元。中国已成为全世界最大的互联网市场之一,网民规模达6.88亿,手机网民超过6.2亿,产生数据总量超过全球总量的五分之一。作为奥巴马政府眼中“未来的新石油”,大数据正成为全球新一轮科技革命的“战略资源”。
笔者从4月1日举行的“上海数据交易中心成立仪式暨2016上海静安国际大数据论坛”上获悉,上海科创中心建设再度发力,紧抓未来发展的“战略资源”,上海数据交易中心正式揭牌并落户于市北高新园区。作为上海率先建立的大数据产业基地、上海市云计算产业基地,市北高新园区借力诸多国家战略在上海的交汇,利用自身大数据、云计算产业集聚发展优势,在盘活数据资源,推动大数据产业集聚和技术创新等方面已经带来了明显的示范效应。
“数据大咖”齐聚市北
浪潮集团实现公司云服务全国性运营管理的总部设立于上海,落户在市北;鹏博士布局全球云战略的上海总部,选择在市北;国内极少数能同时满足百度、阿里巴巴、腾讯三大互联网巨头数据中心需求的上海数据港,起源在市北……据统计,入驻市北高新园区的大数据云计算企业已经超过了150家,形成“政务云、医疗云、办公云、教育云、金融云”等多种云服务平台,构建起“基础设施层、系统平台层、云应用平台层、增值服务层、配套端产品层”五个层级产业链,园区丰富的大数据产业生态圈正日趋完善。
此次论坛,更是吸引了Intel、Oracle、IBM、Splunk、携程等全球100余家企业踊跃参与,尤其是大数据交易中心的落户,将有利于园区培育和打造国内领先、具有国际影响力的大数据资源流通平台,更有利于挖掘大数据领域内优质项目的落地生长,力争园区大数据产业发展和企业集聚从“行业级、区域级”向“世界级、国家级”进阶。
“数据大咖”缘何而来
“为什么那么多知名大数据企业选择市北?”这曾是不少媒体来到这里之前最大的困惑。然而,经过此次论坛以及笔者对园区企业的深入了解,答案越来越多的浮出了水面。
这里紧邻上海的交通动脉——南北高架和中环,承东启西,贯通南北。“当初选择市北高新,一个很重要的原因就是园区离市中心很近。市北高新园区在中心城区,从这里到人民广场直线距离仅8公里,应该说是我接触到上海的产业园区中离人民广场最近的园区之一。这里交通十分便利,地铁一号线贯穿园区,通过中环连接沪嘉、沪宁高速,能够快速到达长三角各个城市,非常适合作为我们在华东地区的总部。”上海晶赞科技发展有限公司CEO汤奇峰这样向笔者讲述。便利的交通条件,为企业省下了不少时间。如果说核心的区位优势和良好的交通条件是企业入驻园区的第一印象,那么,园区为人称道的服务和配套是企业愿意扎根的真正动力。绚丽浪漫的生态公园、别具风情的河道景观,处处描述着市北高新随处可见的风景。伴随着园区结构转型,作为全国服务业型的国家生态工业示范园区,市北高新用心、用情为入驻企业和员工营造和谐舒适的生态环境。经过多年的时间,园区以全新的理念承载起复合集约的园区发展体系,在园区内“产”与“城”逐渐融合,共融共生。园区搭建了商务服务中心、星级商务酒店、健康服务中心,建设了高端住宅、商业广场,配以生态化、智能化的产业载体,为园区产业发展壮大提供强大的承载力,也构建起了园区打通城市经贸、拓展发展骨架的“产城融合”新格局。
事实上,园区为了吸引企业,付出的远远不止这些。“市北高新本身就是云计算产业基地,科创中心建设的重要承载区,园区内有很好的产业集聚和创新的氛围,这一点同样吸引着我们。”汤奇峰说:“无论是大企业,还是创业型企业,除了完善的配套,更希望园区能够在政策上给予更多的支持。而在这方面,一直把大数据云计算作为支柱产业的市北高新做的相当不错。园区有专业的服务人员帮助我们企业积极争取各类产业专项扶持资金;园区建设了8万平方米的聚能湾科技企业孵化器,形成从孵化器到加速器再到产业集群的全链条大数据产业孵化体系;园区还将设立产业投资基金,专注于促进大数据领域的初创企业,为大数据产业的创新创业保驾护航。”
有着同样感受的浪潮集团副总裁王方表示,市北高新园区发展大数据产业很专业。比如说,园区新建的市北?云立方是专门为大数据企业量身定制的产业载体,无论是从楼层的层高、承重以及配电,还是从独栋数据中心的配置,无不体现出了园区对发展大数据产业的精品化和专业化。很显然,浪潮入驻市北高新看中的正是园区未来在大数据云计算产业领域的发展潜力。
未来,上海科创中心离不开大数据作支撑。市北高新正积极建设大数据产业集聚区,放眼全球聚焦大数据云计算的创新资源,园区正在积极探索与Intel、德国拜尔等大数据产业孵化平台的合作,最大限度地鼓励创新,吸引国际资本促进成果转化,使上海在世界范围内抢占知识、技术以及产业应用的制高点,不断提升上海全球创新中心资源配置的。
随着信息存储、信息分析、信息传送能力的不断提升,使得目前无论有多强的处理能力,便能产生多少数据,有多大的存储空间,数据便能占据多大的存储空间,技术为数据的产生提供了前提。此外,互联网也为大数据提供了环境。
云计算则给大数据提供了一个契机,数据开始从PC上,从个人的移动硬盘上慢慢往云端存储,只有云端数据经过统一存储,统一分析,统一挖掘才有可能。因此,云计算推进了大数据的历程。
物联网加速了大数据的发展,包括人与人,人与物,物与物的链接,手上戴的手环,让人与物联接;车联网,让这辆汽车跟那辆汽车联接,实现物与物的联接。当任何物体都能产生数据的时候,数据量自然特别庞大。
摩尔定律同样适用于大数据领域,即最近两年产生的数据是过去人类历史上产生数据的总和,也就是18个月到两年的时间内,便会实现世界数据量的翻番。
社交网络的推动, Internet是一个真真事实客观存在的网络,一个客观存在的世界。距离的虚拟化只是物理距离的虚拟化,社会网络继承了人类特有的情绪特性,当社交网络让机器有了人类的情感,将变得非常可怕。
举个例子,如果想与已经去世的外婆吃个饭聊个天,在未来是否有可能实现?龚才春认为,这是有可能实现的:“如果把人的一生全部数字化,通过大数据分析、处理和挖掘,完全可以预测我在某种情况下我说了什么话,我的外婆会回答什么话,这时候人类的情绪喜怒悲乐,这些情绪也有可能传递给一台机器。”
麦肯锡给大数据的定义是大小超过常规数据库工具的数据,但什么叫常规数据库工具这是没有定义的。超过数据处理能力的数据就叫大数据吗?自然也不一定。因此,从大数据的属性上分析会更加合理。
大数据 满足4V+1C
大数据必须同时满足4V+1C这五个条件才能称之为大数据。
首先是Volume,一定要求体量特别大,比如前阶段有人将重庆马拉松做成了一个大数据研究,得出的结论一半是重庆人,一半是外地人,这不能称之为大数据,一共只有两万多人参加了重庆的马拉松,这个体量不够大。但林彪当年打辽沈战役的时候,用十万人攻打国民党的二十万人,并用这十万人包围了一个小村子,就把敌将最好的指挥官给抓住。就是基于林彪每次打完账之后,就会让人汇报缴获的机枪、步枪、冲锋枪、手枪等情况,那次小规模的战役之后,他发现当时缴获的手枪比例特别高,所以林彪才得出那个地方是敌对指挥所的结论。在那个年代,这就是典型的大数据应用,但20万数据到现在就不行了。也就是数据体量大小与时间有关。数据体量与当时的技术及应用场景有关系。
第二、Variety,要求数据类型多,重庆的马拉松比赛类型很简单,从这点分析也不是大数据。一个大数据任务,一定要有各种各样类型的数据在一块处理,包括文本的,格式化的,非格式化的,视频的、音频的等等。
第三、Velocity,今天的大数据在明天就不一定是大数据,同时,数据还应该是动态的,比如中国有14亿人口的大数据,如果这个数据不适时更新,今年处理不了14亿数据,明年就有可能处理。
第四、Value,即数据价值, Value应具有两个特性,一个是商业价值高,另外,价值密度低。大数据就是在金矿上去淘金,金矿上淘金就满足这两个条件,淘金一定有商业价值,因为黄金很贵重,此外,价值密度特别低。因为一个金矿,这个金矿也许有上万吨的金沙,但是里面也许只有几百公斤的黄金,所以,它的价值密度特别低。
第五、Complex,需要足够复杂才能称之为大数据,如果脑袋拍一拍就知道,也一定不是大数据。比如说武汉大学男生最浪漫,因为经常给女性买玫瑰,这个因果关系如此简单,自然也不是大数据。
所以大家在市场上见到的所谓大数据研究结论,其实都不是大数据,因为它不能同时满足这五个特点。
大数据思维
大数据思维包括以下几种:
第一、全体思维,或者全样思维。若想知道洞庭湖有多少鱼,先买一万条鱼对一万条鱼做一个标记,放到洞庭湖,然后一个月之后捞起来,得到一万条鱼,这就是在小数据年代的抽样,再例如人口普查,也都是利用了抽样统计的原理。但是现在因为技术足够强大,可以全过程实时的把所有数据都采集过来。
第二、容易错误思维,这个世界没有完美的事情,所有的数据都有错误,都有不完美,都有虚假。在这种情况下,小数据年代采用的是数据清洗,大数据时代,不必再清廷,因为不完美的数据,错误的数据,甚至虚假的数据更能够反映它本来的面貌,它就是一种客观存在。
第三、相关关系不再是因果关系。这世界上可能比较少存在绝对的因果关系,比如以前认为天鹅就是白色的,但是后来发现澳大利亚有黑天鹅,因果关系弱,相关关系才是这个世界上的普遍关系,因此,需要树立相关关系的思维方式。
不以预测为目的的大数据都是耍流氓
龚才春说:“不以预测为目的的大数据都是耍流氓”。研究表明,世界有94%的事情是可以完全预测的。奥斯卡有48个奖项,通过对电影上影期间大家对这个电影的评价预测系统,最后预测对了奥斯卡奖每个奖项的最后得主,这就是大数据的威力。
此外,算法也许比你自己更了解你。比如某个职位的匹配,大家都认为HR最专业,结果发现机器找首选人的准确率是HR寻找侯选率准确率的120%。一个HR一天只能发出一万个邀约,而邀约机器人则能够发出两万多个。
世界上第一个大数据成功的商业应用是机票价格的预测。而亚马逊在这方面的研究也有较大突破。比如在家忽然想吃新疆大枣,便在亚马逊上下单,五分钟后送货上门。这样的场景已有可能实现,因为下单的时候亚马逊快递已经到楼下了。这便是因为预测,因为对用户数据足够了解,对和田大枣每年的销售数据足够了解,对这个片区这个楼有多少人有多大的概率会吃和田大枣,都已经做好了预算,所以这就是大数据的魅力,不以预测为目的的大数据都是耍流氓!