什么是大数据?
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(mpp)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据有何作用?
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(ramayya krishnan,卡内基·梅隆大学海因兹学院院长)。
第二,大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。
第四,大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。
了解了大数据的概念和作用,我们先来看一下商业巨头们如何利用大数据吧。
一、谷歌公司(google inc)
第一个 :recaptcha案例。
这个虽然是被谷歌收购的,但是,具有典型的谷歌思维。为了解决垃圾邮件和网络机器人的问题,冯.安发明了验证码的解决方案。如果只限于此,也就没有特别可以称道的,但是他意识到每天有这么多人要浪费10秒钟的时间输入这堆恼人的字母,而随后大量的信息被随意地丢弃时,他开始寻找能使人的计算能力得到更有效利用的方法。 他想到了一个继任者,恰如其分地将其命名为recaptcha。和原有随机字母输入不同,人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。其中一个单词其他用户也识别过,从而可以从该用户的输入中判断注册者是人;另一个单词则是有待辨识和解疑的新词。为了保证准确度,系统会将同一个模糊单词发给五个不同的人,直到他们都输入正确后才确定这个单词是对的。在这里,数据的主要用途是证明用户是人,但它也有第二个目的:破译数字化文本中不清楚的单词。recaptcha的作用得到了认可,2009年谷歌收购了冯·安的公司,并将这一技术用于图书扫描项目,再后来,谷歌街景也开始使用这项技术。把验证码和ocr需求巧妙结合起来,这展示了思维的威力,实现了recaptcha技术提供者和使用者的双赢,技术提供者利用ocr识别获得了自己的受益,使用者不需要任何付费(互联网免费思维),也愿意使用,对于用户其实也没有影响,没有增加额外的工作。上研究生的时候,就研究ocr汉字识别问题,识别率始终是个问题,对于手写就更低了,要花费大量人力来解决,并且,人工识别工作是非常无聊,没有办法来保障质量。再想起12306的验证码,更令人无语了。我们浪费了多少资源?我们有多少资源可用充分来利用?
第二个:拼写检查纠错的案例。
我们都经常使用微软的word,其中就有拼写检查纠错功能,微软实现这个功能,采用的是传统的软件思维,也就是利用规则和词库来解决,这个需要不断耗费人力进行规则和词库的升级,对于不同的语言,耗费更是巨大。谷歌解决这个方法,用的相对巧妙,在搜索的时候,当你输入一个错误的词时,会给一个提示,要找的是不是建议的词,如果用户确认后,谷歌就进行记录处理,后面,再经过一些算法处理,经过大量的数据学习,各个拼写检查纠错就越来越好,并且,这个后续维护成本很低, 效果越来越好。其实,谷歌翻译也使用了类似的思路,虽然前期算法,包括大数据处理花费了比较多,后续,基本实现了自动化,系统会越来越强,维护升级成本很低,项目就变成可持续发展。
第三个:对流感的预测
2009年,一种新型的流感病毒h1n1在全球迅速传播开来。美国,和世界上所有的国家一样,要求医生们发现案例市告知疾病控制与预防中心。但是,人们并不是在第一时间去医院检查,而是会有一段时间的延迟,消息要传达到疾控中心也要时间,从而造成一定的滞后性。
在该病毒爆发的几周前,谷歌公司的工程师们在《自然》杂志上发表了一篇论文。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围内,而且具体到特定的地区和州。
谷歌如何做到的呢?数据。
谷歌通过观察人们在网上的搜索记录来完成这个预测,谷歌保存了多年来所有的搜索记录,每天都会超过30亿条的搜索指令。如此庞大的数据资源才能支撑谷歌完成这项工作。
二、facebook。
facebook(脸书)是美国的一个社交网络服务网站 ,创立于2004年2月4日,总部位于美国加利福尼亚州帕拉阿图,2012年3月6日发布windows版桌面聊天软件facebook messenger ,主要创始人马克·扎克伯格。它是世界排名领先的照片分享站点,截至2013年11月每天上传约3.5亿张照片、截至2012年5月,拥有约9亿用户。facebook的总部设在硅谷的门洛帕克(menlo park)——1 hacker way 从2006年9月11日起,任何用户输入有效电子邮件地址和自己的年龄段,即可加入。在2015年8月28日,单日用户数突破10亿。
fancebook,拥有这庞大数据,同时它也不会浪费这些数据。facebook通过用户社交网络图得知人们的喜好、
说完了,我们转过头看一下我们国内。
大数据现今在国内也是蓬勃发展,让我让数据说话!
大数据企业发展态势
态势一:2017年,我国大数据企业依旧整体呈现“金字塔”状的实力分布,从金字塔上层来看,我国大数据企业发展指数高于50的企业数量占比仅为7.4%,与去年相比,中高区间的龙头企业发展指数均有不同程度的提升,体现出“强者恒强”的发展势头。2017年,随着新晋企业数量增多、初创企业发展活力不断提升,金字塔根基更趋稳固;专精特新的独角兽企业发展势头迅猛,成为我国大数据企业发展的中坚力量。
态势二:2017年,我国大数据企业基础画像指数呈现较为明显的三重集团趋势,可以分为领军企业(数量占比9.23%,指数跨度从62.50到10.46)、中坚企业(数量占比29.49%,指数跨度从9.89到1.00)、上升企业(数量占比为50.16%,指数跨度从0.98到0.001)三类企业。从构成占比上看,2017年,我国大数据领军企业占比基本维持不变,而中坚企业占比显著增加,上升企业比例对比2016年有较为明显的减少。
态势三:2017年,我国大数据企业技术研发指数呈现“龙头领先、中小微主体跟进”总体趋势,技术研发指数超过10的龙头企业数量占比为9.85%,低于10的企业占比达到90.15%。大数据企业技术研发指数平均值为4.06,同比2016增长了3.18%,其中,以华为、中兴等通信企业和bat等互联网企业为代表的top20龙头企业的技术研发指数同比2016年增长了5.73%。
态势四:2017年,我国大数据企业市场拓展指数呈现出“龙头带动、全面壮大”的分布格局,我国大数据企业市场拓展指数小于30的企业数量占到92.88%,指数超过30的大数据企业占比为7.12%。与2016年相比,龙头企业依旧强势引领大数据市场,中间企业及长尾企业亦积极拓展市场版图,行业整体呈稳步发展态势。
态势五:2017年,大数据企业尤其是骨干企业发展集聚态势进一步强化,绝大多数企业集聚在北京、天津、山东、江苏、浙江、上海、广东、福建等东部沿海信息技术产业基础较好的省市。与2016年相比,东北、中西部等重点城市,以及乌鲁木齐、呼和浩特等地的大数据企业集聚化趋势日益明显。
态势六:2017年,我国产业环节大数据企业聚焦数据采集、数据存储、数据预处理、数据分析、数据可视化、数据流通,跨度从19.48到6.87,发展指数相对比较均衡,数据分析环节企业发展指数水平相对突出,发展指数达到19.48,数据大数据分析挖掘环节必将涌现出更多的独角兽企业。与2016年相比,大数据分析环节指数增长3.8,其他环节指数均有不同程度下降。
态势七:2017年,我国重点行业大数据产业企业聚焦政务、工业、健康医疗、交通、农业、金融、教育、能源等17个行业领域,企业平均发展指数为23.36,最高的安防大数据企业发展指数达到35.71,最低的能源大数据企业发展指数为16.89。与2016年相比,主要行业大数据企业平均发展指数同比增加了0.25,大多数行业发展指数都稳中有进,除安防领域初步定型,同比2016年降低了4.01,其他重点行业领域指数均有不同程度上升。
态势八:2017年,我国特色细分领域大数据企业主要分为三大阵营,与2016年相比,三大阵容的特色细分领域发生了明显变化。一是从事人工智能相关的龙头企业处于第一阵营,平均发展指数维持在21左右;二是从事工控安全、数据库、区块链、征信分析、商业智能bi、数据中心idc、数据营销、基因测序等10类细分领域大数据相关业务的龙头企业处于第二阵营,平均发展指数处于13.97到17.78之间;三是以虚拟现实、开源技术和车联网为代表的第三阵营,整体发展指数相对略低,处于12左右。
进过调研分析,我们可以作出预判
2018年我国大数据产业发展的主要趋势有:
1、产业将持续保持快速增长态势。预计2018年我国大数据核心产业规模将突破5700亿元。
2、融合渗透效应向更深层次延伸。延伸方向既包括经济运行、社会生活等应用领域,也包括物联网、人工智能等关联技术。
3、制造业数字转型作用日益凸显。以大数据驱动制造业数字化转型的新模式、新业态将不断涌现。
4、技术创新仍是产业发展主基调。大数据领域核心关键技术将加速突破,跨学科、跨领域交叉融合技术研究将成为发展重点。
5、产业集聚特色化发展态势逐步显现。国家大数据综合试验区建设的不断深入,一批省级大数据产业集聚区将进一步优化资源配置、形成集聚效应、发挥辐射带动作用。
6、产业生态体系迈入成熟完善阶段。大数据相关政策将加快落地实施,更多创新性政策将加快出台,大数据产业发展环境将进一步优化。
区域大数据产业发展态势:
态势一:2017年,国家大数据综合试验区依然引领产业发展,其所在区域的大数据产业发展总指数在全国大数据产业发展总指数的占比达37.54%。试验区内各省市指数较去年增幅均值为6.23,高于全国增幅均值的5.78,大数据产业发展速度高于全国平均水平。
态势二:2017年,大数据产业集聚发展效应进一步凸显,长三角地区、珠三角地区、中西部地区和东北地区大数据产业集聚发展格局基本形成。
态势三:2017年,北京、江苏、广东、浙江、上海等五省市成为大数据产业发展第一梯队,其大数据发展总指数在全国大数据发展总指数的占比高达26.52%,领先的优势地位明显。浙江省大数据产业发展指数较去年增长12.71,成为全国大数据产业发展指数增幅最高城市。
态势四:2017年,我国东部、西部、中部、东北四个分区产业发展差异化明显。东部地区整体发展水平最高,大数据产业发展指数增幅均值为7.39,远超全国平均水平5.78,天津、河北、海南排名上升;西部地区未来仍有巨大发展空间,重庆大数据产业发展指数较去年增长10.12,增幅仅次于浙江省位列全国第二,宁夏、内蒙古二地成后起之秀;中部地区整体发展速度高于西部和东北,山西发力大数据产业,排名明显提升。东北地区辽宁继续蝉联区域榜首,辐射带动作用逐步凸显。
态势五:2017年,各省市大数据产业发展环境均呈现向好态势,各省市的发展环境平均指数为10.9,较去年提高32.9%,18个省市的发展环境指数高于平均值,占比达到58%,而发展环境指数在去年平均值以上的省市高达30个;同时,江苏、重庆、安徽等地由于组织机制进一步完善、区域信息化水平加速提升等因素影响,较去年排名增速明显。
态势六:2017年,全国各省市大数据产业发展水平均有提升,大数据产业发展总指数为363.9,较去年提升16.8%;
但受数据集聚开放水平、大数据产业规模、大数据企业主体等多种因素共同影响,各省...