|
国内大数据领域已显示出或多或少的“泡沫”
在各界的加倍关注中,国内大数据领域的明显进展未现,却已经显示出或多或少的“泡沫”。借大数据之名圈钱、圈地或进行重复建设的苗头已然出现。这种情况下,需要清醒认识大数据发展与应用的重点。
第一,大数据发展的重点在于对数据对象的分析与应用。有专家建言,建设大规模数据中心,开展数据存储业务,就是发展大数据产业;也有机构提出发展大数据必须重点加强基础设施建设。这些观点都偏离了大数据的本意。
从根本上看,“大数据”并非一个科学、严格的概念,它来自于对数据规模的爆炸性增长这一现象的归纳。但在“海量数据”、“大规模数据”等概念已经存在的前提下,之所以还要提出新的概念,就是因为需要将对数据对象的处理和应用包含进来。再者,就数据的整个生命周期看,大数据的重点不在于对数据的传输、收集、存储,而是重在对数据的分析挖掘,并由此获得凭直觉难以发现的有用信息。可见,不盲目追求数据掌握量,而是将重点放在数据的分析挖掘与应用上,才能最大程度地实现大数据的真正价值。
第二,大数据对象的重点在于获取与使用。若仅就大数据对象而言,有专业机构提出,应做好源数据集合的建设。这种观点有一定道理,但也不完全正确。例如,要想运用大数据手段实现智能交通,需要有城市的道路规划、车辆、停车场等数据,这些数据多由政府部门所掌握,对相应数据库确实需要加强建设。但是,要想根据实际情况实时、灵活地管理交通,还必须随时跟踪和整理道路流量数据、停车场容量数据、天气数据、道路事故信息等,而这些数据,不仅可以来自于交管等政府部门,还能够通过微博、微信等渠道获取,甚至很多时候从微博上获取信息要比从管理部门更加迅速。而众所周知,微博等信息源是开放式的,任何部门都无法“拥有”这些数据,惟一能做的就是尽力抓取,尽快收集整理。
通过类似的事例可以发现,由微博、社交网络、搜索引擎等公开来源动态、实时获取的“外部数据”能够让数据使用部门所掌握的内部数据发挥更大价值。因此,对于大数据所涉及的数据对象,必须分类对待。对政府部门、公共服务机构、企业等所掌握和持续更新的数据,需要加强建设,作为大数据应用的基础。但同时,必须重视微博、微信、社交网络、搜索引擎等新兴数据源,做好对相关数据的跟踪、抓取、整理和应用。
第三,大数据作用的重点在于启发与辅助决策。社会关注大数据,是期望能够由其带来经济社会方面的收益,但同时,不应也不能苛求大数据分析结果的完全准确,更不能因为其不完全准确而否定其重要作用。
从数据对象看,大数据涉及微博数据、社交网络数据、搜索引擎数据等,其中不可避免地包括错误数据和无用数据。虽然能够通过一定的数据清洗、数据过滤手段去筛选,但也无法完全确保其真实性和准确性。这是客观存在的事实。
从分析结果看,大数据所完成的是数据与数据之间关联规则的发现,而非对规则的论证,它对研究人员、对决策者的价值,在于能够引导和启发大数据应用者的创新思维,辅助决策。简单点说,若是处理一个问题,通常人能够想到一种方法,而大数据能够提供十种参考方法,哪怕其中只有三种可行,也将解决问题的思路拓展了三倍。正如淘宝网给用户提供的产品推荐,不一定完全准确,但可以帮助用户更方便地选择商品一样。
大数据发展的策略
大数据领域的革新,标志着国家、行业、企业对于数据的应用需求和应用水平都在进入新的发展阶段。面对我国“大国、大市场”所天然具有的对大数据的分析应用需求,我们需要将大数据作为新一轮科技竞争和产业竞争的战略重点和制高点,顺应社会应用需求和产业发展趋势,加快大数据应用示范,推动经济社会各领域的大数据开发与利用。
一是选择百度、阿里巴巴、腾讯等拥有丰富数据资源和技术优势的互联网信息服务企业,开展大数据挖掘、分析、应用,并以之为基础面向公众提供各种类型的信息服务。支持互联网信息服务企业与专门的数据服务机构、企业合作,开展对互联网上的公开源数据的初步分析整理,开放数据整理与数据初步挖掘成果,促进各领域大数据的应用。
二是结合智慧城市建设,以政府和医疗卫生、文化教育、交通运输、公共安全等社会服务机构为切入点,加速各部门、各领域信息资源的融合共享,并接入微博、微信、社交网络等公开信息,为智慧城市各个领域提供强大决策支持,强化社会管理与服务的科学性和前瞻性。例如,通过对城市地理信息和经济、社会、文化、人口等人文社会信息的挖掘,为城市规划提供辅助;通过对城市道路、车辆信息和实时道路交通信息的挖掘,支持交通管理,缓解交通拥堵;通过对自然灾害历史信息和实时天气信息的挖掘,提高对自然灾害的安全防范能力和应急处理能力。
三是选择能源、金融、电信、交通、商业零售、工业制造、现代农业等领域的重点企业或机构,鼓励其基于企业积累的数据进行挖掘,为企业战略制定提供帮助,提高经营决策水平和业务效率,提升创新能力和服务质量,降低运营成本。例如,零售企业可通过对数据的实时分析掌握市场动态并迅速做出应对,通过精准营销增加营业收入;工业制造企业可通过整合来自研发、工程和制造部门的数据,实行并行工程,显著缩短产品上市时间并提高质量。各类企业还可从产品开发、生产和销售的历史大数据中找到创新的源泉,从客户和消费者的大数据中寻找新的合作伙伴,以及从售后反馈大数据中发现额外的增值服务,从而改善现有产品和服务,创新业务模式。
(作者为工业和信息化部赛迪智库软件与信息服务业研究所所长)
|