1.2 一般大数据特征

1.2.1 大数据的概念

世界的本质是数据。在自然界和人类社会,事物总处于不断地运动、变化之中,时时刻刻都在产生信息,以物理场、化学变化、机械运动等形式表现出来,并通过声、光、电、数字、符号、色彩、图像、视频等方式为外界所感知。大数据的概念是伴随着现代信息技术的推进,特别是互联网技术的迅速发展而提出的。

在农业社会和工业社会,由于人类活动有限——范围有限和程度有限,人类获取和产生的数据是相对有限和可控的,因此无论生产、生活,还是科研,其信息和数据没有广泛交融,相对处于孤岛状态。在20世纪70年代末世界范围的信息大爆炸之后,情况迅速发生变化。一股夹风带雨、汹涌澎湃的“大数据浪潮”以排山倒海之势汹涌而来。随着人类活动的广泛深入和高新技术的快速发展,天上卫星、地下轨道、海上舰船、海上油井、交通枢纽、水电站、发电厂、储物仓库、办公大楼……到处都有传感器的分布,手机、计算机、光驱、移动硬盘、互联网接踵而至,社交网络、电子商务、网络教育、虚拟社区如雨后春笋般不断涌现。海上、陆地、空中、太空中的信息像脱缰的野马迅猛来袭。随着越来越多的传感器、移动终端接入网络,开启了飞速增长的数据闸门。大数据“奔腾”在社会、政治、经济、军事、生活的各个领域。移动带宽不断提升,云计算、物联网包罗万象。这些反映自然界和人类各种活动的数据、信息、情报不断产生、出现,并通过互联网交织、汇聚、扩散,呈现出前所未有的弥漫、生长和浩瀚之势,以至于人们使用过去局域化的方法已无法对其进行处理。21世纪,纷繁复杂的大数据充斥着整个世界,反映并体现着这个世界的本质。毫无疑问,这是一个大数据的时代。

从天空到太空,从陆地到海洋,人们可以从物理、化学、生物等不同角度和方面收集这个世界的各种大数据。所获取的这些大数据最终要向一起汇聚,用于认识这个世界的各种现象和活动。对于这个新时代,有人漠视,有人则预感将要改变我们的生活、工作和思维:1980年,世界著名未来学家阿尔文·托夫勒在其著作《第三次浪潮》中首次明确提出“大数据”一词,并将大数据讴歌为“第三次浪潮的华彩乐章”;20世纪90年代初,“数据仓库之父”Bill Inmon津津乐道于大数据的概念;2005年,《无所不包括的数据》一书出版,该书讲述了大数据会如何改变企业的发展和人们的生活;2010年,“163大数据”正式成为互联网IT行业的流行词汇,至此,大数据的概念基本成型;2011年,全球著名咨询公司麦肯锡全球研究院发布了题为《大数据:下一个创新、竞争和生产力的前沿》的研究报告,正式宣布大数据时代已经到来,指出当前大数据的规模及其存储容量正在迅速增长,并已渗透到全球各个行业的业务领域。

1.2.2 大数据的内涵

古希腊哲学家毕达哥拉斯认为,数是万物的本原。数据的含义是“已知”,可以理解为事实,表示对某种事物或现象的客观描述。大数据,英文为Big Data,从字面上看,大数据虽然表示数量巨大的数据或海量的数据,但实际上,大数据是一个较为抽象的概念,数量巨大仅是大数据特征的一个方面。维基百科对大数据的定义是所涉及的数据量规模巨大到无法通过惯有的人工和技术,在合理时间内完成截取、管理、处理,并整理成为人类所能解读的信息。大数据的本质不在于数量巨大,而在于其隐含着这个世界体系、组织、运动和状态等所有层面的信息,提供了理解、发现和洞见这个世界的一种方式。大数据本身既不是科学,也不是技术,而是信息时代的一种客观存在。其战略意义不在于掌握多么庞大的数据,而在于通过对大量数据进行专业化存储、处理来挖掘、提取所需要的知识和信息,发现更高层次的规律,深化对这个世界的认知。换言之,如果把大数据比作一种产业,那么这种产业能否赢利的关键在于提高对数据多维度、多角度的分析加工能力,即通过分析加工、应用来实现数据的“价值”和“增值”[3]。大数据不仅包括大量的数据,还包括处理数据的速度和质量。著名的大数据研究机构Gartner将大数据定义为需要新处理模式才能令其具有更强的决策力、洞察力、流程优化能力的海量、高增长率和多样化的信息资产。

从技术角度看,大数据关注“数据”,即着眼于业务和功能,需要采用不同于传统的特殊技术来有效处理大量的数据。这些特殊技术包括大规模并行处理技术、分布式文件系统、分布式数据库、云计算平台、移动互联网和可扩展存储系统等。

大数据的绝大部分价值都隐藏在表面之下[4],而挖掘数据价值、征服“数据海洋”的新型工具就是云计算。云计算的特点在于依托并行网络化计算、分布式数据库、云存储、虚拟化技术等对海量数据进行分布式数据挖掘。其关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型等都是大数据技术的基础。

1.2.3 大数据的特点

大数据是具有多元、多角度价值,不能用过去局域化的方法提取、存储、搜索、共享、分析、处理的海量复杂数据的集合,具有整体性、全息性、关联性和动态性。通常用4个“V”来概括大数据的特点。

1.规模巨大(VoIume)

大数据显现出来的直接特点就是数据量大。大数据是全域的、混杂的全体数据,以规模取胜。这一特征至少有两个方面的含义:一是数据量大,例如,2007年全球数字内容总量高达1610亿GB,尽管这种数据量规模是相对的,但对于某个领域而言,绝对是货真价实的大数据,在操作大数据时,直接处理的就是这种海量数据,而不是进行抽样分析;二是随着人类活动的广泛深入、高新技术的应用与快速发展,信息和数据随着时间的推移呈指数级增长,根据国际数据公司(IDC)预计,每年的数据内容都在以50%以上的速度增长,不到两年就翻一番,数据规模不断被刷新。

目前,大数据的数据量级已从万亿字节(TB)发展至千万亿字节(PB),甚至十万亿亿字节(ZB)。

2.数据类型多样(VariabIe)

相较以文本为主的传统关系型数据,当前由自然和人类社会活动产生的数据,包括传感器信息、音频、视频、图片、可扩展标记语言、超文本标记语言、地理位置等半结构化和非结构化数据呈现爆发式增长。这些来源广泛、类型多样的半结构化、非结构化数据,以及结构化数据共同构成了大数据集合。大量多源异构的多媒体数据,特别是占据相对较大比重且呈现快速增长之势的非结构化多媒体数据大大增加了深度分析的复杂度,现有的数据库技术难以突破这一瓶颈。

3.产生和流通速度极快(VeIocity)

产生和流通速度极快是当前大数据的又一重要特点。区别于静态的数据仓库和缓速的数据挖掘,大数据往往为高速实时数据流。其大体量和爆炸式的增量数据流要求能够被快速、持续、及时地在线处理,并能够被快速存储,数据的产生、存储、处理、消费及呈现是快速、一体化的。

4.价值多元、密度低(VaIue)

大数据是自然和人类活动的表征或体现。大数据的价值可以从多方面呈现。从不同的角度看,大数据具有不同的价值。总体而言,大数据是知识的宝藏。通过数据的交换、整合、聚类、分析,新的知识、新的规律将可能被发现,新的意义、新的价值将可能产生。对于具体的应用,大数据的价值密度与数据总量的大小成反比,表现出某种低密度性。例如,在一段1h的监控视频中,具有重大价值之处可能仅为1~2s的数据流。