大数据（big data）介绍

发布时间：2014-08-19 09:07:00 点击：

作为目前最流行的话题-大数据（big data），人们似乎耳熟能详，但对于到底什麽是大数据、大数据有什麽特点往往难以描述清楚，本文将对大数据进行简单的介绍。

什麽是大数据

严格的说，大数据包含两层意思，首先，随着各种虚拟化和云计算技术的广泛使用、移动信息的日益普及、社交媒体的日趋丰富、以及物联网的广泛部署，所有这些都势必会产生大量的数据（数据量大）；其次，这些数据无法在一定时间内通过传统的软件或工具对其进行抓取、管理和处理的，必须通过全新的技术才能完成，这就是大数据技术。大数据技术可以从各种各样类型的数据中，快速获得有价值信息。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘系统，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。

大数据的特点

具体来说，大数据具有4个基本特征：

一是数据量巨大。百度资料表明，其新首页导航每天需要提供的数据超过1.5PB，这些数据如果打印出来将超过5千亿张A4纸。有资料证实，到目前为止，人类生产的所有印刷材料的数据量仅为200PB。

二是数据类型多样。现在的数据类型不仅是文本形式，更多的是图片、视频、音频、地理位置信息等多类型的数据，个性化数据占绝对多数。

三是处理速度快。数据处理遵循“1秒定律”，可从各种类型的数据中快速获得高价值的信息。

四是价值密度低。以视频为例，一小时的视频，在不间断的监控过程中，可能有用的数据仅仅只有一两秒。

大数据的作用

第一，对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态，这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化，将结果反馈到上述应用中，将创造出巨大的经济和社会价值。

第二，大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域，大数据将对芯片、存储产业产生重要影响，还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域，大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。

第三，大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。

对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对；可以为商家制定更加精准有效的营销策略提供决策支持；可以帮助企业为消费者提供更加及时和个性化的服务；在医疗领域，可提高诊断准确性和药物有效性；在公共事业领域，大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。

第四，大数据时代科学研究的方法手段将发生重大改变。例如，抽样调查是社会科学的基本研究方法。在大数据时代，可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据，进行挖掘分析，揭示出规律性的东西，提出研究结论和对策。

大数据的处理

通常来说，大数据处理的普遍流程至少应该满足以下四个步骤，才能算得上是一个比较完整的大数据处理。

1.采集

大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2.导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

3.统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到IBM的Puredata、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

4.挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

大数据的常见误解

1.数据不等于信息

经常有人把数据和信息当作同义词来用。其实不然，数据指的是一个原始的数据点（无论是通过数字，文字，图片还是视频等等），信息则直接与内容挂钩，需要有资讯性（informative）。数据越多，不一定就能代表信息越多，更能不能代表信息就会成比例增多。有两个简单的例子：

备份。很多人如今已经会定期的对自己的硬盘进行备份。这个没什么好多解释的，每次备份都会创造出一组新的数据，但信息并没有增多。

多个社交网站上的信息。我们当中的很多人在多个社交网站上活跃，随着我们上的社交网站越多，我们获得的数据就会成比例的增多，我们获得的信息虽然也会增多，但却不会成比例的增多。不单单因为我们会互相转发好友的微博（或者其他社交网站上的内容），更因为很多内容会十分类似，有些微博虽然具体文字不同，但表达的内容十分相似。

2.信息不等于智慧（Insight）

现在我们去除了数据中所有重复的部分，也整合了内容类似的数据，现在我们剩下的全是信息了，这对我们就一定有用吗？不一定，信息要能转化成智慧，至少要满足以下三个标准：

可破译性。这可能是个大数据时代特有的问题，越来越多的企业每天都会生产出大量的数据，却还没想好怎么用，因此，他们就将这些数据暂时非结构化（unstructured）的存储起来。这些非结构化的数据却不一定可破译。比如说，你记录了某客户在你网站上三次翻页的时间间隔：3秒，2秒，17秒，却忘记标注这三个时间到底代表了什么，这些数据是信息（非重复性），却不可破译，因此不可能成为智慧。

关联性。无关的信息，至多只是噪音。

新颖性。这里的新颖性很多时候无法仅仅根据我们手上的数据和信息进行判断。举个例子，某电子商务公司通过一组数据/信息，分析出了客户愿意为当天送货的产品多支付10块钱，然后又通过另一组完全独立的数据/信息得到了同样的内容，这样的情况下，后者就不具备新颖性。不幸的是，很多时候，我们只有在处理了大量的数据和信息以后，才能判断它们的新颖性。

大数据应用与案例分析

目前大数据已应用于各行各业，比如最近IBM与厦门市政府共建的智慧城市项目中，首创针对糖尿病管理的健康云，为糖尿病患者建立“私人定制”的健康档案及健康照护计划，包括锻炼、体检、饮食等。比如，针对非常不喜欢运动的患者，在线医生或营养师可教他健康饮食；患者之间还可以借助社区互动交流。项目在启动后得到当地政府、医院和媒体的热烈反响，极大提升患者诊疗服务。

上一篇：指尖上的彩票大数据的盛宴下一篇：联想集团宣布将完成收购IBM x86服...

关于我们: 公司资质; 联络我们; 加入我们; 合作伙伴

新闻中心: 公司新闻; 行业新闻

产品中心: 服务器产品; 存储产品; 软件产品; 虚拟化产品

解决方案: 云架构; 数据安全; 成功案例

服务: 咨询服务; 运维服务; 培训服务

技术支持: 资源中心; 常见问题

友情链接: 昆威微信昆威微信

E-mail： sales@e-sunasia.com