为什么我们说海量数据处理技术会火

7个月前 (04-22)

大数据处理技术正在改变目前计算机的运行模式。我们已经从中获得了大量收益,因为正是大数据处理技术给我们带来了搜索引擎Google。然而故事才刚刚开始,基于以下几个原因,我们说大数据处理技术正在改变着这个世界:

1.它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据。

2.它工作的速度非常快速:实际上几乎实时。

3.它具有普及性:因为它所用的都是最普通低成本的硬件

大数据为以下这些公司提供了解决方案:eBay、Facebook、LinkedIn、Netflix、Twitter以及Zynga。

事实上大数据处理并非一项新的技术,它仅仅是小部分技术的一个术语简称。其中的某些技术已经与我们生活了数度春秋,然而时间推移到2012年,其中更小的部分技术就让大数据一下子火了起来。

目前大数据市场已经达到700亿美元规模并以每年15%的速度增长

数据存储巨头EMC的CEO Pat Gelsinger最近透露,大数据处理目前的市场规模已达700亿美元并且正以每年15-20%的速度增长。几乎所有主要的大科技公司都对大数据感兴趣,对该领域的产品及服务进行了大量投入。其中包括了IBM、Oracel、EMC、HP、Dell、SGI、日立、Yahoo等,而且这个列表还在继续。

眼见着这些财大气粗的大公司动作频繁,VC们也没闲着,因为该领域将是他们未来的摇钱树。他们正寻找大数据领域可靠的创业企业进行投资,创新孵化机构Accel就于去年11月建立了1亿美元的“大数据”基金,同样,IA Ventures也于之前的一个月建立同样的基金。

大数据领域正吸引大量的人才进入

所有关于大数据的东西都在于“大”:潜在市场大、该领域的企业大,就算是那些刚刚进入该领域进行创业的小团队,他们拿到的投资额也大。因此,如果看到大量硅谷工程师牛人进入该领域的情形,我们不会感到意外。来自Google、Facebook以及Yahoo的工程师,正排队进入像Cloudera、Hortonworks以及MapR这样的大数据领域创业公司。

廉价技术使大数据变成可能

大数据处理之所以发生是因为存在这样的需求:

1.云技术给了人们廉价获取巨量计算和存储的能力。你不必去买一个大型机或者一个数据处理中心,只需为你使用的部分付费。

2.社交媒体意味着每个人都在创造有趣的数据也消费这些数据。

3.拥有GPS定位系统的智能手机正提供人们日常生活中新的见解。

4.宽带连接的普及使得人们时刻保持在线状态

任务分解,大数据技术由四种技术构成

我们前面提到大数据技术是很多种技术的某种,它们包括:

1.分析技术

2.存储数据库

3.NoSQL数据库

4.分布式计算技术

分析技术意味着对海量数据进行分析以实时得出答案

人们会思考运用云技术我们能做什么?IBM副总裁兼云计算CTO Lauren States解释说,运用大数据与分析技术,我们希望能获得一种洞察力。她提供了一个澳大利亚网球公开赛的一个案例。当时组委会在IBM的云平台上建立了一个叫Slam Tracker的分析引擎,Slam Tracker收集了最近5年比赛的近3900万份统计数据。通过这些数据分析出了运动员们在获胜时的一些表现模式。

存储数据库(In-Memory Databases)让信息快速流通

大数据分析经常会用到存储数据库来快速处理大量记录的数据流通。比方说,它可以对某个全国性的连锁店某天的销售记录进行分析,得出某些特征进而根据某种规则及时为消费者提供奖励回馈。

NoSQL数据库是一种建立在云平台的新型数据处理模式

NoSQL在很多情况下又叫做云数据库。由于其处理数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。它为Zynga、AOL、Cisco以及其它一些企业提供网页应用支持。正常的数据库需要将数据进行归类组织,类似于姓名和帐号这些数据需要进行结构化和标签化。但是NoSQL数据库则完全不关心这些,它能处理各种类型的文档。

在处理海量数据同时请求时,它也不会有任何问题。比方说,如果有1000万人同时登录某个Zynga游戏,它会将这些数据分布于全世界的服务器并通过它们来进行数据处理,结果与1万人同时在线没什么两样。

NoSQL来自于大小不一的玩家

现今有多种不同类型的NoSQL模式。商业化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL;开源 免费的模式如CouchDB和Cassandra;还有亚马逊推出的NoSQL云服务。

分布式计算结了NoSQL与实时分析技术

如果想要同时处理实时分析与NoSQL数据功能,那么你就需要分布式计算技术。分布式技术结了一系列技术,可以对海量数据进行实时分析。更重要的是,它所使用的硬件非常便宜,因而让这种技术的普及变成可能。

SGI的Sunny Sundstrom解释说,通过对那些看起来没什么关联和组织的数据进行分析,我们可以获得很多有价值的结果。比如说可以分发现一些新的模式或者新的行为。运用分布式计算技术,银行可以从消费者的一些消费行为和模式中识别网上交易的欺诈行为。

分布式计算技术让不可能变成可能

分布式计算技术正着将不可能变为可能。Skybox Imaging就是一个很好的例子。这家公司通过对卫星图片的分析得出一些实时结果,比如说某个城市有多少可用停车空间,或者某个港口目前有多少船只。它们将这些实时结果卖给需要的客户。没有这个技术,要想快速便宜的分析这么大量卫星图片数据将是不可能的。

分布式计算技术是Google的核心,也是Yahoo的基础

目前分布式计算技术是基于Google创建的技术,但是却由Yahoo所建立。Google总共发表了两篇论文,2004年发表的叫做MapReduce的论文介绍了如何在多计算机之间进行数据处理;另一篇于2003年发表,主要是关于如何在多服务器上存储数据。

来自于Yahoo的工程师Doug Cutting在读了这两篇论文后建立了分布式计算平台,以他儿子的玩具大象名。如今Cutting已经离开Yahoo,加入了的分布式系统创业公司Cloudera。其它一些创业企业包括MapR以及Yahoo自己的Hortonworks。但是所有的IT供应商都提供这个技术,它们或者以产品的形式,或者基于其云计算平台。

该技术经常是 免费的,但是咨询费则相当昂贵

大多数大数据技术都是开放项目并且 免费,通过提供服务来盈利。很多有需求的IT企业不了解如何建立这方面的应用,也没有这个必要。主流的IT公司都在建立这方面的产品和服务,以帮助企业充分利用分布式技术的强大优势。其中包括了很多正在崛起的初创企业。我们可以相信,未来类似Google这样的企业将更多来自于这些创业企业。

文章来源:36氪