從(cóng)十大(dà)技術和(hé)十家機構一覽大(dà)數據

添加時(shí)間：2015-01-16 10:01:21 文(wén)章來(lái)源：本站(zhàn) 浏覽次數：125 次

根據最新的思科全球雲指數報(bào)告，預計(jì)到(dào)2017年年底，全球數據中心年均IP流量将達到(dào)7.7ZB。總體而言，數據中心IP流量在2012年到(dào)2017年之間将以25%的複合年均增長率（CAGR）增長。現(xiàn)在增長的速度更快(kuài)，而且組織需要依靠大(dà)量的數據集幫助它們運營、量化和(hé)發展業務。在過去幾年裏，大(dà)型數據庫經曆了(le)從(cóng)GB到(dào)TB再到(dào)PB級的發展過程。此外(wài)，數據也(yě)不再是存儲在一個地方，随着這(zhè)些(xiē)數據的增長以及雲計(jì)算(suàn)的發展，這(zhè)些(xiē)數據實現(xiàn)了(le)分布式存儲。幾乎所有行業都在發展大(dà)數據和(hé)數據科學科學：大(dà)型強子對(duì)撞機每秒大(dà)約進行6億次碰撞。因此，隻有當傳感器流數據小(xiǎo)于0.001%的時(shí)候才有效，從(cóng)四個大(dà)型強子對(duì)撞機實驗中産生的數據意味着每年将産生25PB的數據（統計(jì)于2012年），此外(wài)備份還會(huì)産生大(dà)量數據，備份後的數據有可能(néng)達到(dào)200PB。

研究：美(měi)國航空(kōng)航天局的氣候模拟中心（NCCS）在其超級計(jì)算(suàn)機平台上(shàng)存儲了(le)約32PB的氣候觀測和(hé)模拟數據。私有/公共：亞馬遜每天處理(lǐ)的後端操作(zuò)達數百萬，此外(wài)還有超過50萬個第3方賣家的查詢操作(zuò)。亞馬遜的核心技術運行在基于Linux的數據庫系統上(shàng)，截至2005年，亞馬遜擁有世界上(shàng)三個最大(dà)的Linux數據庫，容量分别達到(dào)了(le)7.8TB、18.5TB、24.7TB。組織被迫尋找新的創造性方法來(lái)管理(lǐ)和(hé)控制如此龐大(dà)的數據，目的不隻是爲了(le)整理(lǐ)數據，而是要分析和(hé)挖掘數據來(lái)進一步發展業務，因此，一些(xiē)開(kāi)源大(dà)數據技術值得考慮： Apache HBase：這(zhè)個大(dà)數據管理(lǐ)平台建立在谷歌強大(dà)的BigTable管理(lǐ)引擎基礎上(shàng)。作(zuò)爲具有開(kāi)源、Java編碼、分布式多個優勢的數據庫，Hbase最初被設計(jì)應用(yòng)于Hadoop平台，而這(zhè)一強大(dà)的數據管理(lǐ)工(gōng)具，也(yě)被Facebook采用(yòng)，用(yòng)于管理(lǐ)消息平台的龐大(dà)數據。 Apache Storm：用(yòng)于處理(lǐ)高(gāo)速、大(dà)型數據流的分布式實時(shí)計(jì)算(suàn)系統。

Storm爲Apache Hadoop添加了(le)可靠的實時(shí)數據處理(lǐ)功能(néng)，同時(shí)還增加了(le)低(dī)延遲的儀表闆、安全警報(bào)，改進了(le)原有的操作(zuò)方式，幫助企業更有效率地捕獲商業機會(huì)、發展新業務。

Apache Spark：該技術采用(yòng)内存計(jì)算(suàn)，從(cóng)多叠代批量處理(lǐ)出發，允許将數據載入内存做反複查詢，此外(wài)還融合數據倉庫、流處理(lǐ)和(hé)圖計(jì)算(suàn)等多種計(jì)算(suàn)範式，Spark用(yòng)Scala語言實現(xiàn)，構建在HDFS上(shàng)，能(néng)與Hadoop很(hěn)好(hǎo)的結合，而且運行速度比MapReduce快(kuài)100倍。

Apache Hadoop：該技術迅速成爲了(le)大(dà)數據管理(lǐ)标準之一。當它被用(yòng)來(lái)管理(lǐ)大(dà)型數據集時(shí)，對(duì)于複雜(zá)的分布式應用(yòng)，Hadoop體現(xiàn)出了(le)非常好(hǎo)的性能(néng)，平台的靈活性使它可以運行在商用(yòng)硬件系統，它還可以輕松地集成結構化、半結構化和(hé)甚至非結構化數據集。 Apache Drill：你(nǐ)有多大(dà)的數據集？其實無論你(nǐ)有多大(dà)的數據集，Drill都能(néng)輕松應對(duì)。通過支持HBase、Cassandra和(hé)MongoDB，Drill建立了(le)交互式分析平台，允許大(dà)規模數據吞吐，而且能(néng)很(hěn)快(kuài)得出結果。

Apache Sqoop：也(yě)許你(nǐ)的數據現(xiàn)在還被鎖定于舊系統中，Sqoop可以幫你(nǐ)解決這(zhè)個問題。這(zhè)一平台采用(yòng)并發連接，可以将數據從(cóng)關系數據庫系統方便地轉移到(dào)Hadoop中，可以自(zì)定義數據類型以及元數據傳播的映射。事(shì)實上(shàng)，你(nǐ)還可以将數據（如新的數據）導入到(dào)HDFS、Hive和(hé)Hbase中。

Apache Giraph：這(zhè)是功能(néng)強大(dà)的圖形處理(lǐ)平台，具有很(hěn)好(hǎo)可擴展性和(hé)可用(yòng)性。該技術已經被Facebook采用(yòng)，Giraph可以運行在Hadoop環境中，可以将它直接部署到(dào)現(xiàn)有的Hadoop系統中。通過這(zhè)種方式，你(nǐ)可以得到(dào)強大(dà)的分布式作(zuò)圖能(néng)力，同時(shí)還能(néng)利用(yòng)上(shàng)現(xiàn)有的大(dà)數據處理(lǐ)引擎。 Cloudera Impala：Impala模型也(yě)可以部署在你(nǐ)現(xiàn)有的Hadoop群集上(shàng)，監視(shì)所有的查詢。該技術和(hé)MapReduce一樣，具有強大(dà)的批處理(lǐ)能(néng)力，而且Impala對(duì)于實時(shí)的SQL查詢也(yě)有很(hěn)好(hǎo)的效果，通過高(gāo)效的SQL查詢，你(nǐ)可以很(hěn)快(kuài)的了(le)解到(dào)大(dà)數據平台上(shàng)的數據。

Gephi：它可以用(yòng)來(lái)對(duì)信息進行關聯和(hé)量化處理(lǐ)，通過爲數據創建功能(néng)強大(dà)的可視(shì)化效果，你(nǐ)可以從(cóng)數據中得到(dào)不一樣的洞察力。Gephi已經支持多個圖表類型，而且可以在具有上(shàng)百萬個節點的大(dà)型網絡上(shàng)運行。

Gephi具有活躍的用(yòng)戶社區(qū)，Gephi還提供了(le)大(dà)量的插件，可以和(hé)現(xiàn)有系統完美(měi)的集成到(dào)一起，它還可以對(duì)複雜(zá)的IT連接、分布式系統中各個節點、數據流等信息進行可視(shì)化分析。

MongoDB：這(zhè)個堅實的平台一直被很(hěn)多組織推崇，它在大(dà)數據管理(lǐ)上(shàng)有極好(hǎo)的性能(néng)。MongoDB最初是由DoubleClick公司的員工(gōng)創建，現(xiàn)在該技術已經被廣泛的應用(yòng)于大(dà)數據管理(lǐ)。

MongoDB是一個應用(yòng)開(kāi)源技術開(kāi)發的NoSQL數據庫，可以用(yòng)于在JSON這(zhè)樣的平台上(shàng)存儲和(hé)處理(lǐ)數據。目前，紐約時(shí)報(bào)、Craigslist以及衆多企業都采用(yòng)了(le)MongoDB，幫助他(tā)們管理(lǐ)大(dà)型數據集。

（Couchbase服務器也(yě)作(zuò)爲一個參考）。在我們這(zhè)個DOD（data-on-demand）社會(huì)，每天都有大(dà)量的數據産生，并且大(dà)量的數據被收集在主要IT系統中。無論是社交媒體的照片還是國際商店(diàn)交易信息，大(dà)量高(gāo)質量、可量化的數據每天都在爆炸性增加，應對(duì)的唯一方法就是快(kuài)速部署一個高(gāo)效的管理(lǐ)方案。切記，除了(le)要對(duì)數據進行快(kuài)速的分類和(hé)組織，IT管理(lǐ)人員必須具有挖掘信息并将其應用(yòng)到(dào)業務中的能(néng)力。商業智能(néng)和(hé)數據量化背後的科學将繼續發展和(hé)擴大(dà)，企業取得競争優勢的關鍵在于能(néng)否對(duì)它們的數據進行很(hěn)好(hǎo)的管理(lǐ)。

上(shàng)一篇：這(zhè)是第一篇

下(xià)一篇：大(dà)數據不需要虛拟化？其實不然