欄目導航
聯系我們

成都華閩科技有限公司

電話(huà):028-65065822

郵箱:cdhaiqing@163.com

聯系人:袁女士

地址:成都市高(gāo)新區(qū)天府三街69号

聯系我們

從(cóng)十大(dà)技術和(hé)十家機構一覽大(dà)數據

添加時(shí)間:2015-01-16 10:01:21 文(wén)章來(lái)源:本站(zhàn) 浏覽次數:125 次

根據最新的思科全球雲指數報(bào)告,預計(jì)到(dào)2017年年底,全球數據中心年均IP流量将達到(dào)7.7ZB。總體而言,數據中心IP流量在2012年到(dào)2017年之間将以25%的複合年均增長率(CAGR)增長。 現(xiàn)在增長的速度更快(kuài),而且組織需要依靠大(dà)量的數據集幫助它們運營、量化和(hé)發展業務。在過去幾年裏,大(dà)型數據庫經曆了(le)從(cóng)GB到(dào)TB再到(dào)PB級的發展過程。 此外(wài),數據也(yě)不再是存儲在一個地方,随着這(zhè)些(xiē)數據的增長以及雲計(jì)算(suàn)的發展,這(zhè)些(xiē)數據實現(xiàn)了(le)分布式存儲。 幾乎所有行業都在發展大(dà)數據和(hé)數據科學 科學:大(dà)型強子對(duì)撞機每秒大(dà)約進行6億次碰撞。因此,隻有當傳感器流數據小(xiǎo)于0.001%的時(shí)候才有效,從(cóng)四個大(dà)型強子對(duì)撞機實驗中産生的數據意味着每年将産生25PB的數據(統計(jì)于2012年),此外(wài)備份還會(huì)産生大(dà)量數據,備份後的數據有可能(néng)達到(dào)200PB。

研究:美(měi)國航空(kōng)航天局的氣候模拟中心(NCCS)在其超級計(jì)算(suàn)機平台上(shàng)存儲了(le)約32PB的氣候觀測和(hé)模拟數據。 私有/公共:亞馬遜每天處理(lǐ)的後端操作(zuò)達數百萬,此外(wài)還有超過50萬個第3方賣家的查詢操作(zuò)。亞馬遜的核心技術運行在基于Linux的數據庫系統上(shàng),截至2005年,亞馬遜擁有世界上(shàng)三個最大(dà)的Linux數據庫,容量分别達到(dào)了(le)7.8TB、18.5TB、24.7TB。 組織被迫尋找新的創造性方法來(lái)管理(lǐ)和(hé)控制如此龐大(dà)的數據,目的不隻是爲了(le)整理(lǐ)數據,而是要分析和(hé)挖掘數據來(lái)進一步發展業務,因此,一些(xiē)開(kāi)源大(dà)數據技術值得考慮: Apache HBase:這(zhè)個大(dà)數據管理(lǐ)平台建立在谷歌強大(dà)的BigTable管理(lǐ)引擎基礎上(shàng)。作(zuò)爲具有開(kāi)源、Java編碼、分布式多個優勢的數據庫,Hbase最初被設計(jì)應用(yòng)于Hadoop平台,而這(zhè)一強大(dà)的數據管理(lǐ)工(gōng)具,也(yě)被Facebook采用(yòng),用(yòng)于管理(lǐ)消息平台的龐大(dà)數據。 Apache Storm:用(yòng)于處理(lǐ)高(gāo)速、大(dà)型數據流的分布式實時(shí)計(jì)算(suàn)系統。

Storm爲Apache Hadoop添加了(le)可靠的實時(shí)數據處理(lǐ)功能(néng),同時(shí)還增加了(le)低(dī)延遲的儀表闆、安全警報(bào),改進了(le)原有的操作(zuò)方式,幫助企業更有效率地捕獲商業機會(huì)、發展新業務。

Apache Spark:該技術采用(yòng)内存計(jì)算(suàn),從(cóng)多叠代批量處理(lǐ)出發,允許将數據載入内存做反複查詢,此外(wài)還融合數據倉庫、流處理(lǐ)和(hé)圖計(jì)算(suàn)等多種計(jì)算(suàn)範式,Spark用(yòng)Scala語言實現(xiàn),構建在HDFS上(shàng),能(néng)與Hadoop很(hěn)好(hǎo)的結合,而且運行速度比MapReduce快(kuài)100倍。

Apache Hadoop:該技術迅速成爲了(le)大(dà)數據管理(lǐ)标準之一。當它被用(yòng)來(lái)管理(lǐ)大(dà)型數據集時(shí),對(duì)于複雜(zá)的分布式應用(yòng),Hadoop體現(xiàn)出了(le)非常好(hǎo)的性能(néng),平台的靈活性使它可以運行在商用(yòng)硬件系統,它還可以輕松地集成結構化、半結構化和(hé)甚至非結構化數據集。 Apache Drill:你(nǐ)有多大(dà)的數據集?其實無論你(nǐ)有多大(dà)的數據集,Drill都能(néng)輕松應對(duì)。通過支持HBase、Cassandra和(hé)MongoDB,Drill建立了(le)交互式分析平台,允許大(dà)規模數據吞吐,而且能(néng)很(hěn)快(kuài)得出結果。

Apache Sqoop:也(yě)許你(nǐ)的數據現(xiàn)在還被鎖定于舊系統中,Sqoop可以幫你(nǐ)解決這(zhè)個問題。這(zhè)一平台采用(yòng)并發連接,可以将數據從(cóng)關系數據庫系統方便地轉移到(dào)Hadoop中,可以自(zì)定義數據類型以及元數據傳播的映射。事(shì)實上(shàng),你(nǐ)還可以将數據(如新的數據)導入到(dào)HDFS、Hive和(hé)Hbase中。

Apache Giraph:這(zhè)是功能(néng)強大(dà)的圖形處理(lǐ)平台,具有很(hěn)好(hǎo)可擴展性和(hé)可用(yòng)性。該技術已經被Facebook采用(yòng),Giraph可以運行在Hadoop環境中,可以将它直接部署到(dào)現(xiàn)有的Hadoop系統中。通過這(zhè)種方式,你(nǐ)可以得到(dào)強大(dà)的分布式作(zuò)圖能(néng)力,同時(shí)還能(néng)利用(yòng)上(shàng)現(xiàn)有的大(dà)數據處理(lǐ)引擎。 Cloudera Impala:Impala模型也(yě)可以部署在你(nǐ)現(xiàn)有的Hadoop群集上(shàng),監視(shì)所有的查詢。該技術和(hé)MapReduce一樣,具有強大(dà)的批處理(lǐ)能(néng)力,而且Impala對(duì)于實時(shí)的SQL查詢也(yě)有很(hěn)好(hǎo)的效果,通過高(gāo)效的SQL查詢,你(nǐ)可以很(hěn)快(kuài)的了(le)解到(dào)大(dà)數據平台上(shàng)的數據。

Gephi:它可以用(yòng)來(lái)對(duì)信息進行關聯和(hé)量化處理(lǐ),通過爲數據創建功能(néng)強大(dà)的可視(shì)化效果,你(nǐ)可以從(cóng)數據中得到(dào)不一樣的洞察力。Gephi已經支持多個圖表類型,而且可以在具有上(shàng)百萬個節點的大(dà)型網絡上(shàng)運行。

Gephi具有活躍的用(yòng)戶社區(qū),Gephi還提供了(le)大(dà)量的插件,可以和(hé)現(xiàn)有系統完美(měi)的集成到(dào)一起,它還可以對(duì)複雜(zá)的IT連接、分布式系統中各個節點、數據流等信息進行可視(shì)化分析。

MongoDB:這(zhè)個堅實的平台一直被很(hěn)多組織推崇,它在大(dà)數據管理(lǐ)上(shàng)有極好(hǎo)的性能(néng)。MongoDB最初是由DoubleClick公司的員工(gōng)創建,現(xiàn)在該技術已經被廣泛的應用(yòng)于大(dà)數據管理(lǐ)。

MongoDB是一個應用(yòng)開(kāi)源技術開(kāi)發的NoSQL數據庫,可以用(yòng)于在JSON這(zhè)樣的平台上(shàng)存儲和(hé)處理(lǐ)數據。目前,紐約時(shí)報(bào)、Craigslist以及衆多企業都采用(yòng)了(le)MongoDB,幫助他(tā)們管理(lǐ)大(dà)型數據集。

(Couchbase服務器也(yě)作(zuò)爲一個參考)。 在我們這(zhè)個DOD(data-on-demand)社會(huì),每天都有大(dà)量的數據産生,并且大(dà)量的數據被收集在主要IT系統中。無論是社交媒體的照片還是國際商店(diàn)交易信息,大(dà)量高(gāo)質量、可量化的數據每天都在爆炸性增加,應對(duì)的唯一方法就是快(kuài)速部署一個高(gāo)效的管理(lǐ)方案。 切記,除了(le)要對(duì)數據進行快(kuài)速的分類和(hé)組織,IT管理(lǐ)人員必須具有挖掘信息并将其應用(yòng)到(dào)業務中的能(néng)力。商業智能(néng)和(hé)數據量化背後的科學将繼續發展和(hé)擴大(dà),企業取得競争優勢的關鍵在于能(néng)否對(duì)它們的數據進行很(hěn)好(hǎo)的管理(lǐ)。

上(shàng)一篇: 這(zhè)是第一篇