成都華閩科技有限公司
電話(huà):028-65065822
郵箱:cdhaiqing@163.com
聯系人:袁女士
地址:成都市高(gāo)新區(qū)天府三街69号
亞馬遜工(gōng)具如何利用(yòng)大(dà)數據分析解決大(dà)數據問題
所有關于用(yòng)戶數據的收集,都是爲了(le)對(duì)數據進行智能(néng)分析,期待發現(xiàn)新的趨勢和(hé)不可預見的行爲。考慮到(dào)商業智能(néng)應用(yòng)能(néng)夠從(cóng)PB級别數據中篩選數據的日子可能(néng)永遠不會(huì)到(dào)來(lái),一些(xiē)企業以天爲單位收集數據,但(dàn)是這(zhè)不能(néng)成爲企業大(dà)數據分析狹隘觀點的借口。但(dàn)如何才能(néng)使企業在條件有限的情況下(xià),最好(hǎo)地利用(yòng)他(tā)們積累的新資料和(hé)統計(jì)數據?這(zhè)需要時(shí)間,耐心,而且你(nǐ)将看(kàn)到(dào),投資必要資金(jīn)的負責人将可以爲企業實施正确的計(jì)劃。
選擇正确的負責人 大(dà)數據本身到(dào)成熟期也(yě)就隻花(huā)了(le)幾年時(shí)間,這(zhè)意味着大(dà)分析(Big Analytics)才開(kāi)始孵化。這(zhè)意味着,在這(zhè)個浩大(dà)的技術舞台上(shàng)存在一個相當大(dà)的缺口,尋找合适的專家将是一個挑戰。最近一次信息周刊關于“分析,商業智能(néng)和(hé)信息管理(lǐ)”的調查中, 47%的受訪者列出了(le)作(zuò)爲使用(yòng)大(dà)數據軟件的首要問題是‘專業知(zhī)識既稀缺且昂貴’。”但(dàn)要正确地使用(yòng)商業智能(néng)(BI) ,找到(dào)合适的人才是絕對(duì)必要的。 在O’Reilly 2012 Strata 大(dà)會(huì)上(shàng)生機勃勃的數據科學論戰确認,要确定聘請(qǐng)誰來(lái)爲大(dà)洞察挖掘大(dà)數據不是件容易的事(shì)情,人工(gōng)智能(néng)領域專家或機器學習專家将能(néng)夠爲企業提供更多的價值。 數據科學家隻專注于數字和(hé)模式就能(néng)取得顯著成績的歲月已經過去,他(tā)們需要結合機器學習,嘗試真正的算(suàn)法來(lái)找到(dào)大(dà)多數經驗豐富的專家都錯過的數據相關性。但(dàn)大(dà)數據顧問Drew Conway做出了(le)一個強有力的證明(míng),機器學習作(zuò)爲一種工(gōng)具可以提供一些(xiē)有趣的答(dá)案,但(dàn)這(zhè)些(xiē)答(dá)案需要滿足一個重要的條件。 “你(nǐ)能(néng)以任何有意義的方式解釋這(zhè)個結果嗎?”Conway說。 “我猜測也(yě)許不是。
一個專業領域專家将不得不看(kàn)那個模型,并決定所選擇功能(néng),以及傳遞的輸出和(hé)回歸系數,是否真正與訓練集和(hé)測試集之外(wài)的樣本相關。這(zhè)是專業領域的基礎知(zhī)識。” 企業将需要建立一個團隊,其中包括這(zhè)兩個學科的專家。爲了(le)數據挖掘的準确性,需要一位某個專業領域的專家來(lái)開(kāi)發問題,然後依賴一個機器學習專家開(kāi)發并且實施查詢或創建分析,然後才有兩個領域專家結合得出的正确結果。 舊酒裝新瓶 大(dà)分析不隻是因爲大(dà)數據時(shí)代的來(lái)臨企業才用(yòng)于挖掘信息。 “我們已經看(kàn)到(dào)客戶以全新的商業模式出現(xiàn),他(tā)們使用(yòng)與社交媒體相關的曆史數據集,這(zhè)些(xiē)曾經是免費的,現(xiàn)在他(tā)們把變現(xiàn)或定價,”英特爾的Girish Juneja在最近舊金(jīn)山舉行的亞馬遜AWS峰會(huì)上(shàng)說。但(dàn)是,新技術永遠是洞察用(yòng)戶行爲最有力的工(gōng)具,尤其移動用(yòng)戶更是一個特别需要培養的肥沃資源。 “我們所看(kàn)到(dào)的是,随着越來(lái)越多應用(yòng)正在被移動用(yòng)戶推動,正因如此生成的數據量越來(lái)越大(dà)。大(dà)部分數據是被收集在雲環境中,比如AWS。然後,新的商業模型正在利用(yòng)這(zhè)些(xiē)數據,并基于這(zhè)些(xiē)數據提供新的服務。” 在大(dà)分析競賽中先拔頭籌 企業都使用(yòng)什(shén)麽類型的工(gōng)具來(lái)篩選他(tā)們的大(dà)數據,以發現(xiàn)一些(xiē)大(dà)分析?亞馬遜的Elastic MapReduce一直是很(hěn)受歡迎的選擇,它幫助客戶挖掘當前未充分利用(yòng)大(dà)數據源,然後利用(yòng)BI展示。從(cóng)幾年前就開(kāi)始被經常吹捧的一個的案例,Yelp開(kāi)始整理(lǐ)其巨大(dà)的編輯日志文(wén)件,以尋找隐藏的關聯性。
“他(tā)們通過分析這(zhè)些(xiē)數據找出的一件事(shì)情是,人們是通過移動設備上(shàng)訪問這(zhè)個站(zhàn)點,”亞馬遜高(gāo)級産品經理(lǐ)John Einkauf在2014年舊金(jīn)山舉行的AWS峰會(huì)上(shàng)表示。 “這(zhè)已經是幾年前的事(shì)情,那時(shí)候很(hěn)多公司還不曾開(kāi)始了(le)解向移動轉移。因此,他(tā)們在移動上(shàng)做了(le)很(hěn)好(hǎo)的投資,爲他(tā)們的服務取得了(le)很(hěn)好(hǎo)的流動性。截至2013年1月,他(tā)們正爲950萬獨特移動設備提供服務。這(zhè)一切都歸功于這(zhè)個最初的洞察力,他(tā)們能(néng)夠分析出TB的日志數據。“識别數據的競争者是最近被忽略的,并創建一個策略來(lái)挖掘它。這(zhè)些(xiē)途徑和(hé)策略就能(néng)區(qū)分出市場領導者和(hé)競争失敗者。 生成正确的結果 進行數據分析的另一個經常尚未開(kāi)發的數據源是社會(huì)渠道(dào)的非結構化數據。處理(lǐ)非結構化數據始終是一個巨大(dà)的挑戰,因爲在判斷數據相關性方面非常困難,但(dàn)盡管如此,非結構化數據在商業智能(néng)和(hé)大(dà)數據分析領域越來(lái)越重要。那麽,企業組織在非結構化數據分析時(shí)如何濾掉幹擾呢(ne)?大(dà)多數處理(lǐ)非結構化文(wén)本策略包含一個反饋回路,用(yòng)以随着時(shí)間推移産生更多具有高(gāo)度針對(duì)性的數據用(yòng)于測試。從(cóng)現(xiàn)有的社會(huì)資源收集然後可以變成可使用(yòng)的社交媒體參與者,作(zuò)爲測試對(duì)象進行實驗。在企業層面,這(zhè)可能(néng)意味着啓動了(le)提出問題,各種社會(huì)媒體宣傳,邀請(qǐng)解說,或挑釁,然後可以測量和(hé)分析一些(xiē)其他(tā)的回應。這(zhè)是一個費時(shí)且高(gāo)度複雜(zá)的過程,而是通過社交媒體獲得有意義的信息可以是金(jīn)色的,當涉及到(dào)了(le)解客戶真正想要的。 諷刺的是,許多能(néng)夠使大(dà)分析更有效的解決方案,都需要收集和(hé)創造更多的數據。然而,與其被動承受不如主動出擊,企業能(néng)夠自(zì)己定位,從(cóng)而利用(yòng)隐藏在過去,現(xiàn)在和(hé)未來(lái)大(dà)數據的洞察力。