成都華閩科技有限公司
電話(huà):028-65065822
郵箱:cdhaiqing@163.com
聯系人:袁女士
地址:成都市高(gāo)新區(qū)天府三街69号
高(gāo)性能(néng)異構分布式計(jì)算(suàn)平台MDPP
1. 背景
爲了(le)順應以“大(dà)數據、人工(gōng)智能(néng)”爲代表的第四次工(gōng)業革命潮流,智能(néng)化的裝備是必然的趨勢,裝備必須具有高(gāo)效能(néng)的特點。所以具備高(gāo)效能(néng)的裝備系統必然是異構硬件平台,目前比較成熟的就是CPU+GPU,CPU+DSP+GPU等,爲了(le)最大(dà)充分利用(yòng)異構硬件平台的資源,不僅需要對(duì)這(zhè)些(xiē)異構集群資源進行整體管理(lǐ)(統一分配和(hé)調度),還需要對(duì)業務系統的計(jì)算(suàn)任務提供統一任務調度和(hé)分配。
爲了(le)落實《十三五國家科技創新規劃》對(duì)異構計(jì)算(suàn)和(hé)智能(néng)計(jì)算(suàn)的推廣應用(yòng),加快(kuài)裝備智能(néng)化;爲了(le)支持國産處理(lǐ)芯片和(hé)操作(zuò)系統,實現(xiàn)自(zì)主可控。海擎科技特地開(kāi)發了(le)一款“海量數據高(gāo)性能(néng)異構計(jì)算(suàn)平台(MDPP)”對(duì)異構硬件和(hé)各種業務系統的支持,具有一定的通用(yòng)性和(hé)可裝備性特點。
2. 設備簡介
MDPP主要目的是把海量數據處理(lǐ)的任務通過MDPP的并行引擎切分成小(xiǎo)任務,再把這(zhè)些(xiē)小(xiǎo)任務自(zì)動調度到(dào)各種處理(lǐ)器組成的異構硬件中,實現(xiàn)多計(jì)算(suàn)機、多處理(lǐ)器、多核集群并行協同處理(lǐ);MDPP還提供二次開(kāi)發接口和(hé)通用(yòng)算(suàn)法庫,特别是自(zì)定義算(suàn)法開(kāi)發組件,降低(dī)海量數據處理(lǐ)系統的開(kāi)發難度,爲應用(yòng)開(kāi)發人員搭建高(gāo)性能(néng)與易用(yòng)性之間的橋梁。
MDPP是将以千兆/萬兆網絡、PCIE高(gāo)速總線互聯的CPU、GPU計(jì)算(suàn)設備形成統一的計(jì)算(suàn)資源池,實現(xiàn)多機(計(jì)算(suàn)機)、多卡(CPU/GPU/DSP/……卡)、多核(CPU/GPU/DSP/PowerPC/FPGA/MIC/ARM的多個計(jì)算(suàn)核)并行處理(lǐ)的統一資源調度、任務調度、任務分配、數據管理(lǐ)和(hé)負載均衡,實現(xiàn)海量數據的快(kuài)速分析處理(lǐ)。
3. 引進的必要性
随着芯片技術多樣化的發展,高(gāo)性能(néng)的處理(lǐ)器種類越來(lái)越多,包括X86 CPU、GPU、DSP、PowerPC、FPGA、MIC、ARM等。這(zhè)些(xiē)處理(lǐ)器各有優缺點,适合不同的應用(yòng)場景或業務算(suàn)法。CPU邏輯單元多、計(jì)算(suàn)單元少,适合處理(lǐ)IO、邏輯複雜(zá)的算(suàn)法和(hé)主控; GPU核數很(hěn)多、單核性能(néng)弱,适合處理(lǐ)并行粒度小(xiǎo)、并行規模大(dà)、規整的數值運算(suàn);DSP專門(mén)對(duì)數字信号處理(lǐ)進行了(le)優化,适合處理(lǐ)信号處理(lǐ)等數值計(jì)算(suàn);FPGA功耗低(dī)、穩定性和(hé)可靠性高(gāo),适合低(dī)功耗情況下(xià)的數值運算(suàn)。GPU由于發展迅速、生态完善、性價比高(gāo),在數據處理(lǐ)和(hé)高(gāo)性能(néng)計(jì)算(suàn)中主要采用(yòng)CPU+GPU+DSP的異構并行處理(lǐ)作(zuò)爲計(jì)算(suàn)資源。
4. 設備的主要功能(néng)
MDPP邏輯框圖如圖1 所示,共包括硬件層、并行處理(lǐ)框架層、并行算(suàn)法層、管理(lǐ)客戶端和(hé)應用(yòng)程序五大(dà)部分。
圖1 台MDPP邏輯層次結構圖
4.1. 概要
a) 硬件層
硬件層由萬兆網、千兆網連接的多台GPU/DSP/CPU服務器集群組成。每台服務器中的PCIE槽上(shàng),也(yě)可以混合插入GPU/DSP/CPU卡。
b) 資源管理(lǐ)層
資源管理(lǐ)層最核心的功能(néng)就是将整個異構硬件(CPU/DSP/GPU)作(zuò)爲整體的計(jì)算(suàn)資源池進行統一的管理(lǐ),實現(xiàn)監控、分配、調度。
c) 并行處理(lǐ)框架層
并行處理(lǐ)框架層對(duì)業務系統中的任務進行靈活的分發和(hé)調度,實現(xiàn)多個服務器、服務器内多個CPU、GPU、DSP處理(lǐ)器、處理(lǐ)器内多核之間三個層次的并行處理(lǐ)資源調度、任務調度、負載均衡、容錯處理(lǐ)等事(shì)務,自(zì)動實現(xiàn)任務之間的數據流動,形成任務流,處理(lǐ)複雜(zá)的業務邏輯。
d) 并行算(suàn)法層
并行算(suàn)法層提供常用(yòng)算(suàn)法、算(suàn)法管理(lǐ)、自(zì)定義算(suàn)法框架。針對(duì)異構硬件,實現(xiàn)具體硬件的優化算(suàn)法代碼,提供統一的API接口供上(shàng)層應用(yòng)程序調用(yòng)。可以提供的并行算(suàn)法有:
1)數字信号處理(lǐ)算(suàn)法支持FFT、濾波等數字信号處理(lǐ)并行算(suàn)法。
2)矩陣運算(suàn)支持矩陣的加、減、乘、轉置、求逆、求模等運算(suàn)。
3)數據挖掘算(suàn)法提供分類(SVM、LR、NBC)、聚類(K-means、Canopy、FCM)、關聯(FP-G)、推薦(UserCF、ItemCF)、降維(PCA)共10個常用(yòng)數據挖掘算(suàn)法的分布式并行算(suàn)法。
e) 管理(lǐ)客戶端
管理(lǐ)客戶端通過API接口和(hé)可視(shì)化界面提供平台資源管理(lǐ)、資源狀态(CPU/DSP/GPU)監控、任務管理(lǐ)、任務狀态監控等功能(néng)。
f) 應用(yòng)程序
應用(yòng)程序在并行處理(lǐ)框架動态庫基礎上(shàng)開(kāi)發,實現(xiàn)具體的業務算(suàn)法和(hé)業務邏輯。應用(yòng)程序分爲業務主流程和(hé)并行算(suàn)法兩部分,業務主流程在CPU上(shàng)執行,并行處理(lǐ)框架自(zì)動将并行算(suàn)法打包上(shàng)傳到(dào)各計(jì)算(suàn)節點,由并行處理(lǐ)框架在各計(jì)算(suàn)資源(CPU、GPU、DSP)上(shàng)調用(yòng)。
4.2. 特點
a)可裝備:移動性、小(xiǎo)型化、高(gāo)效能(néng)滿足體積小(xiǎo)、功耗低(dī),高(gāo)性能(néng)的移動平台(硬件是混合異構)。MDPP采用(yòng)軟件異構架構,比較适合智能(néng)化裝備對(duì)高(gāo)性能(néng)異構處理(lǐ)的要求,還采用(yòng)失效探測來(lái)保障計(jì)算(suàn)的可靠性。
b)彈性:按需分配、即插即用(yòng)、動态擴展支持計(jì)算(suàn)力資源統一分配和(hé)調度,保證優先級高(gāo)的業務。也(yě)可根據業務的實際需要來(lái)動态擴展。
c)協同:互聯互通,提供計(jì)算(suàn)力、任務的集群協同可融入到(dào)現(xiàn)有大(dà)數據平台中,可以與智能(néng)終端交互,達到(dào)更智能(néng)化和(hé)集群化。
d)靈活:任務、資源調度靈活任務調度也(yě)是統一進行,但(dàn)是也(yě)可以根據實際情況傳入一些(xiē)參數進行靈活的任務調度和(hé)計(jì)算(suàn)資源調度策略,支持任務流的自(zì)由流向。
e)便捷:易編程、易移植、簡化部署,縮短研發周期。計(jì)算(suàn)平台支持自(zì)定義算(suàn)法框架和(hé)支持MapReduce編程模型,大(dà)大(dà)縮短研發周期。
f)通用(yòng)性:通用(yòng)架構設計(jì),可重構和(hé)擴展性。屏蔽了(le)硬件底層的差異性,提供通用(yòng)性計(jì)算(suàn)力支持。
5. 咨詢
-
Ø 聯系人:劉先生
Ø 聯系電話(huà):13708190139
Ø 聯系郵箱: liuli@cdhaiqing.com