在10月15日至17日舉辦的開(kāi)放計(jì)算全球峰會(huì)(OCP Global Summit)上,阿里云磐久AI Infra 2.0服務(wù)器與UALink聯(lián)盟共同呈現(xiàn)了他們?cè)贏I基礎(chǔ)設(shè)施領(lǐng)域的最新合作成果。本屆峰會(huì)以“創(chuàng)新驅(qū)動(dòng)未來(lái)”為主題,吸引了全球超過(guò)7000名基礎(chǔ)設(shè)施軟硬件技術(shù)和應(yīng)用領(lǐng)域的專家。在OCP基金會(huì)宣布人工智能開(kāi)放系統(tǒng)戰(zhàn)略計(jì)劃的背景下,峰會(huì)特別關(guān)注了AI基礎(chǔ)設(shè)施技術(shù)生態(tài)的建設(shè)。
阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志與UALink聯(lián)盟主席Kurtis Bowman共同發(fā)表了題為《UALink:引領(lǐng)AI加速器革命》的演講,深入探討了AI服務(wù)器Scale UP互連技術(shù)的未來(lái)趨勢(shì),UALink標(biāo)準(zhǔn)的發(fā)展規(guī)劃,以及UALink聯(lián)盟與ALink System產(chǎn)業(yè)生態(tài)的合作前景。
UALink協(xié)議,由行業(yè)領(lǐng)先的AI芯片、服務(wù)器和CSP廠商聯(lián)合發(fā)起,預(yù)計(jì)將成為改變AI服務(wù)器Scale UP互連技術(shù)生態(tài)的新行業(yè)標(biāo)準(zhǔn)。與專注于Scale out擴(kuò)展能力的超級(jí)以太網(wǎng)聯(lián)盟(UEC)協(xié)議相比,UALink協(xié)議以其高性能內(nèi)存語(yǔ)義訪問(wèn)、顯存共享、支持Switch組網(wǎng)模式以及超高帶寬和超低時(shí)延等優(yōu)勢(shì),正在快速構(gòu)建一個(gè)開(kāi)放的AI服務(wù)器Scale UP互連技術(shù)生態(tài)。UALink聯(lián)盟計(jì)劃于10月底正式成立,并在年底發(fā)布第一版UALink spec。
作為AI服務(wù)器Scale UP互連開(kāi)放標(biāo)準(zhǔn)的有力競(jìng)爭(zhēng)者,UALink標(biāo)準(zhǔn)在業(yè)界尤其是中國(guó)市場(chǎng)的落地實(shí)施面臨挑戰(zhàn),ALink System(ALS)產(chǎn)業(yè)生態(tài)應(yīng)運(yùn)而生。ALS提供了具有競(jìng)爭(zhēng)力的統(tǒng)一標(biāo)準(zhǔn)互連系統(tǒng),包括ALS-D數(shù)據(jù)面和ALS-M管控面,為AI訓(xùn)練和推理場(chǎng)景提供了強(qiáng)大的支持。
ALS-D支持UALink國(guó)際標(biāo)準(zhǔn),形成了具有競(jìng)爭(zhēng)力的數(shù)據(jù)面方案。當(dāng)前AI應(yīng)用在Scale Up網(wǎng)絡(luò)上的特點(diǎn)包括算法并行切分、大顯存共享和GPU多核內(nèi)存語(yǔ)義編程等。ALS-D數(shù)據(jù)面互連采用UALink協(xié)議,不僅支持高性能內(nèi)存語(yǔ)義訪問(wèn)和顯存共享,還具備超高帶寬和超低時(shí)延,同時(shí)增加了網(wǎng)內(nèi)計(jì)算等特性。
ALS-M為不同芯片方案提供了標(biāo)準(zhǔn)化接入方案,支持開(kāi)放生態(tài)和廠商專有互連協(xié)議的統(tǒng)一軟件接口。此外,ALS-M還為云計(jì)算等集群管理場(chǎng)景提供了靈活和彈性的配置能力。
遵循ALink System規(guī)范,阿里云設(shè)計(jì)了面向下一代超大規(guī)模AI集群的磐久AI Infra 2.0服務(wù)器,體現(xiàn)了開(kāi)放生態(tài)、高能效、高性能和高可用的設(shè)計(jì)理念。AI Infra 2.0服務(wù)器定義了AI計(jì)算節(jié)點(diǎn)和Scale Up/Scale Out互連系統(tǒng),支持業(yè)界主流AI方案,推動(dòng)了AI領(lǐng)域的“一云多芯”發(fā)展。
互連系統(tǒng)ALink System全面兼容UALink生態(tài),與行業(yè)伙伴共同構(gòu)建超高性能、大規(guī)模的Scale UP集群互連能力,一級(jí)互連支持64-80個(gè)節(jié)點(diǎn),二級(jí)互連可達(dá)2000個(gè)以上節(jié)點(diǎn),提供了PB級(jí)共享顯存和TB級(jí)互連帶寬。
AI Infra 2.0服務(wù)器集成了阿里自研的CIPU 3.0芯片,支持高帶寬大規(guī)模AI服務(wù)器的Scale Out網(wǎng)絡(luò)擴(kuò)展,同時(shí)滿足云網(wǎng)絡(luò)的彈性和安全需求。
在硬件工程方面,AI Infra 2.0服務(wù)器單機(jī)柜支持最大80個(gè)AI計(jì)算節(jié)點(diǎn),密度業(yè)界領(lǐng)先;采用400V PSU,單體供電效率可達(dá)98%,整體供電效率提高2%。散熱設(shè)計(jì)上,機(jī)柜級(jí)液冷方案根據(jù)負(fù)載動(dòng)態(tài)調(diào)整CDU冷卻能力,降低能耗,單柜冷卻系統(tǒng)節(jié)能30%。運(yùn)維管理上,全新的CableCartridge后維護(hù)設(shè)計(jì)支持全盲插,零理線易運(yùn)維、零誤操作,維護(hù)效率提升50%。
在可靠性方面,AI Infra 2.0服務(wù)器支持彈性節(jié)點(diǎn)、智能路由、高可靠供電、分布式CDU等技術(shù),能夠?qū)崟r(shí)監(jiān)控和自愈各種硬件故障,將硬件故障域縮減到節(jié)點(diǎn)級(jí)。
在ALink System產(chǎn)業(yè)生態(tài)建設(shè)上,阿里云堅(jiān)持開(kāi)放合作策略,推動(dòng)互連技術(shù)領(lǐng)域的發(fā)展。自ALink System產(chǎn)業(yè)生態(tài)在開(kāi)放數(shù)據(jù)中心大會(huì)上發(fā)布以來(lái),已有20多家AI芯片、互連芯片、服務(wù)器整機(jī)硬件和IP設(shè)計(jì)廠商加入,成員單位就相關(guān)協(xié)議標(biāo)準(zhǔn)制定和實(shí)施路徑進(jìn)行了深入交流。
阿里云不僅是UALink的積極支持者和ALink System產(chǎn)業(yè)生態(tài)的牽頭者,還是OCP、CXL、UCIe和UEC等多個(gè)互連技術(shù)行業(yè)組織的創(chuàng)始成員或技術(shù)委員會(huì)成員,通過(guò)實(shí)際行動(dòng)支持開(kāi)放互連技術(shù)標(biāo)準(zhǔn)的制定和實(shí)施。
編輯:張子凡