本次世界人工智能大會(huì)(WAIC),華為將首次線下展出昇騰384超節(jié)點(diǎn)真機(jī)。
隨著大模型訓(xùn)練和推理對(duì)算力需求的爆炸式增長,傳統(tǒng)計(jì)算架構(gòu)已難以支撐AI技術(shù)的代際躍遷。華為昇騰384超節(jié)點(diǎn),首創(chuàng)將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網(wǎng)絡(luò)MatrixLink全對(duì)等互聯(lián),形成一臺(tái)超級(jí)“AI服務(wù)器”,單卡推理吞吐量躍升到2300 Tokens/s。

在高速互聯(lián)總線聯(lián)接下,昇騰384超節(jié)點(diǎn)共由12個(gè)計(jì)算柜和4個(gè)總線柜構(gòu)成,是目前業(yè)界最大規(guī)模的超節(jié)點(diǎn),算力總規(guī)模達(dá)300Pflops,是英偉達(dá)NVL72的1.7倍;網(wǎng)絡(luò)互聯(lián)總帶寬達(dá)269TB/s,比英偉達(dá)NVL72提升107%;內(nèi)存總帶寬達(dá)1229TB/s,比英偉達(dá)NVL72提升113%。 更重要的是,通過最佳負(fù)載均衡組網(wǎng)等方案,昇騰超節(jié)點(diǎn)還能進(jìn)一步擴(kuò)展為包含數(shù)萬卡的Atlas 900 SuperCluster超節(jié)點(diǎn)集群,未來可以支撐更大規(guī)模的模型演進(jìn)。
并且,超節(jié)點(diǎn)架構(gòu)還能更好地支持混合專家MoE大模型的推理,可以實(shí)現(xiàn)“一卡一專家”,一個(gè)超節(jié)點(diǎn)可以支持384個(gè)專家并行推理,極大提升效率。同時(shí),超節(jié)點(diǎn)還可以支持“一卡一算力任務(wù)”,靈活分配資源,提升任務(wù)并行處理,減少等待,將算力有效使用率(MFU)提升50%以上。