特斯拉D1芯片擁有500億個晶體管 AI算力可擴展至百億億級別
- 來源:超能網(wǎng)
- 作者:呂嘉儉
- 編輯:豆角
近日特斯拉(Tesla)舉行的AI Day活動中,埃隆-馬斯克(Elon Musk)及多位工程師,講解了特斯拉純視覺方案FSD的進展、神經(jīng)網(wǎng)絡自動駕駛訓練、D1芯片和Dojo超級計算機等相關(guān)信息。其中特斯拉研發(fā)的AI訓練芯片D1引起了不少人的興趣,這款芯片將用于特斯拉目前正在構(gòu)建的超級計算機,旨在以更少的消耗和更少的空間提供更高的性能。
據(jù)ComputerBase報道,D1芯片是采用7nm工藝制造的定制芯片,擁有500億個晶體管,其裸片面積為645 mm2,小于英偉達的A100(826 mm2)和AMD Arcturus(750 mm2)。其配備了354個訓練節(jié)點,支持用于AI訓練的各種指令,包括FP32、BFP16、CFP8、INT32、INT16和INT8。
特斯拉表示。D1芯片可以提供22.6 TFLOPS的單精度浮點運算性能,BF16/CFP8的峰值算力達到了362 TFLOPS,熱設計功耗(TDP)不超過400W。對AI訓練來說,可擴展性非常重要,因此通過帶寬為10 TB/s的“延遲交換結(jié)構(gòu)”在各個方向進行互連。D1芯片周圍會有一個I/O環(huán),有576個通道,每個通道提供112 Gbit/s帶寬。同時25個D1芯片可以組成的一個訓練模塊,帶寬達到36 TB/s,BF16/CFP8的峰值算力達到9 PFLOPS。
如果在數(shù)個機柜中部署120個訓練模塊(包含3000個D1芯片),就能組成ExaPOD。這是世界上首屈一指的AI訓練超級計算機,超過100萬個訓練節(jié)點,BF16/CFP8的峰值算力達到1.1 ExaFLOPS。相比特斯拉目前基于英偉達設備構(gòu)造的超級計算機,在同樣成本條件下,性能提高了4倍,每瓦性能提高了1.3倍,占地面積僅為五分之一。

玩家點評 (0人參與,0條評論)
熱門評論
全部評論