來源:中國電商物流網(wǎng) 發(fā)布時(shí)間:2021-5-20 10:1
Google I/O開發(fā)者大會(huì)去年因?yàn)橐咔槎∠衲瓴扇【上形式強(qiáng)勢(shì)回歸。
在沒有開發(fā)者在場(chǎng)的Google園區(qū)內(nèi),Google CEO桑達(dá)爾·皮查伊(Sundar Pichai)宣布推出多項(xiàng)全新技術(shù),除了能夠幫助用戶實(shí)現(xiàn)“空間瞬移”的全息視頻聊天技術(shù)Project Starling讓人耳目一新,還有最新一代AI芯片TPU v4。
“這是我們?cè)贕oogle上部署的最快的系統(tǒng),對(duì)我們來說是一個(gè)具有歷史意義的里程碑。”皮查伊這樣介紹到。
最強(qiáng)TPU,速度提升2倍,性能提升10倍
Google官方介紹,在相同的64芯片規(guī)模下,不考慮軟件帶來的改善,TPU v4相較于上一代TPU v3性能平均提升2.7倍。
在實(shí)際應(yīng)用中,TPU v4主要與Pod相連發(fā)揮作用,每一個(gè)TPU v4 Pod中有4096個(gè)TPU v4單芯片,得益于其獨(dú)特的互連技術(shù),能夠?qū)?shù)百個(gè)獨(dú)立的處理器轉(zhuǎn)變?yōu)橐粋(gè)系統(tǒng),互連帶寬在規(guī)模上是其他任何網(wǎng)絡(luò)技術(shù)的10倍。
每一個(gè)TPU v4 Pod就能達(dá)到1 exaFlOP級(jí)的算力,實(shí)現(xiàn)每秒10的18次方浮點(diǎn)運(yùn)算。這甚至是全球最快的超級(jí)計(jì)算機(jī)“富岳”的兩倍性能。
“如果現(xiàn)在有1千萬人同時(shí)使用筆記本電腦,所有這些計(jì)算機(jī)累加的計(jì)算能力,剛好就能夠達(dá)到1 exaFLOP的算力,而之前要達(dá)到1 exaFLOP,可能需要專門定制一個(gè)超級(jí)計(jì)算機(jī)。”皮查伊如是說。
今年的MLPerf結(jié)果表明,GoogleTPU v4的實(shí)力不容小覷,在使用ImageNet數(shù)據(jù)集的圖像分類訓(xùn)練測(cè)試(準(zhǔn)確度至少75.90%),256 個(gè)TPU v4在1.82分鐘內(nèi)完成了這一任務(wù),這幾乎與768個(gè)NVIDIA Nvidia A100圖形卡、192個(gè)AMD EPYC 7742內(nèi)核(1.06分鐘)、512個(gè)華為AI優(yōu)化的Ascend 910芯片以及128個(gè)Intel Xeon Platinum 8168內(nèi)核(1.56分鐘)組合在一起的速度一樣快。
當(dāng)負(fù)責(zé)在大型維基百科語料庫上訓(xùn)練基于Transform的閱讀理解BERT模型時(shí),TPU v4的得分也很高。使用256個(gè)TPU v4進(jìn)行訓(xùn)練需要1.82分鐘,比使用4096 TPU v3進(jìn)行訓(xùn)練所需的0.39分鐘要慢1分多鐘。
同時(shí),如果想要使用NVIDIA的硬件達(dá)到0.81分鐘的訓(xùn)練時(shí)間,需要2048張A100卡和512個(gè)AMD EPYC 7742 CPU內(nèi)核。
Google同樣在I/O大會(huì)上展示了能夠用到TPU v4的具體AI實(shí)例,包括能夠同時(shí)處理網(wǎng)頁、圖像等多種數(shù)據(jù)的MUM模型(Multitask Unified Model,多任務(wù)統(tǒng)一模型)和專為對(duì)話打造的LaMDA都是能夠用到TPU v4的場(chǎng)景模型,前者比閱讀理解模型BERT強(qiáng)1000倍,適合賦能搜索引擎幫助用戶更加高效地得到自己想要的信息,后者則可以與人類進(jìn)行不間斷的對(duì)話交流。
這一并不向外出售的TPU,很快將在被部署在Google的數(shù)據(jù)中心,而且90%左右的TPU v4 Pod都將使用綠色能源。
另外,Google也表示,將在今年晚些時(shí)候開放給Google Cloud的客戶。
Google自研TPU,五年更新四代
Google最早于2016年宣布首款內(nèi)部定制的AI芯片,區(qū)別于訓(xùn)練和部署AI模型的最常見的組合架構(gòu),即CPU和GPU組合,第一代TPU在那場(chǎng)世界著名的人機(jī)圍棋大戰(zhàn)助力AlphaGo打敗李世石“一戰(zhàn)成名”,宣告并不是只有GPU才能做訓(xùn)練和推理。
Google第一代TPU采用28nm工藝制程,功耗大約40W,僅適用于深度學(xué)習(xí)推理,除了AlphaGo,也用在Google搜索、翻譯等機(jī)器學(xué)習(xí)模型中。
2017年5月,Google發(fā)布了能夠?qū)崿F(xiàn)機(jī)器學(xué)習(xí)模型訓(xùn)練和推理的TPU v2,達(dá)到180TFLOPs浮點(diǎn)運(yùn)算能力,同時(shí)內(nèi)存帶寬也得以提升,比同期推出的CPU AI工作負(fù)載提升30倍,比GPU AI工作負(fù)載提升15倍,被基于4塊TPU v2的AlphaGo擊敗的世界圍棋冠軍柯潔最直觀地感受了這一切。
2018年5月,Google又發(fā)布第三代TPU v3,性能是上一代TPU的兩倍,實(shí)現(xiàn)420TFLOPs浮點(diǎn)運(yùn)算,以及128GB的高帶寬內(nèi)存。
按照一年一次迭代更新的節(jié)奏,Google理應(yīng)在2019年推出第四代TPU,不過這一年的I/O大會(huì)上,Google推出的是第二代和第三代TPU Pod,可以配置超過1000顆TPU,大大縮短了在進(jìn)行復(fù)雜的模型訓(xùn)練時(shí)所需耗費(fèi)的時(shí)間。
在AI芯片發(fā)展史上,無論是從片上內(nèi)存上,還是從可編程能力來看,Google TPU都是不可多得的技術(shù)創(chuàng)新,打破GPU的“壟斷”地位,且打開云端AI芯片的新競(jìng)爭(zhēng)格局。
發(fā)展五年的Google TPU在今天依然保持著強(qiáng)勁的競(jìng)爭(zhēng)力,未來的世界是什么樣的?Google TPU已經(jīng)告訴了我們一小部分答案。
特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。