TPU v2 (Tensor Processing Unit version 2) - гэта спецыялізаваны апаратны паскаральнік, распрацаваны Google для працоўных нагрузак машыннага навучання. Ён спецыяльна распрацаваны для павышэння прадукцыйнасці і эфектыўнасці мадэляў глыбокага навучання. У гэтым адказе мы вывучым структуру макета TPU v2 і абмяркуем кампаненты кожнага ядра.
Макет TPU v2 арганізаваны ў некалькі ядраў, кожнае з якіх складаецца з розных кампанентаў. Кожнае ядро здольна выконваць вялікую колькасць аперацый множання матрыц паралельна, што з'яўляецца фундаментальнай аперацыяй у многіх алгарытмах машыннага навучання.
У аснове кожнага ядра TPU v2 ляжыць масіў працэсарных элементаў (PE). Гэтыя PE нясуць адказнасць за выкананне фактычных вылічэнняў. Яны вельмі аптымізаваныя для множання матрыц і могуць выконваць гэтыя аперацыі з высокай прапускной здольнасцю і нізкай затрымкай. Колькасць PE ў кожным ядры вар'іруецца ў залежнасці ад канкрэтнай мадэлі TPU v2.
PE падлучаны да лакальнай іерархіі памяці, якая ўключае розныя ўзроўні кэшаў. Гэтыя кэшы выкарыстоўваюцца для захоўвання прамежкавых вынікаў і памяншэння неабходнасці доступу да знешняй памяці, што можа быць істотным вузкім месцам з пункту гледжання прадукцыйнасці. TPU v2 выкарыстоўвае камбінацыю ўбудаванай SRAM (статычнай памяці з адвольным доступам) і пазачыпавай DRAM (дынамічнай памяці з адвольным доступам), каб забяспечыць баланс паміж ёмістасцю і затрымкай.
У дадатак да PE і іерархіі памяці кожнае ядро TPU v2 таксама ўключае ў сябе блок кіравання. Блок кіравання адказвае за каардынацыю выканання інструкцый і кіраванне патокам дадзеных паміж рознымі кампанентамі. Гэта гарантуе належнае выкарыстанне PE і эфектыўнасць вылічэнняў.
Акрамя таго, TPU v2 уключае ў сябе міжканэктыўную тканіну з высокай прапускной здольнасцю, якая дазваляе некалькім ядрам мець зносіны адзін з адным. Гэта ўзаемазлучэнне забяспечвае эфектыўны абмен дадзенымі і сінхранізацыю паміж ядрамі, што важна для паралельнай апрацоўкі. Гэта гарантуе, што TPU v2 можа эфектыўна маштабаваць сваю прадукцыйнасць, выкарыстоўваючы некалькі ядраў скаардынаваным чынам.
Падводзячы вынік, макет TPU v2 структураваны вакол некалькіх ядраў, кожнае з якіх складаецца з элементаў апрацоўкі, іерархіі лакальнай памяці, блока кіравання і сеткі злучэнняў з высокай прапускной здольнасцю. Гэтыя кампаненты працуюць разам, каб забяспечыць эфектыўнае і высокапрадукцыйнае выкананне працоўных нагрузак машыннага навучання.
Іншыя апошнія пытанні і адказы адносна Апусканне ў TPU v2 і v3:
- Ці патрабуе выкарыстанне фармату дадзеных bfloat16 спецыяльных метадаў праграмавання (Python) для TPU?
- Якія паляпшэнні і перавагі мае TPU v3 у параўнанні з TPU v2, і як сістэма вадзянога астуджэння спрыяе гэтым паляпшэнням?
- Што такое модулі TPU v2 і як яны павялічваюць вылічальную магутнасць TPU?
- Якое значэнне тыпу даных bfloat16 у TPU v2 і як ён спрыяе павелічэнню вылічальнай магутнасці?
- Якія асноўныя адрозненні паміж TPU v2 і TPU v1 з пункту гледжання дызайну і магчымасцяў?

