Hem Framåt tänkande Google moln tpus del av en trend mot ai-specifika processorer

Google moln tpus del av en trend mot ai-specifika processorer

2024

Video: Diving into the TPU v2 and v3 (September 2024)

Under de senaste veckorna har det funnits ett antal viktiga introduktioner av nya datorplattformar utformade specifikt för att arbeta med djupa neurala nätverk för maskininlärning, inklusive Googles nya "moln-TPU" och Nvidias nya Volta-design.

För mig är detta den mest intressanta trenden inom datorarkitektur - till och med mer än AMD och nu introducerar Intel 16-kärns och 18-kärniga CPU: er. Naturligtvis finns det andra alternativa metoder, men Nvidia och Google får förtjänst mycket uppmärksamhet för sina unika tillvägagångssätt.

På Google I / O såg jag det introducera vad en "moln TPU" (för Tensor Processing Unit, vilket indikerar att den är optimerad för Googles ramverk för TensorFlow-maskininlärning). Den föregående generationens TPU, som introducerades vid förra årets utställning, är en ASIC som främst är utformad för inferencing - kör maskininlärningsoperationer - men den nya versionen är utformad för att dra slutsatser och träna sådana algoritmer.

I en nyligen publicerad artikel gav Google mer information om den ursprungliga TPU, som den beskrev som innehöll en matris av 256-vid-256 multipla ackumulerade (MAC) enheter (65 536 totalt) med en toppprestanda på 92 teraops (biljoner operationer per andra). Det får sina instruktioner från en värd CPU via PCIe Gen 3-buss. Google sa att det här var en 28nm matris som var mindre än hälften av storleken på en Intel Haswell Xeon 22nm-processor och att den överträffade den processorn och Nvidias 28nm K80-processor.

Den nya versionen, kallad TPU 2.0 eller cloud TPU, (se ovan), innehåller faktiskt fyra processorer på kortet, och Google sade att varje kort kan nå 180 teraflops (180 biljoner flytande punktoperationer per sekund). Lika viktigt är brädorna utformade för att arbeta tillsammans med ett anpassat höghastighetsnätverk, så att de fungerar som en enda maskin som lär sig superdatorer som Google kallar en "TPU-pod."

Denna TPU-pod innehåller 64 andra generationens TPU: er och ger upp till 11, 5 petaflops för att påskynda utbildningen av en enda stor maskininlärningsmodell. På konferensen sa Fei Fei Li, som är chef för Googles AI-forskning, att även om en av företagets storskaliga inlärningsmodeller för översättning tar en hel dag att träna på 32 av de bästa kommersiellt tillgängliga GPU: erna, kan det nu vara utbildning till samma noggrannhet på en eftermiddag med en åttondel av en TPU-pod. Det är ett stort hopp.

Förstå att det inte är små system - en pod ser ut att vara ungefär storleken på fyra normala datorställningar.

Och var och en av de enskilda processorerna verkar ha mycket stora kylflänsar, vilket betyder att korten inte kan staplas för hårt. Google har ännu inte gett en hel del detaljer om vad som har förändrats i denna version av processorerna eller samtrafiken, men det är troligt att detta också är baserat på 8-bitars MAC.

Veckan innan introducerade Nvidia sitt senaste inträde i denna kategori, ett massivt chip känt som Telsa V100 Volta, som det beskrev som den första CPU med denna nya Volta-arkitektur, designad för avancerade GPU: er.

Nvidia sa att det nya chipet kan 120 TensorFlow teraflops (eller 15 32-bitars TFLOPS eller 7, 5 64-bitars.) Detta använder en ny arkitektur som innehåller 80 Streaming Multiprocessors (SM), var och en innehåller åtta nya "Tensor Cores" och är en 4x4x4-grupp som kan utföra 64 FMA (Fused Multiply-Add) -operationer per klocka. Nvidia sa att det kommer att erbjuda chipet i sina DGX-1V-arbetsstationer med 8 V100-kort under tredje kvartalet, efter företagets tidigare DGX-1 som använde den tidigare P100-arkitekturen.

Företaget sa att denna $ 149 000 låda borde leverera 960 teraflops träningsprestanda med 3200 watt. Senare, sade den första, skulle den skicka en personlig DGX-station med fyra V100: er, och under det fjärde kvartalet sade den att de stora serverleverantörerna kommer att skicka V100-servrar.

Detta chip är det första som tillkännagavs att använda TSMC: s 12nm-processor, och det kommer att vara ett enormt chip med 21, 1 miljarder transistorer på 815 kvadratmillimeter. Nvidia citerade både Microsoft och Amazon som tidiga kunder för chipet.

Observera att det finns stora skillnader mellan dessa tillvägagångssätt. Google TPU: er är riktigt anpassade chips, designade för TensorFlow-applikationer, medan Nvidia V100 är ett något mer generellt chip som kan ha olika typer av matematik för andra applikationer.

Samtidigt tittar de andra stora molnleverantörerna på alternativ, med Microsoft som använder både GPU: er för utbildning och fältprogrammerbara gate-arrays (FPGA) för inferensering, och erbjuder båda till kunder. Amazon Web Services gör nu både GPU- och FPGA-instanser tillgängliga för utvecklare. Och Intel har drivit FPGA: er och en mängd andra tekniker. Samtidigt arbetar ett antal nya nystartade företag med alternativa metoder.

På vissa sätt är detta den mest drastiska förändringen som vi har sett i arbetsstations- och serverprocessorer på flera år, åtminstone sedan utvecklare först började använda "GPU-dator" för flera år sedan. Det kommer att vara fascinerande att se hur detta utvecklas.