Hem Framåt tänkande Hot chips: maskininlärning är i centrum

Hot chips: maskininlärning är i centrum

Video: Xbox Series X Up To 10X Performance Boost In Ray Tracing & Machine Learning - Hot Chips 2020 (September 2024)

Video: Xbox Series X Up To 10X Performance Boost In Ray Tracing & Machine Learning - Hot Chips 2020 (September 2024)
Anonim

Det hetaste ämnet i datorer i dag är maskininlärning, och det är verkligen synligt på hårdvarusidan. Under de senaste veckorna har vi hört mycket om nya chips designade för djup inlärning, från Nvidias Tesla P100 och Drive PX 2 till Googles Tensorbehandlingsenheter till Intels Xeon Phi. Så det är inte förvånande att vi på Hot Chips-konferensen förra veckan hörde från ett antal olika företag med några mycket olika tillvägagångssätt för design skräddarsydd för maskininlärning och visionbehandling.

Kanske den största nyheten var Nvidias avslöjande av mer detaljer om sitt Parker-chip, som användes i sin Drive PX 2-modul för självkörande bilar och syftade till djup inlärning för autonoma maskiner. Detta chip använder två specialbyggda ARM-kompatibla Denver CPU-kärnor, fyra ARM Cortex-A57-kärnor och 256 av vad Nvidia uttrycker Pascal CUDA-kärnor (grafik).

Nvidia sa att detta var det första chipet som är designat och rankat för fordonsbruk, med speciella elasticitetsfunktioner, och talade upp dess snabbare hastighet och minne, och noterade att Denver-kärnan ger en betydande förbättring av prestanda per watt. Bland de nya funktionerna är hårdvarorassisterad virtualisering, med upp till 8 VMS för att möjliggöra integration av bilfunktioner som traditionellt görs på separata datorer. Sammantaget sade företaget att Drive PX 2-modellen kan ha två av dessa Parker-chips och två diskreta GPU: er, med en total prestanda på 8 teraflops (dubbel precision) eller 24 djupa inlärningsoperationer (8-bitars eller halvprecision.) Företaget inkluderade riktmärken som jämförde det positivt med aktuell mobilbehandling med SpecInt_2000, ett relativt gammalt riktmärke. Men prestandan ser imponerande ut, och Volvo har nyligen sagt att de kommer att använda den för att testa autonoma fordon från och med nästa år.

Naturligtvis finns det många andra tillvägagångssätt.

Den kinesiska starten DeePhi diskuterade en FPGA-baserad plattform för nervnätverk, med två olika arkitekturer beroende på vilken typ av nätverk som är inblandade. Aristoteles är designad för relativt små invandrade neurala nätverk och baserad på Xilinx Zynq 7000, medan Descartes är utformad för större återkommande neurala nätverk med långt korttidsminne (RNN-LSTM), baserat på Kintex Ultrascale FPGA. DeePhi hävdar att dess kompilator och arkitektur har minskat utvecklingstiden jämfört med de flesta användningar av FPGA: er och att att använda en FPGA kan ge bättre prestanda än Nvidias Tegra K1- och K40-lösningar.

Ett annat tillvägagångssätt är att använda en digital signalprocessor eller DSP, som vanligtvis utför en specifik funktion eller en liten uppsättning funktioner mycket snabbt med mycket lite energi. Ofta är dessa inbäddade i andra, mer komplexa chips för att påskynda vissa funktioner, t.ex. synhantering. Ett antal företag, inklusive Movidius, CEVA och Cadence, delade sina lösningar på Hot Chips.

Movidius visade sin DSP-baserade lösning, känd som Myriad 2 visionbehandlingsenheten, och hade den visad i DJI Phantom 4-drönaren. Det visade också hur Myriad 2 överträffar GPU: er och GoogLeNets djupa neurala nätverk som användes i ImageNet-tävlingen 2014.

CEVA marknadsförde sin CEVA-XM4 Vision DSP, speciellt anpassad för visionbearbetning och riktad mot fordonsmarknaden, tillsammans med sin CEVA Deep Neural Network 2-plattform, som den sade kan ta allt som är skrivet för Caffe- eller TensorFlow-ramverket och optimera det för att köra på sin DSP. Den nya processorn ska vara i SoCs nästa år.

Samtidigt diskuterade Cadence, som gör Tensilica-familjen av synprocessorer (som kan inbäddas i andra produkter) sin senaste version, Vision P6, som har lagt till nya funktioner som vektorns flytpunktsstöd och andra funktioner för invändiga neurala nätverk. De första produkterna ska vara ute inom kort.

Microsoft talade om detaljerna i hårdvaran för sitt HoloLens-headset och sa att det använde en 14nm Intel Atom Cherry Trail-processor som kör Windows 10 och en anpassad Holographic Processing Unit (HPU 1.0) sensornub, tillverkad av TSMC på en 28nm-process. Detta inkluderar 24 Tensilica DSP-kärnor.

Jag blev särskilt tagen av en av Cadences bilder som visade skillnaderna i genomströmning och effektivitet för GPU: er, FPGA: er och olika typer av DSP: er när det gäller multiply-add-operationer, en av de viktigaste byggstenarna för neurala nätverk. Även om det självklart är självbetjäning (som alla leverantörspresentationer är), påpekade det hur de olika teknikerna varierar i fråga om hastighet och effektivitet (prestanda per watt), för att inte tala om kostnad och enkel programmering. Det finns många lösningar för olika tillvägagångssätt här, och det kommer att vara intressant att se hur detta skakar ut under de närmaste åren.

Hot chips: maskininlärning är i centrum