Hem Framåt tänkande Varför maskininlärning är framtiden

Varför maskininlärning är framtiden

Innehållsförteckning:

Video: Джил Боулт Тейлор: Удивительный удар прозрения (September 2024)

Video: Джил Боулт Тейлор: Удивительный удар прозрения (September 2024)
Anonim

Vid denna månads SC16 Supercomputing-konferens stod två trender ut. Den första är utseendet på Intels senaste Xeon Phi (Knights Landing) och Nvidias senaste Tesla (den Pascal-baserade P100) på Top500-listan över världens snabbaste datorer; båda systemen landade i topp 20. Det andra är en stor betoning på hur chip- och systemtillverkare tar koncept från moderna maskininlärningssystem och tillämpar dessa på superdatorer.

Vid den aktuella revideringen av Top500-listan, som uppdateras två gånger per år, ligger toppen av diagrammet fortfarande fast i händerna på Sunway TaihuLight-datorn från Kinas National Supercomputing Center i Wuxi och Tianhe-2-datorn från Kinas National Super Computer Center i Guangzhou, som det har varit sedan ISC16-utställningen i juni. Inga andra datorer är nära i totalprestanda, med systemen för tredje och fjärde klass - fortfarande Titan-superdatorn på Oak Ridge och Sequoia-systemet på Lawrence Livermore - som båda levererar ungefär hälften av Tianhe-2.

Den första av dessa är baserad på en unik kinesisk processor, 1, 45 GHz SW26010, som använder en 64-bitars RISC-kärna. Detta har en oöverträffad 10.649.600 kärnor som levererar 125.4 petaflops med teoretisk toppgenomströmning och 93 petaflops med maximal uppmätt prestanda på Linpack-riktmärket med 15, 4 megawatt effekt. Det bör noteras att även om denna maskin toppar listorna i Linpack-prestanda med en enorm marginal, passar den inte lika bra i andra test. Det finns andra riktmärken som High Performance Conjugate Gradients (HPCG) benchmark, där maskiner tenderar att bara se 1 till 10 procent av sin teoretiska toppprestanda, och där toppsystemet - i detta fall Riken K-maskinen - fortfarande levererar mindre än 1 petaflop.

Men Linpack-testerna är standarden för att prata om högpresterande datoranvändning (HPC) och vad som används för att skapa Top500-listan. Med Linpack-testerna var nr 2-maskinen, Tianhe-2, nr 1 på kartan under de senaste åren och använder Xeon E5 och äldre Xeon Phi (Knights Corner) -acceleratorer. Detta erbjuder 54, 9 petaflops av teoretisk toppprestanda och riktmärken vid 33, 8 petaflops i Linpack. Många observatörer tror att ett förbud mot export av de nyare versionerna av Xeon Phi (Knights Landing) fick kineserna att skapa sin egen superdatorprocessor.

Knights Landing, formellt Xeon Phi 7250, spelade en stor roll i de nya systemen på listan, med början med att Cori-superdatorn på Lawrence Berkeley National Laboratory kom på femteplatsen, med en toppprestanda på 27, 8 petaflops och en uppmätt prestanda på 14 petaflops. Detta är ett Cray XC40-system som använder Aries-sammankopplingen. Observera att Knights Landing kan fungera som en huvudprocessor, med 68 kärnor per processor som levererar 3 topp teraflops. (Intel listar en annan version av chipet med 72 kärnor vid 3, 46 teraflops med högsta teoretiska prestanda med dubbel precision på sin prislista, men ingen av maskinerna på listan använder den här versionen, kanske för att den är dyrare och använder mer energi.)

Tidigare kunde Xeon Phis endast köras som acceleratorer i system som kontrollerades av traditionella Xeon-processorer. På sjätte plats var Oakforest-PACS-systemet i Japans Joint Center for Advanced High Performance Computer med 24, 9 topp petaflops. Detta byggs av Fujitsu med Knights Landing och Intels Omni-Path-samtrafik. Knights Landing används också i nr 12-systemet (Marconi-datorn vid Italiens CINECA, byggt av Lenovo och använder Omni-Path) och nr 33-systemet (Camphor 2 vid Japans Kyoto universitet, byggt av Cray och med Väduren interconnect).

Nvidia var också väl representerad på den nya listan. System nr 8, Piz Daint vid Swiss National Supercomputing Center, uppgraderades till en Cray XC50 med Xeons och Nvidia Tesla P100, och erbjuder nu knappt 16 petaflops med teoretisk toppprestanda och 9, 8 petaflops av Linpack-prestanda - en stor uppgradera från 7, 8 petaflops med toppprestanda och 6, 3 petaflops av Linpack-prestanda i sin tidigare iteration baserad på Cray XC30 med Nvidia K20x-acceleratorer.

Det andra P100-baserade systemet på listan var Nvidias egna DGX Saturn V, baserat på företagets egna DGX-1-system och en Infiniband-samtrafik, som kom in på nr 28 på listan. Observera att Nvidia nu säljer både processorerna och DGX-1-apparaten, som inkluderar programvara och åtta Tesla P100. DGX Saturn V-systemet, som Nvidia använder för intern AI-forskning, poängterar nästan 4, 9 toppflaskor och 3, 3 Linpack petaflops. Men vad Nvidia påpekar är att den bara använder 350 kilowatt kraft, vilket gör det mycket mer energieffektivt. Som ett resultat toppar detta system Green500-listan över de mest energieffektiva systemen. Nvidia påpekar att detta är betydligt mindre energi än det Xeon Phi-baserade Camphor 2-systemet, som har liknande prestanda (nästan 5, 5 petaflops topp och 3, 1 Linpack petaflops).

Det är en intressant jämförelse, med Nvidia som visar bättre energieffektivitet på GPU: er och Intel visar en mer bekant programmeringsmodell. Jag är säker på att vi kommer att se mer konkurrens under de kommande åren, eftersom de olika arkitekturerna tävlar för att se vilka av dem som kommer att vara de första att nå "exascale computing" eller om den kinesiska hemodlade metoden kommer dit istället. För närvarande förväntar sig det amerikanska energidepartementet Exascale Computing Project att de första exascale-maskinerna kommer att installeras 2022 och gå i drift följande år.

Jag tycker att det är intressant att notera att trots betoningen på många kärnans acceleratorer som Nvidia Tesla och Intel Xeon Phi-lösningar, endast 96 system använder sådana acceleratorer (inklusive de som använder Xeon Phi ensam); i motsats till 104 system för ett år sedan. Intel fortsätter att vara den största chipleverantören, med sina chips i 462 av de 500 bästa systemen, följt av IBM Power-processorer under 22. Hewlett-Packard Enterprise skapade 140 system (inklusive de som byggts av Silicon Graphics, som HPE förvärvade), Lenovo byggde 92 och Cray 56.

Machine Learning Competition

Det fanns ett antal tillkännagivanden på eller runt showen, de flesta handlade om någon form av konstgjord intelligens eller maskininlärning. Nvidia tillkännagav ett partnerskap med IBM om en ny djupinlärningsprogramvara verktyg som heter IBM PowerAI som driver IBM Power-servrar med Nvidias NVLink-samtrafik.

AMD, som har varit en eftertanke i både HPC och maskininlärningsmiljöer, arbetar för att förändra det. På detta område fokuserade företaget på sina egna Radeon-GPU: er, pressade sina FirePro S9300 x2-server-GPU: er och meddelade ett partnerskap med Google Cloud Platform för att göra det möjligt att använda det över molnet. Men AMD har inte investerat så mycket i programvara för programmering av GPU: er, eftersom det har betonat OpenCL över Nvidias mer proprietära strategi. Vid utställningen introducerade AMD en ny version av sin Radeon Open Compute Platform (ROCm), och utropade planer på att stödja sina GPU: er i heterogena datorscenarier med flera CPU: er, inklusive de kommande "Zen" x86-CPU: erna, ARM-arkitekturer som börjar med Caviums ThunderX och IBM Power 8-processorer.

Vid utställningen talade Intel om en ny version av det nuvarande Xeon E5v4 (Broadwell) -chipet som är avstämt för arbetsbelastningar för flytande punkter och hur nästa version baserad på Skylake-plattformen kommer ut nästa år. Men i ett senare evenemang den veckan gjorde Intel en serie meddelanden som utformades för att placera sina marker i artificiell intelligens eller maskininlärningsutrymme. (Här är ExtremeTechs tag.) Mycket av detta har konsekvenser för högpresterande datoranvändning, men är mestadels separat. Till att börja med, förutom de vanliga Xeon-processorerna, främjar företaget också FPGA: er för att göra mycket av slutsatsen i neurala nätverk. Det är en stor anledning till att företaget nyligen köpte Altera, och sådana FPGA används nu av företag som Microsoft.

Men fokuset på AI förra veckan handlade om några nyare marker. För det första finns det Xeon Phi, där Intel har indikerat att den nuvarande Knights Landing-versionen kommer att kompletteras nästa år med en ny version som heter Knights Mill, som är inriktad på marknaden för "deep learning". Tillkännagav vid IDF, detta är en annan 14nm version men med stöd för halva precision beräkningar, som ofta används för att utbilda neurala nätverk. Faktum är att en av de stora fördelarna med de nuvarande Nvidia-chipen i djupinlärning är deras stöd för halvprecisionskalkyler och 8-bitars heltalstransaktioner, som Nvidia ofta kallar djupa lärande "tera-ops." Intel har sagt att Knights Mill kommer att leverera upp till fyra gånger prestandan hos Knights Landing för djup inlärning. (Det här chipet är fortfarande planerat att följas senare av en 10nm-version som kallas Knights Hill, antagligen riktad mer mot den traditionella högpresterande datormarknaden.)

Det mest intressanta för nästa år är en design från Nervana, som Intel nyligen förvärvade, som använder en rad processorkluster som är utformade för att göra enkla matematikoperationer anslutna till högbandbreddminne (HBM). Först uppe i denna familj kommer Lake Crest, som designades innan Intel köpte företaget och tillverkade på en 28 nm TSMC-process. På grund av testversionerna under första halvåret nästa år, säger Intel att det kommer att leverera mer rå datorprestanda än en GPU. Detta kommer så småningom att följas av Knights Crest, som på något sätt implementerar Nervanas teknik tillsammans med Xeon, med detaljer som fortfarande inte tillkännages.

"Vi förväntar oss att Nervanas teknik kommer att producera en genombrott 100-faldig ökning av prestanda under de kommande tre åren för att utbilda komplexa neurala nätverk, vilket gör det möjligt för dataforskare att lösa sina största AI-utmaningar snabbare, " skrev Intel VD Brian Krzanich.

Intel tillkännagav nyligen planer på att förvärva Movidius, vilket gör DSP-baserade chips särskilt lämpade för datorsynsinferenser - igen, och fattar beslut baserade på tidigare utbildade modeller.

Det är en komplicerad och utvecklande berättelse - verkligen inte så enkelt som Nvidias push för sina GPU-enheter överallt. Men vad det gör klart är bara hur snabbt maskininlärning tar fart, och de många olika sätt som företag planerar att lösa problemet, från GPU: er som från Nvidia och AMD, till många kärnprocessorer x86 som Xeon Phi, till FPGA: er, till specialiserade produkter för utbildning som Nervana och IBMs TrueNorth, till anpassade DSP-liknande inferencingmotorer som Googles Tensor Processing Units. Det kommer att vara mycket intressant att se om marknaden har utrymme för alla dessa tillvägagångssätt.

Varför maskininlärning är framtiden