Hem Framåt tänkande Stora förändringar är äntligen på horisonten för superdatorer

Stora förändringar är äntligen på horisonten för superdatorer

2024

Video: Baldi i det verkliga livet! Baldi är min lärare ?! Vad gjorde mamma? Baldas Grunderna Rolig video (September 2024)

När jag tittar tillbaka på denna veckas ISC 17-superdatakonferens ser det ut som att den superdatoriska världen kommer att se några stora uppgraderingar under de närmaste åren, men uppdateringen till den två gånger årliga Topp 500-listan med världens snabbaste superdatorer var inte så mycket föregående version.

De snabbaste datorerna i världen är fortfarande de två massiva kinesiska maskinerna som har toppat listan i några år: Sunway TaihuLight-dator från Kinas National Supercomputing Center i Wuxi, med en långvarig Linpack-prestanda på mer än 93 petaflops (93 tusen biljoner flytande punkt operation per sekund); och Tianhe-2-datorn från Kinas National Super Computer Center i Guangzhou, med en fortsatt prestanda på mer än 33, 8 petaflops. Dessa är fortfarande de snabbaste maskinerna med en enorm marginal.

Det nya nummer tre är Piz Daint-systemet från Swiss National Supercomputing Center, ett Cray-system som använder Intel Xeons och Nvidia Tesla P100s, som nyligen uppgraderades för att ge den en Linpack långvarig prestanda på 19, 6 petaflops, dubbelt så mycket som tidigare. Det flyttade upp från nummer åtta på listan.

Detta släpper det bästa amerikanska systemet - Titan-systemet vid Oak Ridge National Laboratory - ner till fjärde platsen, vilket gör det till första gången på tjugo år att det inte finns något amerikanskt system i topp tre. Resten av listan förblir oförändrad, med USA som fortfarande står för fem av de 10 bästa och Japan för två.

Även om den snabbaste datorlistan inte har förändrats mycket är det stora förändringar någon annanstans. På Green 500-listan över de mest energieffektiva systemen ändrades nio av de tio bästa. På toppen finns Tsubame 3.0-systemet, ett modifierat HPE ICE XA-system vid Tokyo Institute of Technology baserat på en Xeon E5-2680v4 14-kärna, Omni-Path-samtrafik och Nvidias Tesla P100, som möjliggör 14, 1 gigaflops per watt. Detta är ett enormt hopp från Nvidias DGX Saturn V, baserat på företagets DGX-1-plattform och P100-chips, som var nummer ett på november-listan men nummer tio den här gången, vid 9, 5 gigaflops / Watt. P100 finns i nio av de tio bästa Green500-systemen.

Att bryta 10 gigaflops / watt är en stor sak eftersom det innebär att ett hypotetiskt exaflop-system byggt med dagens teknik skulle konsumera under 100 megawatt (MW). Det är fortfarande för mycket - målet är 20-30 MW för ett exaflop-system, som forskarna hoppas se under de kommande fem åren eller så - men det är ett enormt steg framåt.

Liksom Topp 500-listan fanns det bara mindre förändringar på liknande listor med olika riktmärken, till exempel High Performance Conjugate Gradients (HPCG) benchmark, där maskiner tenderar att se bara 1-10 procent av deras teoretiska toppprestanda, och där toppen systemet - i detta fall levererar Riken K-maskinen fortfarande mindre än 1 petaflop. Både TaihuLight och Piz Daint-system ryckte upp på denna lista. När forskare pratar om en exaflop-maskin brukar de betyda Linpack-riktmärket, men HPCG kan vara mer realistiskt när det gäller verkliga prestanda.

Framväxten av GPU-datoranvändning som en accelerator - nästan alltid med Nvidia GPU-processorer som P100 - har varit den mest synliga förändringen på dessa listor under senare år, följt av introduktionen av Intels egen accelerator, den många kärnan Xeon Phi (inklusive den senaste versionen av Knights Landing). Den nuvarande topp 500-listan innehåller 91 system som använder acceleratorer eller samarbetare, inklusive 74 med Nvidia GPU: er och 17 med Xeon Phi (med ytterligare tre som använder båda); en med en AMD Radeon GPU som accelerator, och två som använder en processor med många kärnor från PEZY Computing, en japansk leverantör. Ytterligare 13 system använder nu Xeon Phi (Knights Landing) som huvudbearbetningsenhet.

Men många av de större förändringarna av superdatorer är fortfarande i horisonten, eftersom vi börjar se större system utformade med dessa koncept i åtanke. Ett exempel är den nya MareNostrum 4 vid Barcelona Supercomputing Center, som kom in på topp 500-listan vid nummer 13. Så länge det är installerat är detta ett Lenovo-system baserat på den kommande Skylake-SP-versionen av Xeon (officiellt Xeon Platinum 8160 24 -processor). Det som är intressant här är de tre nya kluster av "framväxande teknik" som planeras under de kommande åren, inklusive ett kluster med IBM Power 9-processorer och Nvidia GPU: er, utformade för att ha en topphanteringsförmåga på över 1, 5 Petaflops; en sekund baserad på Knights Hill-versionen av Xeon Phi; och en tredje baserad på 64-bitars ARMv8-processorer designade av Fujitsu.

Dessa koncept används i ett antal andra stora superdatorprojekt, särskilt flera sponsrade av det amerikanska energidepartementet som en del av dess CORAL-samarbete vid Oak Ridge, Argonne och Lawrence Livermore National Labs. Först bör toppmötet vid Oak Ridge, som kommer att använda IBM Power 9-processorer och Nvidia Volta GPU, och planeras för att leverera över 150 till 300 topp petaflops; följt av Sierra vid Lawrence Livermore, planerad att leverera över 100 topp petaflops.

Vi borde då se Aurora-superdatorn på Argonne National Laboratory, baserat på Knights Hill-versionen av Xeon Phi och byggd av Cray, som är planerad att leverera 180 topp-petaflops. CORAL-systemen bör vara uppe och löpning nästa år.

Samtidigt har de kinesiska och japanska grupperna också planerat uppgraderingar, främst med unika arkitekturer. Det borde vara intressant att titta på.

En ännu större skift verkar vara lite längre bort: skiftet mot maskininlärning, vanligtvis på massivt parallella processorenheter i själva processorn. Linpack-numret hänvisar till 64-bitars eller dubbelprecisionsprestanda, men det finns klasser av applikationer - inklusive många djupa neurala nätverksbaserade applikationer - som fungerar bättre med enkel- eller till och med halvprecisionsberäkningar. Nya processorer utnyttjar detta, såsom Nvidias senaste meddelande om Volta V100 och den kommande Knights Mill-versionen av Xeon Phi. Vid utställningen sa Intel att den versionen, som kommer att vara i produktion under det fjärde kvartalet, skulle ha nya instruktionsuppsättningar för "lågprecisionsberäkning" som kallas Quad Fused Multiply Add (QFMA) och Quad Virtual Neural Network Instruction (QVNNI).

Jag antar att dessa koncept också kan tillämpas på andra arkitekturer, till exempel Googles TPU eller Intels FPGA och Nervana-chips.

Även om vi inte ser stora förändringar i år, bör vi nästa år förvänta oss att se mer. Konceptet med en exascale (1000 teraflops) maskin är fortfarande i sikte, även om det troligtvis kommer att innebära ett antal ännu större förändringar.