Hem Framåt tänkande Chipmaking-utmaningar står inför moores lag

Chipmaking-utmaningar står inför moores lag

Video: CICC ES2-1 - "IC Design after Moore's Law" - Dr. Greg Yeric (September 2024)

Video: CICC ES2-1 - "IC Design after Moore's Law" - Dr. Greg Yeric (September 2024)
Anonim

Varje par år finns det berättelser om hur Moores lag - begreppet att antalet transistorer i ett visst område fördubblas vartannat år eller så - dör. Sådana berättelser har funnits i decennier, men vi fortsätter att se nya chips med fler transistorer med några få år, ganska mycket enligt schemat.

Till exempel introducerade Intel i februari ett transistorchip på 4, 3 miljarder som kallas Xeon E7v2 eller Ivytown på en 541 kvadratmillimeterstans med sin 22nm-process. För ett decennium sedan var Intels avancerade Xeon, känd som Gallatin, ett chip på 130 nm med 82 miljoner transistorer på en 555 kvadratmillimeter munstycke. Det är inte riktigt i linje med en fördubbling vartannat år, men det är nära.

Naturligtvis betyder det inte att det kommer att fortsätta fungera för evigt, och faktiskt chipproduktionen genomgår några stora förändringar som påverkar både tillverkningen och utformningen av chips, och alla dessa kommer att ha bestående effekter på användarna.

Det är tydligt att det har varit klart under lång tid att klockhastigheterna inte går snabbare. När allt kommer omkring introducerade Intel Pentium-chips 2004 som körde på 3, 6 GHz; idag går företagets topp-end Core i7 vid 3, 5 GHz med en maximal turbofart på 3, 9 GHz. (Naturligtvis finns det vissa människor som överklockar, men det har alltid varit fallet.)

Istället reagerade designers genom att lägga till fler kärnor i chips och genom att öka effektiviteten för varje enskild kärna. Idag är även det lägsta chipet du kan få för en stationär eller bärbar dator ett dubbelkärnigt chip, och fyrkärniga versioner är vanliga. Även i telefoner ser vi nu en hel del fyrkärniga och till och med okta-kärndelar.

Det är bra för att köra flera applikationer samtidigt (multi-tasking) eller för applikationer som verkligen kan dra fördel av flera kärnor och trådar, men de flesta applikationer gör det fortfarande inte. Utvecklare - särskilt de som skapar utvecklarverktyg - har använt mycket tid på att få sina applikationer att fungera bättre med flera kärnor, men det finns fortfarande en hel del applikationer som mest beror på enkeltrådad prestanda.

Dessutom lägger processorutvecklare mycket mer grafikkärnor och andra specialiserade kärnor (som de som kodar eller avkodar video, eller krypterar eller dekrypterar data) i en applikationsprocessor, i vad mycket av branschen har kallat heterogen bearbetning. AMD, Qualcomm och MediaTek har alla drivit på detta koncept, vilket gör mycket meningsfullt för vissa saker. Det hjälper verkligen i integrationen - att göra chips mindre och mindre krafthungande; och verkar vara vettigt i mobila processorer - till exempel den stora LITTLE-strategin som ARM har tagit där den kombinerar kraftigare men mer krafthungna kärnor med de som bara tar lite ström. För många av oss är det mycket att få chips som använder mindre ström för samma prestanda - och därför är mobila enheter som går längre på batteriladdning.

Användningen av ett enormt antal kärnor - oavsett om grafikkärnor eller specialiserade x86-kärnor - har verkligen en enorm inverkan på högpresterande datoranläggningar, där saker som Nvidias Tesla-brädor eller Intels Xeon Phi (Knight's Corner) har en enorm inverkan. Faktum är att de flesta av de bästa superdatorerna idag använder en av dessa metoder. Men det fungerar fortfarande bara för vissa typer av användningar, främst för applikationer främst för applikationer som använder SIMD-kommandon (enstaka instruktioner, flera data). För andra saker fungerar den här metoden inte.

Och det är inte bara att chips som inte kan köras snabbare. På tillverkningssidan finns det andra hinder för att sätta fler transistorer på en dyna. Under det senaste decenniet har vi sett alla typer av nya tekniker för spånframställning, från den traditionella blandningen av kisel, syre och aluminium mot nya tekniker som "ansträngd kisel" (där ingenjörer sträcker ut kiselatomerna) och ersätter grindar med hög-K / metallgrindmaterial, och senast flyttar de från traditionella plana grindar mot 3D-grindar som kallas FinFETs eller "TriGate" i Intel parlance. De två första teknikerna används nu av alla avancerade chipmakare, med gjuterierna som planerar att införa FinFETs under nästa år eller så, efter Intels introduktion 2012.

Ett alternativ kallas FD-SOI (helt utarmad kisel-på-isolator), en teknik som särskilt ST Microelectronics har drivit, som använder ett tunt isolerande skikt mellan kiselsubstratet och kanalen för att ge bättre elektrisk kontroll av små transistorer i teori som ger bättre prestanda och lägre effekt. Men hittills verkar det inte ha nästan fart från de stora tillverkarna som FinFET har.

På senare tid har Intel gjort en stor del av hur långt framåt det är med chiptillverkning och faktiskt började leverera volymproduktion av sina Core-mikroprocessorer på sin 22nm-process med TriGate-tekniken för ungefär två år sedan och planerar att leverera 14nm produkter under andra halvåret i år. Samtidigt planerar de stora chip-gjuterierna på 20 nm produktion i volym senare i år med traditionella plana transistorer, med 14 eller 16 nm produkter med FinFETs planerade för nästa år.

Intel har visat upp bilder som visar hur långt framåt det är på chipstätheten, som den här från sin analytikerdag:

Men gjuterierna håller inte med. Här är en bild från TSMCs senaste investerarsamtal och säger att det kan täcka gapet nästa år.

Självklart kommer bara tiden att visa sig.

Under tiden är det svårare att få mindre formstorlekar med de traditionella litografiverktygen som används för att etsa linjerna i kiselchipet. Nedsänkningslitografi, som branschen har använt i flera år, har nått sin gräns, så leverantörerna vänder sig nu till "dubbelmönster" eller ännu fler pass för att få finare dimensioner. Även om vi har sett lite framsteg nyligen, är den länge efterlängtade rörelsen mot extrem ultraviolett litografi, som borde erbjuda finare kontroll, fortfarande år bort.

Saker som FinFETs och flera mönster hjälper till att göra nästa generation av chips, men till ökande kostnader. I själva verket säger ett antal analytiker att kostnaden per transistor för produktion vid 20 nm kanske inte är en förbättring jämfört med kostnaden vid 28 nm, på grund av behovet av dubbel mönster. Och nya strukturer som FinFETs kommer sannolikt också att bli dyrare, åtminstone i början.

Som ett resultat tittar många chipmakare på ännu mer exotiska metoder för att förbättra densiteten även om traditionella Moore's Law-tekniker inte fungerar.

NAND-flashminne använder den mest avancerade processtekniken så att det redan stöter på allvarliga problem med konventionell horisontell skalning. Lösningen är att skapa vertikala NAND-strängar. De enskilda minnecellerna blir inte mindre, men eftersom du kan stapla så många ovanpå varandra - alla på samma underlag - får du mycket större täthet i samma fotavtryck. Till exempel skulle ett 16-lagers 3D NAND-chip tillverkat på en 40nm-process vara ungefär motsvarande ett konventionellt 2D NAND-chip tillverkat på en 10nm-process (den mest avancerade processen som används nu är 16nm). Samsung säger att det redan tillverkar sin V-NAND (Vertical-NAND), och Toshiba och SanDisk kommer att följa med vad de kallar p-BiCS. Micron och SK Hynix utvecklar också 3D NAND, men verkar vara fokuserade på standard 2D NAND de närmaste åren.

Observera att detta inte är samma sak som stapling av 3D-chip. DRAM-minne träffar också en skalvägg, men det har en annan arkitektur som kräver en transistor och en kondensator i varje cell. Lösningen här är att stapla flera tillverkade DRAM-minneschips ovanpå varandra, borra hål genom substraten och sedan ansluta dem med en teknik som kallas genom-kisel-vias (TSV). Slutresultatet är detsamma - högre täthet i ett mindre fotavtryck - men det är mer en avancerad förpackningsprocess än en ny tillverkningsprocess. Branschen planerar att använda samma teknik för att stapla minnet ovanför logiken, inte bara för att trimma fotavtrycket, utan också för att förbättra prestandan och minska kraften. En lösning som fått mycket uppmärksamhet är Microns Hybrid Memory Cube. Så småningom kan 3D-chipstackning användas för att skapa kraftfulla mobilchips som kombinerar CPU: er, minne, sensorer och andra komponenter i ett enda paket, men det finns fortfarande många problem att lösa med tillverkning, testning och drift av dessa så kallade heterogena 3D-staplar.

Men det är nästa generations tekniker som chiptillverkarna har pratat om som verkar mycket mer exotiska. På chipkonferenser hör du mycket om Directed Self Assembly (DSA), där nya material faktiskt kommer att samlas i det grundläggande transistormönstret - åtminstone för ett lager av ett chip. Det låter lite som science fiction, men jag känner ett antal forskare som tror att detta verkligen inte är långt borta alls.

Samtidigt tittar andra forskare på en klass med nya material - känd som III-V halvledare i mer traditionella tillverkningsstilar; medan andra tittar på olika halvledarstrukturer för att komplettera eller ersätta FinFET: er, till exempel nanotrådar.

En annan metod för att minska kostnaderna är att göra transistorer på en större skiva. Branschen har genomgått sådana övergångar innan de flyttade från 200 mm skivor till 300 mm skivor (cirka 12 tum i diameter) för ungefär ett decennium sedan. Nu talas det mycket om att flytta till 450 mm skivor, med de flesta av de stora tillverkarna av skivor och verktygsleverantörer som skapar ett konsortium för att titta på nödvändig teknik. En sådan övergång bör sänka tillverkningskostnaderna, men kommer att medföra en hög kapitalkostnad eftersom den kommer att kräva nya fabriker och en ny generation av chiptillverkningsverktyg. Intel har en fabrik i Arizona som skulle kunna producera 450 mm, men har försenat beställningen av verktygen, och många av verktygsförsäljarna försenar också sina erbjudanden, vilket gör det troligt att den första verkliga produktionen av 450 mm skivor inte kommer att vara förrän 2019 eller 2020 tidigast.

Allt verkar bli svårare och dyrare. Men det har varit fallet för halvledartillverkning sedan början. Den stora frågan är alltid om förbättringarna i prestanda och extra täthet kommer att vara värda de extra kostnaderna i tillverkningen.

ISSCC: Utöka Moores lag

Hur man utvidgar Moore's Law var ett viktigt ämne vid förra månadens konferens International Solid State Circuits (ISSCC). Mark Horowitz, en Stanford University-professor och grundare av Rambus, konstaterade att anledningen till att vi har datorer i allt idag beror på att databehandling blev billig, på grund av Moores lag och Dennards regler för skalning. Detta har lett till förväntningar om att datorenheter blir allt billigare, mindre och kraftfullare. (Stanford har planerat processorns prestanda över tid på cpudb.stanford.edu).

Men han noterade att klockfrekvensen för mikroprocessorer slutade skala runt 2005 eftersom strömtätheten blev ett problem. Ingenjörer har en verklig effektbegränsning - eftersom de inte kunde göra chips mer heta, så nu är alla datorsystem strömbegränsade. Som han noterade förändras kraftskalningen - strömförsörjningsspänningen - mycket långsamt.

Branschens första lutning att lösa detta problem är att förändra teknik. "Tyvärr är jag inte optimistisk för att vi kommer att hitta en teknik för att ersätta CMOS för dator", sade han, för både tekniska och ekonomiska problem. Det enda sättet att få operationer per sekund att öka är därför att minska energin per operation, sade han och föreslår att det är varför alla har flerkärniga processorer idag, även i sina mobiltelefoner. Men problemet är att du inte kan fortsätta lägga till kärnor eftersom du snabbt slår till en minskning av avkastningen när det gäller prestandaenergi och matningsområdet. CPU-designers har känt till detta under en längre tid och har optimerat CPU: n under lång tid.

Horowitz sa att vi inte skulle glömma den energi som minnet använder. I sin presentation visade han energifördelningen för en nuvarande, oidentifierad 8-kärnprocessor där CPU-kärnorna använde cirka 50 procent av energin och on-die-minnet (L1, L2 och L3-cachar) använde de andra 50 procenten. Detta inkluderar inte ens det externa DRAM-systemminnet, vilket kan hamna 25 procent av mer av den totala energianvändningen.

Många pratar om att använda specialiserad hårdvara (som ASIC: er), som kan vara tusen gånger bättre när det gäller energi per operation jämfört med en generell CPU. Men som Horowitz noterade kommer effektiviteten här delvis eftersom den används för specifika applikationer (som modembehandling, bildbehandling, videokomprimering och dekomprimering) som i princip inte får åtkomst till minnet så mycket. Det är därför det hjälper till så mycket med energi - det handlar inte så mycket om hårdvaran, det handlar om att flytta algoritmen till ett mycket mer begränsat utrymme.

Den dåliga nyheten är att det innebär att applikationerna du kan bygga är begränsade. Den goda nyheten är att du kanske kan bygga en mer generell motor som kan hantera de här typerna av applikationer med "hög lokalitet", vilket betyder att de inte behöver komma åt minnet. Han hänvisar till detta som den mycket lokala beräkningsmodellen och "stencilapplikationer" som kan köras på den. Detta kräver naturligtvis en ny programmeringsmodell. Stanford har utvecklat ett domänspecifikt språk, en kompilator som kan bygga dessa stencilapplikationer och köra dem på FPGA och ASIC.

Även vid ISSCC-konferensen sa Ming-Kai Tsai, ordförande och VD för MediaTek, att folk har frågat sedan början av 1990-talet hur länge Moores lag faktiskt kommer att pågå. Men som Gordon Moore sa vid ISSCC 2003, "Ingen exponentiell är för evigt. Men vi kan försena det för alltid." Branschen har gjort ett bra jobb med att upprätthålla Moores lag mer eller mindre, sade han. Transistorkostnaden har fortsatt sin historiska nedgång. För kostnaden för 100 gram ris (cirka 10 cent) kunde du bara köpa 100 transistorer 1980, men 2013 kunde du köpa 5 miljoner transistorer.

Tsai sa att mobila enheter har träffat ett tak eftersom processorer inte kan köra effektivt med hastigheter över 3 GHz och eftersom batteritekniken inte har förbättrats mycket. MediaTek har arbetat med det här problemet genom att använda flerkärniga processorer och heterogen multiprocessing (HMP). Han sa att företaget introducerade den första riktiga 8-kärniga HMP-processorn 2013, och tidigare i veckan tillkännagav den en 4-kärnprocessor som använder sin PTP-teknik (Performance, Thermal and Power) för att ytterligare öka prestandan och minska kraften. Han berättade också om de snabba framstegen i anslutning. Många mobilapplikationer som tidigare var omöjliga är nu livskraftiga på grund av dessa förbättringar i WLAN- och WWAN-nätverk, sade han.

MediaTek arbetar med olika tekniker för "Cloud 2.0" inklusive trådlösa laddningslösningar, "Aster" SoC för wearables (mäter bara 5, 4x6, 6 millimeter) och heterogena system som en del av HSA Foundation, sade han. Cloud 2.0, enligt Tsai, kommer att kännetecknas av många fler enheter - i synnerhet bärbara - med mycket fler radioapparater; mer än 100 radioapparater per person fram till 2030.

De stora utmaningarna för Cloud 2.0 kommer att vara energi och bandbredd, sa Tsai. Den första kommer att kräva innovativa integrerade system, hårdvara och mjukvarulösningar; bättre batteriteknologi; och någon form av energi skörd. Den andra kommer att kräva mer effektiv användning av tillgängligt spektrum, anpassningsbara nätverk och mer pålitlig anslutning.

Oavsett vad som händer med chiptillverkning, är det säkert att leda till nya applikationer och nya beslut som chipmakare, produktdesigners och till slut slutanvändare kommer att möta.

Chipmaking-utmaningar står inför moores lag