History of Processor Performance

121 downloads 147 Views 5MB Size Report
Apr 24, 2012 - FIGURE 1.15 Clock rate and Power for Intel χ86 microprocessors over eight generations and 25 years. ....
History of Processor Performance  

)NTELª8EON ªª'(Z  BITª)NTELª8EON ªª'(Z  !-$ª/PTERON ªª'(Z   )NTELª0ENTIUMª ª'(Z  !-$ª!THLON ªª'(Z  )NTELª0ENTIUMª))) ªª'(Z  !LPHAª! ªª'(Z  !LPHAª ªª'(Z

0ERFORMANCEªVS6!8 



 !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª! ªª'(Z  0OWER0#ª ª'(Z  !LPHAª ªª'(Z  (0ª0! 2)3# ªª'(Z 



)"-ª23 -)03ª-ª -)03ª- 

3UN  6!8ª

6!8  





YEAR 



YEAR











 6!8 

























&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALä IDEASä "Yä  ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED

1 Tuesday, April 24, 12

History of Processor Performance  

)NTELª8EON ªª'(Z  BITª)NTELª8EON ªª'(Z  !-$ª/PTERON ªª'(Z   )NTELª0ENTIUMª ª'(Z  !-$ª!THLON ªª'(Z  )NTELª0ENTIUMª))) ªª'(Z  !LPHAª! ªª'(Z  !LPHAª ªª'(Z

CSEE 3827

0ERFORMANCEªVS6!8 



 !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª! ªª'(Z  0OWER0#ª ª'(Z  !LPHAª ªª'(Z  (0ª0! 2)3# ªª'(Z 



)"-ª23 -)03ª-ª -)03ª- 

3UN  6!8ª

6!8  





YEAR 



YEAR











 6!8 

























&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALä IDEASä "Yä  ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED 2 Tuesday, April 24, 12

History of Processor Performance  

)NTELª8EON ªª'(Z  BITª)NTELª8EON ªª'(Z  !-$ª/PTERON ªª'(Z   )NTELª0ENTIUMª ª'(Z  !-$ª!THLON ªª'(Z  )NTELª0ENTIUMª))) ªª'(Z  !LPHAª! ªª'(Z  !LPHAª ªª'(Z

0ERFORMANCEªVS6!8 



 !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª! ªª'(Z  0OWER0#ª ª'(Z  !LPHAª ªª'(Z  (0ª0! 2)3# ªª'(Z 



)"-ª23 -)03ª-ª -)03ª- 

3UN  6!8ª

6!8  





YEAR 



YEAR











COMS 4824  6!8 

























&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALä IDEASä "Yä  ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED 3 Tuesday, April 24, 12

Abstract Stages of Execution Instruction Fetch (Instructions fetched from memory into CPU)

Instruction Issue / Execution (Instructions executed on ALU or other functional unit)

Instruction Completion / Commit (Architectural state updated, i.e., regfile or memory)

4 Tuesday, April 24, 12

Multiple Instruction Issue Processors Multiple instructions fetched, executed, and committed in each cycle

In superscalar processors instructions are scheduled by the HW

In VLIW processors instructions are scheduled by the SW

F: E: C:

F: E: C:

In all cases, the goal is to exploit instruction-level parallelism (ILP) 5 Tuesday, April 24, 12

Flynn’s Taxonomy Single Instruction, Single Data (SISD)

Single Instruction, Multiple Data (SIMD)

Multiple Instruction, Single Data (MISD)

Multiple Instruction, Multiple Data (MIMD)

Exploits instr-level parallelism (ILP)

Exploits data-level parallelism (DLP) 6 Tuesday, April 24, 12

Out-of-order execution In in-order execution, instructions are fetched, executed, and committed in compiler order

In out-of-order execution (OOO), instructions are fetched, and committed in compiler, order; may be executed in some other order

F:

F:

E:

E:

One stalls, they all stall Relatively simple HW

C:

C:

One stalls, independent instrs may proceed Additional hardware required for reordering

Another way to exploit instruction-level parallelism (ILP) 7 Tuesday, April 24, 12

Speculation Speculation is executing an instruction before it is known that it should be executed Speculate

If correct

If incorrect

F:

F:

F:

E:

E: E:

C:

C:

Misspeculation executes excess instructions, costing time and power

C:

8 Tuesday, April 24, 12

Performance

The Memory Wall

x o r pp

0 2 25

y l l a nnu

a %

a e as

e r c s in

PU

C

d e e sp

lly a u n n a % 1 1 2 x o ase appr

e r c n i s d e e p s M A R D

Time

A result of this gap is that cache design has increased in importance over the years. This has resulted in innovations such as victim caches and trace caches. 9 Tuesday, April 24, 12

Modern Processor Performance While single threaded performance has leveled, multithreaded performance potential scaling.  

)NTELª8EON ªª'(Z  BITª)NTELª8EON ªª'(Z  !-$ª/PTERON ªª'(Z   )NTELª0ENTIUMª ª'(Z  !-$ª!THLON ªª'(Z  )NTELª0ENTIUMª))) ªª'(Z  !LPHAª! ªª'(Z  !LPHAª ªª'(Z

0ERFORMANCEªVS6!8 



 !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª! ªª'(Z  0OWER0#ª ª'(Z  !LPHAª ªª'(Z  (0ª0! 2)3# ªª'(Z 



)"-ª23 -)03ª-ª -)03ª- 

3UN  6!8ª

6!8  





YEAR 

COMS 6824 + COMS 4130 (Parallel Programming)

YEAR











 6!8 



























&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALä IDEASä "Yä  ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED 10 Tuesday, April 24, 12

 

)NTELª8EON ªª'(Z  BITª)NTELª8EON ªª'(Z  !-$ª/PTERON ªª'(Z   )NTELª0ENTIUMª ª'(Z  !-$ª!THLON ªª'(Z  )NTELª0ENTIUMª))) ªª'(Z  !LPHAª! ªª'(Z  !LPHAª ªª'(Z

0ERFORMANCEªVS6!8 



 !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª! ªª'(Z  0OWER0#ª ª'(Z  !LPHAª ªª'(Z  (0ª0! 2)3# ªª'(Z 



)"-ª23 -)03ª-ª -)03ª- 

3UN  6!8ª

6!8  





YEAR 



YEAR











 6!8 

























&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY Source: Hennessy and Patterson, “Computer Architecture: A Quantitative Approach” DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä Tuesday, April 24, 12 ORGANIZATIONALä IDEASä "Yä  ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT

 

)NTELª8EON ªª'(Z  BITª)NTELª8EON ªª'(Z  !-$ª/PTERON ªª'(Z   )NTELª0ENTIUMª ª'(Z  !-$ª!THLON ªª'(Z  )NTELª0ENTIUMª))) ªª'(Z  !LPHAª! ªª'(Z  !LPHAª ªª'(Z

0ERFORMANCEªVS6!8 



 !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª! ªª'(Z  0OWER0#ª ª'(Z  !LPHAª ªª'(Z  (0ª0! 2)3# ªª'(Z 



)"-ª23 -)03ª-ª -)03ª- 

3UN  6!8ª

6!8  





YEAR 



YEAR











 6!8 

























&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY Source: Hennessy and Patterson, “Computer Architecture: A Quantitative Approach” DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä Tuesday, April 24, 12 ORGANIZATIONALä IDEASä "Yä  ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT

5

Area

Performance

Power

MIPS/Watt (%)

4

Increase

  3

)NTELª8EON ªª'(Z  BITª)NTELª8EON ªª'(Z  !-$ª/PTERON ªª'(Z   )NTELª0ENTIUMª ª'(Z  !-$ª!THLON ªª'(Z  )NTELª0ENTIUMª))) ªª'(Z  !LPHAª! ªª'(Z  !LPHAª ªª'(Z

2 1 0

Pipelined

-1

Superscalar

OOO-Speculation

0ERFORMANCEªVS6!8 



Deep Pipelined

 !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª ªª'(Z  !LPHAª! ªª'(Z  0OWER0#ª ª'(Z  !LPHAª ªª'(Z  (0ª0! 2)3# ªª'(Z 



)"-ª23 -)03ª-ª -)03ª- 

3UN  6!8ª

6!8  





YEAR 



YEAR











 6!8 

























&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY Source: Hennessy and Patterson, “Computer Architecture: A Quantitative Approach” DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä Tuesday, April 24, 12 ORGANIZATIONALä IDEASä "Yä  ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT

The Power Wall 

#LOCK2ATE-(Z

 



#LOCK2ATE 















 





 











0OWER 

0OWER7ATTS



 

#ORE +ENTSFIELD 

0ENTIUM 0RESCOTT 

0ENTIUM 7ILLAMETTE 

0ENTIUM 0RO

0ENTIUM 

 

 

 



1, Ê£°£xÊÊÊÊ œVŽÊÀ>ÌiÊ>˜`Ê*œÜiÀÊvœÀʘÌiÊÝnÈʓˆVÀœ«ÀœViÃÜÀÃʜÛiÀÊiˆ}…ÌÊ}i˜iÀ>̈œ˜ÃÊ >˜`ÊÓxÊÞi>ÀðÊ4HE0ENTIUMMADEADRAMATICJUMPINCLOCKRATEANDPOWERBUTLESSSOINPERFORMANCE 4HE0RESCOTTTHERMALPROBLEMSLEDTOTHEABANDONMENTOFTHE0ENTIUMLINE4HE#ORELINEREVERTSTOA SIMPLERPIPELINEWITHLOWERCLOCKRATESANDMULTIPLEPROCESSORSPERCHIP#OPYRIGHTÚ%LSEVIER )NC!LL RIGHTSRESERVED

12 Tuesday, April 24, 12

Much of it goes back to the transistor

Source: Intel press foils Tuesday, April 24, 12

Much of it goes back to the transistor

individual atoms! Source: Intel press foils Tuesday, April 24, 12

Much of it goes back to the transistor

individual atoms! = leakage current + defects Tuesday, April 24, 12

Source: Intel press foils

A model of power

P = Pswitch + Pleakage Pswitch = Eswitch x F = Pleakage = Vdd x I Tuesday, April 24, 12

2

(C x Vdd ) x F

Voltage Scaling: DVFS + Near-Threshold Computing

[Source: Dreslinski et al.: Near-Threshold Computing: Recplaiming Moore’s Law Through Energy Efficient Integrated Circuits] Tuesday, April 24, 12

Voltage Scaling: DVFS + Near-Threshold Computing

[Source: Dreslinski et al.: Near-Threshold Computing: Recplaiming Moore’s Law Through Energy Efficient Integrated Circuits] Tuesday, April 24, 12

Power Density (Watts/cm2)

Chip Area and Power Consumption 1500 Active Power Leakage Power 1000

With leakage power dominating, power consumption roughly proportional to transistor count

power envelope to remain constant

500

0 90nm

65nm

45nm

32nm

22nm

16nm

Source: Shekhar Borkar (Intel)

Integer Performance

1000

100

Pollack’s Law: Processor performance grows with sqrt of area

10

1 1

10

100

1000

10000

100000

Processor Area

Source: Shekhar Borkar (Intel) Tuesday, April 24, 12

The Resulting Shift to Multicore

Perf = 1 Power = 1

Tuesday, April 24, 12

The Resulting Shift to Multicore

Perf = 1 Power = 1

Tuesday, April 24, 12

Perf = 2 Power = 4

The Resulting Shift to Multicore

Perf = 1 Power = 1

Tuesday, April 24, 12

Perf = 2 Power = 4

Perf = 4 Power = 4

Sea Change in Architecture: Multicore (4ª0(9 ªLINKª

3LOWª)/ &USES

(4ª0(9 ªLINKª

 BITª&05 ,OAD 3TORE

,ª$ATA #ACHE

K" -" , 3HARED , #ACHE %XECUTION , #TL &ETCH #ACHE $ECODE ,ª)NSTR #ACHE "RANCH

#OREª

$ $ 2

(4ª0(9 ªLINKª

.ORTHBRIDGE

#OREª

0 ( 9

#OREª

(4ª0(9 ªLINKª

3LOWª)/ &USES

&)'52%ää )NSIDEäTHEä!-$ä"ARCELONAäMICROPROCESSORä4HEäLEFT HANDäSIDEäISäAäMICROPHOTOGRAPHäOFäTHEä!-$ä"ARCELONAäPROCESSORä CHIP äANDäTHEäRIGHT HANDäSIDEäSHOWSäTHEäMAJORäBLOCKSäINäTHEäPROCESSORä4HISäCHIPäHASäFOURäPROCESSORSäORähCORESvä4HEäMICROPROCESSORäINäTHEä LAPTOPäINä&IGUREääHASäTWOäCORESäPERäCHIP äCALLEDäANä)NTELä#OREää$UOä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED

18 Tuesday, April 24, 12

x86 64-bit Architecture Evolution 2005

AMD Opteron™

2010

2007

2008

AMD Opteron™

“Barcelona”

“Shanghai”

“Istanbul”

“Magny-Cours”

90nm SOI

90nm SOI

65nm SOI

45nm SOI

45nm SOI

45nm SOI

K8

K8

Greyhound

Greyhound+

Greyhound+

Greyhound+

L2/L3

1MB/0

1MB/0

512kB/2MB

512kB/6MB

512kB/6MB

512kB/12MB

Hyper Transport™ Technology

3x 1.6GT/.s

3x 1.6GT/.s

3x 2GT/s

3x 4.0GT/s

3x 4.8GT/s

4x 6.4GT/s

Memory

2x DDR1 300

2x DDR1 400

2x DDR2 667

2x DDR2 800

2x DDR2 1066

4x DDR3 1333

Mfg. Process

2003

2009

CPU Core

Max Power Budget Remains Consistent 3 | The AMD “Magny-Cours” Processor | Hot Chips | August 2009

[Source: HotChips ‘09] Tuesday, April 24, 12

19

Tick%Tock'Development'Model Merom

Penryn

Nehalem

Westmere

Sandy Bridge

NEW

NEW

NEW

NEW

NEW

Process

Microarchitecture

Process

Microarchitecture

65nm

45nm

45nm

32nm

32nm

TOCK

TICK

TOCK

TICK

TOCK

Microarchitecture

1

Forecast

Nehalem-EX Architecture 6

All products, dates, and figures are preliminary and are subject to change without notice.

Hot Chips 2009

[Source: HotChips ‘09] Tuesday, April 24, 12

20

Nehalem'Core/Uncore'Modularity C O R E

C O R E



C O R E

Core

L3 Cache

DRAM



IM C

QPI

… QPI

Power & Clock

Uncore

QPI



Common%core%for%client%and%server%CPUs – http://www.intel.com/technology/architecture