1 2010-2011 Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Εισαγωγή στις Τεχνολογίες της Πληροφορικής και των Επικοινωνιών
Advertisements

1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Δεύτερο.
ΕΣ 08: Επεξεργαστές Ψηφιακών Σημάτων © 2006 Nicolas Tsapatsoulis Παραλληλισμός Εντολών (Pipelining) Τμήμα Επιστήμη και Τεχνολογίας Τηλεπικοινωνιών Πανεπιστήμιο.
Pipeline: Ένα παράδειγμα από ….τη καθημερινή ζωή
Το υλικο του Υπολογιστη
Αρχιτεκτονική Υπολογιστών Γλώσσες Μηχανής
Handling Local Variables General Purpose Registers
Δυναμική Δρομολόγηση Εντολών (Dynamic Scheduling)
Πολυνηματικές Αρχιτεκτονικές
Υποθετική Εκτέλεση Εντολών (Hardware-Based Speculation)‏
O επεξεργαστής: Η δίοδος δεδομένων (datapath) και η μονάδα ελέγχου (control) Σχεδίαση datapath 4 κατηγορίες εντολών: Αριθμητικές-λογικές.
Ανίχνευση κίνδυνου Επίλυση με προώθηση. Μπλέ: Εξαρτήσεις. Εξαρτήσεις προς προηγούμενα CC είναι κίνδυνοι δεδομένων Kόκκινο: Προώθηση IF/ID ID/EX EX/MEM.
Λύση: Multicycle υλοποίηση Single-cyle υλοποίηση: Διάρκεια κύκλου ίση με τη μεγαλύτερη εντολή-worst case delay (εδώ η lw) = χαμηλή.
Δυναμική Δρομολόγηση Εντολών (Dynamic Scheduling)
ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ. Εισαγωγή Έρευνα στην Αρχιτεκτονική Υπολογιστών – Σχεδίαση επεξεργαστή για την εκτέλεση 1 thread (pipeline, branch prediction)
© Pipeline: Ένα παράδειγμα από ….τη καθημερινή ζωή 1.Πλυντήριο 2.Στεγνωτήριο 3.Δίπλωμα 4.αποθήκευση 30 min κάθε «φάση» Σειριακή προσέγγιση.
Πολυνηματικές Αρχιτεκτονικές. Εισαγωγή  Η ενσωμάτωση πολλαπλών ροών εκτέλεσης αποτελεί πλέον μονόδρομο στην τεχνολογία των επεξεργαστών –Ελάχιστη ανταπόδοση.
William Stallings Computer Organization and Architecture 7 th Edition Κεφάλαιο 16 Λειτουργία Μονάδας Ελέγχου.
Η ΕΚΤΕΛΕΣΗ ΠΡΟΓΡΑΜΜΑΤΟΣ ΧΡΗΣΤΗ ΑΠ’ ΤΟΝ Η/Υ ΤΟΜΕΑΣ ΤΕΧΝΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Δ.ΙΕΚ ΠΑΤΡΑΣ.
1 Pipeline: Ένα παράδειγμα από ….τη καθημερινή ζωή 1.Πλυντήριο 2.Στεγνωτήριο 3.Δίπλωμα 4.αποθήκευση 30 min κάθε «φάση» Σειριακή προσέγγιση για 4 φορτία.
1 Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τέταρτο Pipelining –
Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών
1 Οργάνωση και Αρχιτεκτονική Υπολογιστών A. Βαφειάδης Πρόγραμμα Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Α.Τ.Ε.Ι Θεσσαλονίκης Μάθημα Οργάνωση.
Πολυνηματικές Αρχιτεκτονικές.
Οργάνωση και Αρχιτεκτονική Υπολογιστών Βασικές αρχές Αρχιτεκτονικής
1 Οργάνωση και Αρχιτεκτονική Υπολογιστών Πρόγραμμα Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Οργάνωση και Αρχιτεκτονική.
© Ασκήσεις στα Προηγμένα Θέματα Αρχιτεκτονικής Υπολογιστών ακ. έτος Νεκτάριος Κοζύρης Νίκος Αναστόπουλος
Υπερβαθμωτή Οργάνωση Υπολογιστών. Περιορισμοί των βαθμωτών αρχιτεκτονικών Μέγιστο throughput: 1 εντολή/κύκλο ρολογιού (IPC≤1) Υποχρεωτική ροή όλων των.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Multi-threading Κορομηνάς Κωνσταντίνος – Μ437 Χατζηανδρέου Ελένη - Μ400 Χήνου Διονυσία – Μ364.
© Υπερβαθμωτή Οργάνωση Υπολογιστών Από τις βαθμωτές στις υπερβαθμωτές αρχιτεκτονικές αγωγού…
Εισαγωγή Σύνοψη βασικών εννοιών, 5-stage pipeline, επεκτάσεις για λειτουργίες πολλαπλών κύκλων.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Δεύτερο.
Implicitly Multithreaded Processors Νίκος Ιωάννου EΠΛ605 Παρουσίαση άρθρου “IMT processors”
1 EPIC Νάνου Σπυριδούλα Α.Μ Explicitly Parallel Instruction Computing Ένα νέο στυλ αρχιτεκτονικής που σκοπό έχει: Τη δυνατότητα υψηλότερου επιπέδου.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
1 Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τέταρτο Οι κίνδυνοι της.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Δεύτερο.
Αρχιτεκτονική Υπολογιστών Ενότητα # 3: Ιεραρχία Μνήμης Διδάσκων: Γεώργιος Κ. Πολύζος Τμήμα: Πληροφορικής.
Γιώργος Μαγουλάκης Εξάμηνο: Εαρινό 2015 ΤΕΙ Κρήτης Τμ. Μηχανικών Πληροφορικής Τμ. Μηχανικών Πληροφορικής.
Αρχιτεκτονική Υπολογιστών Ενότητα # 2: Datapath & Control Διδάσκων: Γεώργιος Κ. Πολύζος Τμήμα: Πληροφορικής.
Αρχιτεκτονική Υπολογιστών DATAPATH & CONTROL. Αρχιτεκτονική Υπολογιστών DATAPATH & CONTROL Για κάθε εντολή υπάρχουν δυο βήματα που πρέπει να γίνουν: –Προσκόμιση.
Chapter 16 Control Unit Implemntation. A Basic Computer Model.
Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών
O επεξεργαστής: Η δίοδος δεδομένων (datapath) και η μονάδα ελέγχου (control) 4 κατηγορίες εντολών: Αριθμητικές-λογικές εντολές (add, sub, slt κλπ) –R Type.
ΤΕΧΝΙΚΕΣ Αντικειμενοστραφουσ προγραμματισμου
Υποθετική Εκτέλεση Εντολών (Hardware-Based Speculation)‏
Single-cyle υλοποίηση:
Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών
MIPS: Σύνολο εντολών, γλώσσα μηχανής & μεθοδολογία σχεδίασης
Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών
Παράγοντες που επηρεάζουν την επίδοση της CPU
Pipeline: Ένα παράδειγμα από ….τη καθημερινή ζωή
1 Οργάνωση και Αρχιτεκτονική Υπολογιστών A. Βαφειάδης Πρόγραμμα Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Α.Τ.Ε.Ι Θεσσαλονίκης Μάθημα Οργάνωση.
O επεξεργαστής: Η δίοδος δεδομένων (datapath) και η μονάδα ελέγχου (control) 4 κατηγορίες εντολών: Αριθμητικές-λογικές εντολές (add, sub, slt κλπ) –R Type.
Επιβλέπων: Καθηγητής Εφαρμογών Δρ. Δημήτριος Βαρσάμης
Θέματα Φεβρουαρίου
Πολυνηματικές Αρχιτεκτονικές
Single-cyle υλοποίηση:
Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών
Vector Αρχιτεκτονικές,
Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών
Αρχιτεκτονική Υπολογιστών
Single-cyle υλοποίηση:
O επεξεργαστής: Η δίοδος δεδομένων (datapath) και η μονάδα ελέγχου (control) 4 κατηγορίες εντολών: Αριθμητικές-λογικές εντολές (add, sub, slt κλπ) –R Type.
Single-cyle υλοποίηση:
Single-cyle υλοποίηση:
O επεξεργαστής: Η δίοδος δεδομένων (datapath) και η μονάδα ελέγχου (control) 4 κατηγορίες εντολών: Αριθμητικές-λογικές εντολές (add, sub, slt κλπ) –R Type.
O επεξεργαστής: Η δίοδος δεδομένων (datapath) και η μονάδα ελέγχου (control) 4 κατηγορίες εντολών: Αριθμητικές-λογικές εντολές (add, sub, slt κλπ) –R Type.
Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών
Μεταγράφημα παρουσίασης:

Υπερβαθμωτή (superscalar) Οργάνωση Υπολογιστών

Περιορισμοί των βαθμωτών αρχιτεκτονικών Μέγιστο throughput: 1 εντολή/κύκλο ρολογιού (IPC≤1) Υποχρεωτική ροή όλων των (διαφορετικών) τύπων εντολών μέσα από κοινή σωλήνωση Εισαγωγή καθυστερήσεων σε ολόκληρη την ακολουθία εκτέλεσης λόγω stalls μίας εντολής (οι απόλυτα βαθμωτές αρχιτεκτονικές πραγματοποιούν εν σειρά (in-order) εκτέλεση των εντολών)

Πώς μπορούν να ξεπεραστούν οι περιορισμοί; Εκτέλεση πολλαπλών εντολών ανά κύκλο μηχανής (παράλληλη εκτέλεση) → υπερβαθμωτές αρχιτεκτονικές Ενσωμάτωση διαφορετικών αγωγών ροής δεδομένων, ο καθένας με όμοιες (πολλαπλή εμφάνιση του ίδιου τύπου) ή και ετερογενείς λειτουργικές μονάδες → multicycle operations Δυνατότητα εκτέλεσης εκτός σειράς (out-of-order) των εντολών → δυναμικές αρχιτεκτονικές

Παραλληλισμός Επιπέδου Εντολών ILP: Instruction-Level Parallelism Ο ILP είναι ένα μέτρο του βαθμού των πραγματικών εξαρτήσεων δεδομένων που υφίστανται ανάμεσα στις εντολές Average ILP =#instructions / #cycles required code1: ILP = 1 οι εντολές πρέπει να εκτελεστούν σειριακά code2: ILP = 3 οι εντολές μπορούν να εκτελεστούν παράλληλα code1: r1  r2 + 1 r3  r1 / 17 r4  r0 - r3 code2:r1  r2 + 1 r3  r9 / 17 r4  r0 - r10

Όρια του ILP Weiss and Smith [1984]1.58 Sohi and Vajapeyam [1987]1.81 Tjaden and Flynn [1970]1.86 Tjaden and Flynn [1973]1.96 Uht [1986]2.00 Smith et al. [1989]2.00 Jouppi and Wall [1988]2.40 Johnson [1991]2.50 Acosta et al. [1986]2.79 Wedig [1982]3.00 Butler et al. [1991]5.8 Melvin and Patt [1991]6 Wall [1991]7 Kuck et al. [1972]8 Riseman and Foster [1972]51 Nicolau and Fisher [1984] 90

ILP parameters (Jouppi and Wall, 1989) Operation Latency (OL) Number of machine cycles until a result is available for use by a subsequent instruction Machine Parallelism (MP) Max number of simultaneously executing instructions the machine can support Issue Latency (IL) Number of machine cycles required between issuing two consecutive instructions Issue Parallelism (ΙP) (παραλληλισμός διανομής) Max number of instructions that can be issued in every cycle

Κατηγοριοποίηση επεξεργαστών με βάση τον ILP [Jouppi, DECWRL 1991] Baseline Scalar pipeline (π.χ. κλασικό 5-stage ΜIPS) –Παραλληλισμός διανομής IP (Issue Parallelism) = 1 εντολή/κύκλο –IL (Issue Latency) = 1 cycle –MP (Machine Parallelism) = k (k stages in the pipeline) –OL (operation latency) = 1 cycle –Μέγιστο IPC = 1 εντολή/κύκλο

Κατηγοριοποίηση επεξεργαστών με βάση τον ILP [Jouppi, DECWRL 1991] Superpipelined: κύκλος ρολογιού = 1/m του baseline –Issue Parallelism IP = 1 εντολή / minor κύκλο –Operation Latency OL = 1 major cycle = m minor κύκλοι –Issue Latency IL = 1 minor cycle –MP = m x k –Μέγιστο IPC = m εντολές / major κύκλο (m x speedup?) major cycle = m minor cycles minor cycle Superpipelining: issues instructions faster than they are executed! Pipelining of the execution stage into multiple stages

Κατηγοριοποίηση επεξεργαστών με βάση τον ILP [Jouppi, DECWRL 1991] Superscalar: –Παραλληλισμός διανομής = IP = n εντολές / κύκλο –Καθυστέρηση λειτουργίας = OP = 1 κύκλος –Μέγιστο IPC = n εντολές / κύκλο (n x speedup?) n

Κατηγοριοποίηση επεξεργαστών με βάση τον ILP [Jouppi, DECWRL 1991] VLIW: Very Long Instruction Word –Παραλληλισμός διανομής = IP = n εντολές / κύκλο –Καθυστέρηση λειτουργίας = OP = 1 κύκλος –Μέγιστο IPC = n εντολές / κύκλος = 1 VLIW / κύκλο

Κατηγοριοποίηση επεξεργαστών με βάση τον ILP [Jouppi, DECWRL 1991] Superpipelined-Superscalar –Παραλληλισμός διανομής = IP = n εντολές / minor κύκλο –Καθυστέρηση λειτουργίας = OP = m minor κύκλοι –Μέγιστο IPC = n x m εντολές / major κύκλο

Superscalar vs. Superpipelined Περίπου ισοδύναμη επίδοση –Αν n = m τότε και οι δύο έχουν περίπου το ίδιο IPC –Παραλληλισμός στο «χώρο» vs. παραλληλισμός στον χρόνο

Superpipelining “ Superpipelining is a new and special term meaning pipelining. The prefix is attached to increase the probability of funding for research proposals. There is no theoretical basis distinguishing superpipelining from pipelining. Etymology of the term is probably similar to the derivation of the now-common terms, methodology and functionality as pompous substitutes for method and function. The novelty of the term superpipelining lies in its reliance on a prefix rather than a suffix for the pompous extension of the root word.” - Nick Tredennick, 1991

Superpipelining: Hype vs. Reality baseline underpipelined superpipelined η ταχύτητα διανομής των εντολών δεν ακολουθεί το ρυθμό επεξεργασίας τους τα αποτελέσματα μιας εντολής δεν είναι διαθέσιμα στις επόμενες m-1 διαδοχικές εντολές

Μοντέλο ροών στους Superscalars I-cache FETCH DECODE COMMIT D-cache Branch Predictor Instruction Buffer Store Queue Reorder Buffer Integer Floating-point Media Memory Instruction Register Data Memory Data Flow EXECUTE (ROB) Flow

Παράλληλες αρχιτεκτονικές αγωγού Βαθμός παραλληλισμού μηχανήματος: ο μέγιστος αριθμός εντολών που μπορούν ταυτόχρονα να είναι σε εξέλιξη Σε ένα μια βαθμωτή αρχιτεκτονική ισούται με τον αριθμό σταδίων του pipeline (pipeline depth)

Παράδειγμα βαθμωτής αρχιτεκτονικής αγωγού 6 σταδίων IF: instruction fetch ID: instruction decode RD: register read ALU: ALU op/address generation MEM: read/write memory WB: register write

H ίδια σωλήνωση με πλάτος 3 Πολλαπλά δομικά στοιχεία (functional units) στο hardware Αυξάνεται η λογική πολυπλοκότητα των σταδίων του pipeline Απαιτούνται πολλαπλές θύρες ανάγνωσης/εγγραφής του register file για την ταυτόχρονη προσπέλαση από όλους τους αγωγούς Επιτυγχάνεται στην καλύτερη περίπτωση επιτάχυνση ίση με 3 σε σύγκριση με την αντίστοιχη βαθμωτή σωλήνωση

Inorder Pipelines

Ετερογενείς υπερβαθμωτές σωληνώσεις επέκταση των βαθμωτών σωληνώσεων πολλαπλών κύκλων (π.χ. FP MIPS pipeline) στa στάδια IF, ID, RD,WB μετά το RD, κάθε εντολή γίνεται issue μέσα στον αγωγό που αντιστοιχεί στον τύπο της

CDC ο πρώτος υπολογιστής που κατασκευάστηκε στα πρότυπα ενός «υπερ-υπολογιστή» 1964 (πριν από τους επεξεργαστές RISC): περιείχε 10 διαφορετικές λειτουργικές μονάδες έξω από τη σωλήνωση, με διαφορετικό latency η κάθε μία στόχος η διεκπεραίωση 1 εντολής ανά κύκλο μηχανής 8 address registers (1

CDC functional units/non pipelined/variable exec latency 1x Fixed-point adder (18 bits)-3 cycles 1 x Floating-point adder (60 bits) 2 x Multiply unit (60 bits)-10 cycles Divide unit (60 bits)-29 cycles Shift unit (60 bits) Logical unit (60 bits) 2 x increment units Branch unit

Motorola ένας από τους πλατύτερους αγωγούς (most wider pipelines) περιέχει 10 λειτουργικές μονάδες, στην πλειοψηφία τους με latency ενός κύκλου όλες είναι pipelined, εκτός της μονάδας για διαίρεση Source: Diefendorf and Allen (1992)

Ετερογενής σωλήνωση του Power4 PC I-Cache BR Scan BR Predict Fetch Q Decode Reorder Buffer BR/CR Issue Q CR Unit BR Unit FX/LD 1 Issue Q FX1 Unit LD1 Unit FX/LD 2 Issue Q LD2 Unit FX2 Unit FP Issue Q FP1 Unit FP2 Unit StQ D-Cache