1 2013-2014 ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Γραφήματα & Επίπεδα Γραφήματα
ΑΠΟΤΙΜΗΣΗ ΑΠΟΔΟΣΗΣ ΔΙΚΤΥΩΝ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΑΞΙΟΠΙΣΤΑ ΠΡΩΤΟΚΟΛΛΑ ΜΕΤΑΦΟΡΑΣ ΚΑΙ ΑΞΙΟΠΙΣΤΑ ΠΡΩΤΟΚΟΛΛΑ ΣΥΝΔΕΣΗΣ Ιωάννης Κόμνιος Μεταπτυχιακή Διατριβή Τμήμα.
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
5 Οργάνωση υπολογιστών Εισαγωγή στην Επιστήμη των Υπολογιστών ã Εκδόσεις Κλειδάριθμος.
Εισαγωγή στις Τεχνολογίες της Πληροφορικής και των Επικοινωνιών
IBM Confidential Until Announcement ® IBM Software © 2006 IBM Corporation Χορήγηση Αδειών Χρήσης βάσει Μονάδων Αξίας Επεξεργαστών (Processor Value Unit.
Αλέξανδρος Σαχινίδης, ΜΒΑ, Ph.D. ΙΟΥΝΙΟΣ 2009
ΡΟΗ Υ: ΥΠΟΛΟΓΙΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Δεύτερο.
ΜοντελοποίησηΈργα ΜαθήματαΑξιολόγηση Αναστοχασμος Μαθήματα.
Διαχείριση Έργου Οργάνωση, σχεδιασμός και προγραμματισμός έργων ανάπτυξης λογισμικού.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Πρώτο Αρχιτεκτονική.
1 ΠΡΟΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΟΡΓΑΝΩΤΙΚΗ ΔΟΜΗ ΤΗΣ ΕΡΓΑΣΤΗΡΙΑΚΗΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΦΥΜΑΤΙΩΣΗΣ ΣΕ ΕΘΝΙΚΟ ΕΠΙΠΕΔΟ Ευάγγελος Μαρίνης Επίτιμος Διευθυντής Μικροβιολογικού.
Handling Local Variables General Purpose Registers
Οργάνωση και Αρχιτεκτονική Υπολογιστών Διάδρομοι Μεταφοράς Δεδομένων
Συνάφεια Κρυφής Μνήμης σε Επεκτάσιμα Μηχανήματα. Συστήματα με Κοινή ή Κατανεμημένη Μνήμη  Σύστημα μοιραζόμενης μνήμης  Σύστημα κατανεμημένης μνήμης.
ΠΡΟΗΓΜΕΝΗ ΕΥΡΕΤΗΡΙΑΣΗ ΔΕΔΟΜΕΝΩΝ Ταξινόμηση – Αναζήτηση.
ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ
1 Α. Βαφειάδης Τ.Ε.Ι Θεσσαλονίκης – Τμήμα Πληροφορικής Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Εργαστηριακό Μέρος Μέρος: Τρίτο Εξάμηνο: Έβδομο Καθηγητής:
29/11/2004Εισαγωγή στο OpenMP1 OpenMP Αθήνα, Νοέμβριος 2004 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
1/12/2003Εισαγωγή στο OpenMP1 OpenMP Αθήνα, Νοέμβριος 2003 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
Υποθετικός Πολυνηματισμός. Τα προβλήματα του παράλληλου προγραμματισμού  Εντοπισμός παραλληλισμού – χειροκίνητα (επισκόπηση) – αυτόματα (compiler) 
24/11/2003Message Passing Interface (MPI)1 Αθήνα, Νοέμβριος 2003 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
22/11/2004Message Passing Interface (MPI)1 Αθήνα, Νοέμβριος 2004 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
Προγραμματισμός PASCAL Πληροφορική Γ' Λυκείου μέρος γ
Λύση: Multicycle υλοποίηση Single-cyle υλοποίηση: Διάρκεια κύκλου ίση με τη μεγαλύτερη εντολή-worst case delay (εδώ η lw) = χαμηλή.
Κώστας Διαμαντάρας Τμήμα Πληροφορικής ΤΕΙ Θεσσαλονίκης 2011 Συστολικοί επεξεργαστές.
© GfK 2012 | Title of presentation | DD. Month
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ. Εισαγωγή Έρευνα στην Αρχιτεκτονική Υπολογιστών – Σχεδίαση επεξεργαστή για την εκτέλεση 1 thread (pipeline, branch prediction)
Προγραμματισμός ΙΙ Διάλεξη #7: Περισσότερες Δομές Ελέγχου Δρ. Νικ. Λιόλιος.
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Τα θέματα μας σήμερα Ηλεκτρονικοί υπολογιστές Υλικό και λογισμικό
Προγραμματισμός ΙΙ Διάλεξη #6: Απλές Δομές Ελέγχου Δρ. Νικ. Λιόλιος.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
ΑΡΧΙΤΕΚΤΟΝΙΚΗ & ΟΡΓΑΝΩΣΗ ΥΠΟΛΟΓΙΣΤΩΝ Κεφάλαιο 1 Εισαγωγή
ΔΕΞΙΟΤΗΤΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ 1 ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΜΝΗΜΩΝ ΕΝΟΣ Η/Υ ΤΜΗΜΑ: Τ6 ΟΝΟΜΑΤΑ: ΣΕΛΑΛΜΑΖΙΔΗΣ ΤΑΣΟΣ ΦΙΛΙΑΣ ΑΝΤΩΝΗΣ ΦΙΛΙΑΣ ΑΝΤΩΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ.
Οργάνωση και Αρχιτεκτονική Υπολογιστών Βασικές αρχές Αρχιτεκτονικής
Συνδυαστικά Κυκλώματα
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Προγραμματισμός ΙΙ Διάλεξη #5: Εντολές Ανάθεσης Εντολές Συνθήκης Δρ. Νικ. Λιόλιος.
Ανάπτυξη Πρωτοτύπου Λογισμικού
Ζαγκαρέτος Λεωνίδας ΑΕΜ: 607 Ραφαηλίδης Δημήτρης ΑΕΜ: 656
Γιατί Disk Based Backup; Πολλά ψηφιακά δεδομένα Μεγάλος χρόνος λήψεως αντιγράφων ασφαλείας Χρονοβόρο restore αρχείων Έλλειψη σιγουριάς για την ποιότητα.
Multi-threading Κορομηνάς Κωνσταντίνος – Μ437
ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ Διαφάνειες από το MicroArch 35 Tutorial του Simics
Μοντέλα - Αλγόριθμοι – Ταξινόμηση Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Multi-threading Κορομηνάς Κωνσταντίνος – Μ437 Χατζηανδρέου Ελένη - Μ400 Χήνου Διονυσία – Μ364.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
Σύγχρονες Προκλήσεις. Εισαγωγή Οι CMP είναι πια πραγματικότητα – Intel Core 2, Quad, Nehalem – IBM Power5, Power6 – Sun Niagara, Niagara2, Rock –
Implicitly Multithreaded Processors Νίκος Ιωάννου EΠΛ605 Παρουσίαση άρθρου “IMT processors”
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
© Processor-Memory (DRAM) Διαφορά επίδοσης Performance
ΗΥ-220 Verilog HDL. Τα βασικά.... ΗΥ-220 – Ιάκωβος Μαυροειδής2 Βασική Ροή Σχεδίασης Requirements SimulateRTL Model Gate-level Model Synthesize SimulateTest.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Πρώτο Αρχιτεκτονική.
ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ.
ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ
Single-cyle υλοποίηση:
Εισαγωγή στη VHDL 5/8/2018 Εισαγωγή στη VHDL.
Διπλωματική Εργασία για το Μεταπτυχιακό Δίπλωμα Ειδίκευσης
Επιβλέπων: Καθηγητής Εφαρμογών Δρ. Δημήτριος Βαρσάμης
Single-cyle υλοποίηση:
ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΠΟΛΟΓΙΣΤΩΝ Ι
Single-cyle υλοποίηση:
Single-cyle υλοποίηση:
Μεταγράφημα παρουσίασης:

ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ

Εισαγωγή Θέματα Ενδιαφέροντος Αρχιτεκτονικής Υπολογιστών – Σχεδίαση επεξεργαστή » 1 thread → pipeline, branch prediction » n threads → SMT resource allocation, threads scheduling – Ετερογενείς αρχιτεκτονικές » Cell (PS 3), Intel Sandy Bridge, AMD Fusion, Intel Stellarton (Atom E600C), ARM – Ιεραρχία μνήμης » cache sharing, coherence protocols, NUMA – Παράλληλα συστήματα » Coherence, Δίκτυα διασύνδεσης » Compilers, automatic parallelization » Programming Models, synchronization costs, locks, computation and communication oveheads

Τρόποι Υλοποίησης Χρήση υπαρχόντων μηχανημάτων – Μεγάλο κόστος » Oracle SPARC Enterprise T5120 server (2*16*8=256 threads, 512GB mem) ~ 64K $ (2014) » Intel Sandy Bridge E (4 * 8 cores, 64 threads) ~ 15K $ (2013) – Αδυναμία παρέμβασης στο υλικό τους » pipeline, caches, interconnection network – Περιορισμένη δυνατότητα παρακολούθησης και μετρήσεων » performance counters → λίγοι, μικρό documentation – Περιορισμός στο σήμερα » μελλοντικές αρχιτεκτονικές (π.χ. chip με 100 ή 1000 threads) ; Λύση : Simulation (προσομοίωση)

Τι είναι ο simulator; Ένα εργαλείο που αναπαράγει τη «συμπεριφορά» ενός υπολογιστικού συστήματος. Γιατί να χρησιμοποιήσουμε ένα simulator; – Πληροφορίες σχετικά με την εσωτερική λειτουργία » Performance Analysis – Δυνατότητα ανάπτυξης λογισμικού για μη διαθέσιμες (ή και μη υπαρκτές) πλατφόρμες – Προβλέψεις απόδοσης για διαφορετικές αρχιτεκτονικές.

Simulator taxonomy Architecture simulators Functional Performance / Timing Trace-driven Execution-driven Trace-driven Execution-driven User codeFull system

Functional vs. Timing Simulators Functional Simulators – Visible architectural state – Προσομοίωση της λειτουργικότητας των εντολών (instructions semantics and functionality), μεταβολή του state (registers, memory) – Σωστό program output – Κύριος σκοπός: Software development and/or emulation Timing Simulators – Microarchitecture details – Λεπτομερής υλοποίηση των διαφορετικών δομών (pipeline, branch predictors, interconnection networks, memory hierachy, etc) – Χρονισμός γεγονότων, προκειμένου να υπολογισθεί ο χρόνος εκτέλεσης του προγράμματος Functional simulation πολύ πιο γρήγορο

Trace vs. Execution-driven Simulators Trace Simulators – Εκτέλεση της εφαρμογής σε πραγματική πλατφόρμα → trace (instruction, address, …) – Τα traces χρησιμοποιούνται σαν inputs του simulator Execution-driven Simulators – O simulator εκτελεί την εφαρμογή – Διατήρηση application state και architecture state Trace-driven simulation συνήθως πιο γρήγορο – Διατήρηση μόνο του architecture state, δεν εκτελούνται όλοι οι υπολογισμοί Τα traces επιτρέπουν την προσομοίωση proprietary applications & input sets. Πρόβλημα : Τα traces δεν μπορούν να συλλάβουν/φανερώσουν την δυναμική συμπεριφορά της εφαρμογής

User code vs. Full system simulators User code Simulators – Προσομοίωση μόνο του κώδικα της εφαρμογής – System calls και I/O εκτελούνται με functional simulation – Συνήθως το functional emulation πραγματοποιείται από το host OS » host OS = target OS Full system Simulators – Προσομοίωση της εφαρμογής – Προσομοίωση του OS – Προσομοίωση των devices (disks, network, etc.)

The Zen of architecture simulators Δεν υπάρχει ο τέλειος simulator FPGA prototypes – Γρήγορα, ακριβή, αλλά έλλειψη ευελιξίας Λεπτομερή software μοντέλα – Ακριβή, ευέλικτα, αλλά αργά Αφηρημένα software μοντέλα – Γρήγορα, ευέλικτα αλλά όχι ακριβή Speed Accuracy Flexibility

Speed vs. Accuracy

Παράδειγμα χρόνων προσομοίωσης (1) spec2k with gcc and small inputs TimeRatio to NativeRatio to Functional Native1,054s-- sim-fast2m 47s158x1 sim-outorder1h 11m 07s4,029x25x simics7m 41s437x1 w/Ruby11h 27m 25s39,131x89x w/Ruby + Opal43h 13m 41s147,648x338x

Παράδειγμα χρόνων προσομοίωσης (2) Οι πραγματικές εφαρμογές παίρνουν ώρες σε πραγματικά μηχανήματα Χρειαζόμαστε αρκετά μεγάλες ταχύτητες για να τρέξουμε ένα σημαντικό κομμάτι αυτών των εφαρμογών.

Προσομοίωση Αρχιτεκτονικής (1) Απαιτήσεις – Γενικότητα (Generality) » Μπορεί το εργαλείο να αναλύσει τα workloads? » Parallel Systems, Multithreading, Multiple address spaces, OS code, Network Systems, etc. – Πρακτικότητα (Practicality) » Μπορεί το εργαλείο να χρησιμοποιηθεί αποδοτικά; » Host assumptions, compiler assumptions, OS modifications, workload language assumptions – Εφαρμοσιμότητα (Applicability) » Μπορεί το εργαλείο να απαντήσει στα ερωτήματα μας; » Restricted state that can be monitored, restrictions on parameter visibility, restricted length of observations.

Προσομοίωση Αρχιτεκτονικής (2) Πλεονεκτήματα – Early availability – Ευκολία χρήσης » Πλήρης διαφάνεια και ευκολία παρακολούθησης και μετρήσεων » Διαφορετικά επίπεδα λεπτομέρειας και ακρίβειας Pipelines, caches, branch predictors, … Hardware devices (timer, drives, cards, …) » Έλεγχος καινοτόμων προτάσεων/ιδεών – Κόστος » Open source (Free) » Academic licenses (Free ή μικρό κόστος για support)

Προσομοίωση Αρχιτεκτονικής (3) Προκλήσεις – Χρόνος ανάπτυξης των μοντέλων (modeling time) – Έλεγχος ορθότητας μοντέλων (validation) – Ταχύτητα προσομοίωσης Ενεργό ερευνητικό πεδίο Πληθώρα επιλογών – WindRiver Simics (x86, SPARC, MIPS, Leon, ARM…) – AMD SimNow (x86) – Simplescalar (Alpha, PISA, ARM, x86) – SimFlex – MARSSx86 – SniperSim

Επιλογή περιβάλλοντος προσομοίωσης Κριτήρια Επιλογής – Modularity simulator – Extensibility simulator – Επίπεδο ακρίβειας simulator – Ταχύτητα simulator – Μέγεθος του design space που θέλουμε να μελετήσουμε – Επιλογή κατάλληλων benchmarks

Στατιστικά Προσομοίωσης(1) Ο σκοπός ενός timing simulation είναι η συγκέντρωση πληροφοριών και μέτρηση διαφόρων μεγεθών – IPC – Memory access cycles – On-chip network contention Τα προγράμματα παρουσιάζουν διαφορετικές φάσεις – Initialization phase – Main phase – Wrap-up phase Πότε παίρνουμε τα στατιστικά που μας ενδιαφέρουν;

Στατιστικά Προσομοίωσης(2) Η προσομοίωση είναι ένα single-thread process – Ακόμα και αν προσομοιώνουμε ένα παράλληλο σύστημα Η ταχύτητα προσομοίωσης δε βελτιώνεται πια με την τεχνολογία – Παράλληλα συστήματα τρέχουν πολλαπλές προσομοιώσεις ταυτόχρονα. Δεν μπορούμε να φτιάξουμε γρήγορους simulators – Δεν προσομοιώνουμε ολόκληρο το σύστημα – Δεν προσομοιώνουμε ολόκληρη την εφαρμογή

Στατιστικά Προσομοίωσης(3) Προσομοίωση μικρότερου συστήματος – π.χ. 16 cores αντί για 1024 – Δεν εκθέτει θέματα κλιμακωσιμότητας (scalability) » Ανταγωνισμός για shared resources » Conflicts » Race conditions Προσομοίωση μικρότερης εφαρμογής – π.χ. Matrix multiply 1K x 1K αντί για 1Μ x 1M – Δεν εξετάζει τα όρια του hardware » To working set χωράει στις caches » Capacity/conflict issues » Λιγότερη επαναχρησιμοποιίηση data/code » Initialization vs. steady state

Στατιστικά Προσομοίωσης

Τεχνικές Προσομοίωσης Sampling – Προσομοίωση τυχαίων σημείων της εφαρμογής Fast-forwarding – Μέχρι να φτάσουμε στο sample point Warm-up – Γρήγορη προσομοίωση πριν τη φάση των μετρήσεων Checkpointing – Αποθήκευση architectural state πριν το sample Phase detection – Επιλογή των samples μετά από ανάλυση της εφαρμογής

Simulation sampling Στατιστική προσέγγιση – Εξετάσουμε αντιπροσωπευτικά δείγματα Μαθηματική προσέγγιση – confidence margin (eg. 95%) – confidence interval (eg. +/- 2.5) Δυο προσεγγίσεις σχετικά με την επιλογή δειγμάτων – Systematic sampling » Sample every N instructions – Random sampling U Actual simulator measurement N instructions (total benchmark execution)

Simulation warm-up Δεν μπορούμε να προσομοιώσουμε σωστά αν έχουμε empty architecture state – Caches’ invalid state – Branch predictor, TLB,... – Operating system state » Files open / close, read / write pointers,... Χρειάζεται κάποιος χρόνος για warm-up – Όσο μεγαλύτερη η δομή, τόσο μεγαλύτερος ο χρόνος Functional simulation Warm-up of large structures W Detailed simulator warm-up U Actual simulator measurement N instructions (total benchmark execution)

Checkpointing and Sampling Αποθήκευση warmed-up state πριν από κάθε sample – functional simulation overhead time vs more detailed simulations – Παράλληλη προσομοίωση όλων των samples Functional simulation Warm-up of large structures W Detailed simulator warm-up U Actual simulator measurement Restore checkpoint state N instructions (total benchmark execution)

Non-random sampling Η κάθε εφαρμογή εμφανίζει φάσεις οι οποίες πολλές φορές επαναλμβάνονται Επιλογή σωστών samples Υποθέτουμε ότι η συμπεριφορά της εφαρμογής εξαρτάται άμεσα από την εκτέλεση του static code. – Κάθε φάση αντιστοιχίζεται σε ένα static section του κώδικα

Simpoints - Basic Block Vectors Μετράμε τις εκτελέσεις για κάθε basic block Για ολόκληρη την εκτέλεση Για την εκτέλεση Ν εντολών (π.χ. Ν = 100 million) Συγκρίνουμε το sample BBV με το global BBV Manhattan distance Euclidean distance H σύγκριση των BBV αποκαλύπτει επίσης τις περιοδικότητες στην εκτέλεση μιας εφαρμογής Initialization phase Repetitive intervals

Simpoints Επιλογή Simpoints To πιο αντιπροσωπευτικό ΒΒV μπορεί να είναι μακριά Μεγάλος χρόνος fast-forward Επιλογή κάποιου sample νωρίτερα Μοναδικό sample; Ένα από κάθε phase Tα samples είναι architecture dependent O ίδιος κώδικας με διαφορετικό compiler έχει το ίδιο BBV.

Multithreaded simulation Τα τυχαία samples από πολλαπλά threads μπορεί να μη συμπίπτουν χρονικά Το «κάθετο» sample δεν εγγυάται σωστή «ευθυγράμμιση» – Η ταχύτητα του κάθε thread διαφέρει κατά τη διάρκεια: » Functional simulation » Warm-up » Simulation – Το Fast-forward μετριέται σε instructions όχι χρόνοΤ

Sniper Multi-core Simulator Συνεργασία μεταξύ Intel (Intel Exascience Lab), IMEC και 5 βελγικών πανεπιστημίων Σκοπός : Μελέτη του καιρού του διαστήματος ως HPC workload.

Sniper : A fast and accurate simulator Hybrid simulation – Analytical interval core model – Micro-architecture structure simulation (branch predictors, caches, NoC) Multi/Many-core systems running multithreaded & multiprogrammed workloads Παράλληλος simulator

Sniper : Top Features Interval Model – Superscalar OOO, ILP, MLP CPI Stacks & Visualization Parallel simulation X86_64, SSE2 support Thread scheduling & migration DVFS support Modern branch predictors Pthreads, OpenMP, TBB, OpenCL, MPI

Sniper : Limitations User-level – Ιδανικός για HPC – Όχι τόσο για workloads με αρκετό OS interaction High-abstraction core model – Όχι κατάλληλος για τη μοντελοποίηση όλων των συνεπειών εξαιτίας αλλαγών στο επίπεδο του core – Ιδανικός για memory subsystem ή NoC Μόνο x86

Sniper : Cycle stacks for parallel applications Ετερογενείς συμπεριφορές των threads μιας ομογενούς εφαρμογής;

Sniper : Cycle stacks for scaling behavior DRAM bound

Sniper : Cycle stacks for scaling behavior DRAM bound sync increases by 20%

Snipersim Demo