Πολυνηματικές Αρχιτεκτονικές & «Μη-Παραδοσιακός» Παραλληλισμός.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Indexing.
Advertisements

Εισαγωγή στις Τεχνολογίες της Πληροφορικής και των Επικοινωνιών
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Αποθήκευση Δεδομένων.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Δεύτερο.
Υλοποίηση μεταφραστή C με επεκτάσεις OpenMP Λεοντιάδης Ηλίας Τζούμας Γεώργιος Πτυχιακή εργασία Τελική παρουσίαση Υπεύθυνος καθηγητής Β. Β. Δημακόπουλος.
Το υλικο του Υπολογιστη
Αρχιτεκτονική Υπολογιστών Γλώσσες Μηχανής
Συνάφεια Κρυφής Μνήμης σε Επεκτάσιμα Μηχανήματα. Συστήματα με Κοινή ή Κατανεμημένη Μνήμη  Σύστημα μοιραζόμενης μνήμης  Σύστημα κατανεμημένης μνήμης.
Ζητήματα Σελιδοποίησης
Κεφάλαιο 6 Threads. 2 Στον παραδοσιακό προγραμματισμό όταν ένα πρόγραμμα εκτελείται ονομάζεται process (διεργασία) και οι εντολές του εκτελούνται σειριακά.
ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ
Cache Optimisations.
Πολυνηματικές Αρχιτεκτονικές
29/11/2004Εισαγωγή στο OpenMP1 OpenMP Αθήνα, Νοέμβριος 2004 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
1/12/2003Εισαγωγή στο OpenMP1 OpenMP Αθήνα, Νοέμβριος 2003 Συστήματα Παράλληλης Επεξεργασίας Εργαστήριο Υπολογιστικών Συστημάτων.
Υποθετικός Πολυνηματισμός. Τα προβλήματα του παράλληλου προγραμματισμού  Εντοπισμός παραλληλισμού – χειροκίνητα (επισκόπηση) – αυτόματα (compiler) 
Λύση: Multicycle υλοποίηση Single-cyle υλοποίηση: Διάρκεια κύκλου ίση με τη μεγαλύτερη εντολή-worst case delay (εδώ η lw) = χαμηλή.
NIKOΛΑΟΣ ΝΤΙΡΛΗΣ 5ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΙΘΟΥΣΑ Β4 1.  Ένα thread έχει: ID, program counter, register set, stack  Μοιράζεται με τα άλλα threads της ίδιας διεργασίας.
ΠΡΟΣΟΜΟΙΩΣΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ. Εισαγωγή Έρευνα στην Αρχιτεκτονική Υπολογιστών – Σχεδίαση επεξεργαστή για την εκτέλεση 1 thread (pipeline, branch prediction)
Πολυνηματικές Αρχιτεκτονικές. Εισαγωγή  Η ενσωμάτωση πολλαπλών ροών εκτέλεσης αποτελεί πλέον μονόδρομο στην τεχνολογία των επεξεργαστών –Ελάχιστη ανταπόδοση.
Νήματα Οι διεργασίες έχουν τα παρακάτω συστατικά:
William Stallings Computer Organization and Architecture 7 th Edition Κεφάλαιο 16 Λειτουργία Μονάδας Ελέγχου.
Τα θέματα μας σήμερα Ηλεκτρονικοί υπολογιστές Υλικό και λογισμικό
Πολυνηματικές Αρχιτεκτονικές.
ΑΡΧΙΤΕΚΤΟΝΙΚΗ & ΟΡΓΑΝΩΣΗ ΥΠΟΛΟΓΙΣΤΩΝ Κεφάλαιο 1 Εισαγωγή
ΔΕΞΙΟΤΗΤΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ 1 ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΜΝΗΜΩΝ ΕΝΟΣ Η/Υ ΤΜΗΜΑ: Τ6 ΟΝΟΜΑΤΑ: ΣΕΛΑΛΜΑΖΙΔΗΣ ΤΑΣΟΣ ΦΙΛΙΑΣ ΑΝΤΩΝΗΣ ΦΙΛΙΑΣ ΑΝΤΩΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ.
Οργάνωση και Αρχιτεκτονική Υπολογιστών Βασικές αρχές Αρχιτεκτονικής
1 Οργάνωση και Αρχιτεκτονική Υπολογιστών Πρόγραμμα Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Οργάνωση και Αρχιτεκτονική.
Memory Cloaking & Bypassing Εργασία στο μάθημα: Προηγμένες Αρχιτεκτονικές Υπολογιστών Κατσαρής Αριστοτέλης Μ473 Τσαγκάρης Γιώργος Μ479.
1 Οργάνωση και Αρχιτεκτονική Υπολογιστών Πρόγραμμα Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Οργάνωση και Αρχιτεκτονική.
© Ασκήσεις στα Προηγμένα Θέματα Αρχιτεκτονικής Υπολογιστών ακ. έτος Νεκτάριος Κοζύρης Νίκος Αναστόπουλος
Multi-threading Κορομηνάς Κωνσταντίνος – Μ437
Το Scratch και ο σχεδιασμός γεωμετρικών σχημάτων
Μοντέλα - Αλγόριθμοι – Ταξινόμηση Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Multi-threading Κορομηνάς Κωνσταντίνος – Μ437 Χατζηανδρέου Ελένη - Μ400 Χήνου Διονυσία – Μ364.
Το Scratch και ο σχεδιασμός γεωμετρικών σχημάτων
Σύγχρονες Προκλήσεις. Εισαγωγή Οι CMP είναι πια πραγματικότητα – Intel Core 2, Quad, Nehalem – IBM Power5, Power6 – Sun Niagara, Niagara2, Rock –
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Δεύτερο.
Implicitly Multithreaded Processors Νίκος Ιωάννου EΠΛ605 Παρουσίαση άρθρου “IMT processors”
1 EPIC Νάνου Σπυριδούλα Α.Μ Explicitly Parallel Instruction Computing Ένα νέο στυλ αρχιτεκτονικής που σκοπό έχει: Τη δυνατότητα υψηλότερου επιπέδου.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
ΕΣ 08: Επεξεργαστές Ψηφιακών Σημάτων © 2006 Nicolas Tsapatsoulis Συνολική αρχιτεκτονική του Επεξεργαστή TMS320C6713 και προγραμματισμός σε ASSEMBLY Τμήμα.
© Processor-Memory (DRAM) Διαφορά επίδοσης Performance
1 Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τέταρτο Οι κίνδυνοι της.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Δεύτερο.
Διεργασίες.
Translation Lookaside Buffers Φροντιστήριο του μαθήματος “Προηγμένοι Μικροεπεξεργαστές”
Νήματα με την χρήση των Posix Threads (pthreads)‏.
Πολυνηματικές Αρχιτεκτονικές.
1 Αρχιτεκτονική υπολογιστών Ενότητα 12 : Δομή και Λειτουργία της CPU 2/2 Φώτης Βαρζιώτης Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου.
Κρυφή μνήμη (cache memory) (1/2) Εισαγωγή στην Πληροφορκή1 Η κρυφή μνήμη είναι μία πολύ γρήγορη μνήμη – πιο γρήγορη από την κύρια μνήμη – αλλά πιο αργή.
ΠΑΡΑΔΕΙΓΜΑ: ΤΑ ΕΠΙΠΕΔΑ ΥΛΙΚΟΥ – ΛΟΓΙΣΜΙΚΟΥ ΣΕ ΕΝΑΝ ΥΠΟΛΟΓΙΣΤΗ.
Δομές δεδομένων και Αλγόριθμοι Κεφάλαιο 3. Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Δεδομένα Δεδομένα (data) Δεδομένα (data) –αφαιρετική αναπαράσταση.
Γιώργος Μαγουλάκης Εξάμηνο: Εαρινό 2015 ΤΕΙ Κρήτης Τμ. Μηχανικών Πληροφορικής Τμ. Μηχανικών Πληροφορικής.
Καταχωρητές (Registers) (1/3) Εισαγωγή στην Πληροφορκή1 Οι Καταχωρητές (Registers) είναι ειδικές θέσεις μνήμης υψηλής ταχύτητας που χρησιμοποιούνται για.
Καθηγητής Σταύρος Α. Κουμπιάς
Κατανεμημένα Συστήματα
Πολυνηματικές Αρχιτεκτονικές
Κατηγορίες και Προδιαγραφές Λογισμικού Η/Υ (Software)
Single-cyle υλοποίηση:
Εισαγωγή στα Λειτουργικά Συστήματα (ΛΣ) Operating Systems (OS)
Διπλωματική Εργασία για το Μεταπτυχιακό Δίπλωμα Ειδίκευσης
1 Οργάνωση και Αρχιτεκτονική Υπολογιστών A. Βαφειάδης Πρόγραμμα Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Α.Τ.Ε.Ι Θεσσαλονίκης Μάθημα Οργάνωση.
Επιβλέπων: Καθηγητής Εφαρμογών Δρ. Δημήτριος Βαρσάμης
Πολυνηματικές Αρχιτεκτονικές
Single-cyle υλοποίηση:
Single-cyle υλοποίηση:
Single-cyle υλοποίηση:
Ανίχνευση Προσωρινών Σφαλμάτων μέσω Ταυτόχρονης Πολυνηματικής Εκτέλεσης (Transient Fault Detection via Simultaneous Multithreading) «Προχωρημένα Θέματα.
Μεταγράφημα παρουσίασης:

Πολυνηματικές Αρχιτεκτονικές & «Μη-Παραδοσιακός» Παραλληλισμός

Πολυνηματικοί επεξεργαστές  Στοχεύουν: – throughput πολυπρογραμματιζόμενων φορτίων – latency πολυνηματικών εφαρμογών  Πρόκληση: – latency μονο-νηματικών, μη (εύκολα) παραλληλοποιήσιμων εφαρμογών  Πώς; – Μη-συμβατικές μέθοδοι παραλληλισμού

«Παραδοσιακός» παραλληλισμός  Το αρχικό σειριακό πρόγραμμα διασπάται σε πολλαπλά threads – συνήθως εκτελούν τις ίδιες λειτουργίες πάνω σε διαφορετικά δεδομένα – ίδιος φόρτος, ίδιο προφίλ  Βελτίωση απόδοσης από την παράλληλη εκτέλεση πολλαπλών threads σε πολλαπλά contexts

«Μη-παραδοσιακός» παραλληλισμός

 Προσθήκη ενός ή περισσότερων νημάτων για να επιταχύνουν έμμεσα την εκτέλεση του αρχικού προγράμματος, χωρίς αναγκαστικά να αναλαμβάνουν άμεσα κάποιο μέρος των υπολογισμών του  Πώς; – μείωση memory latency μέσω prefetching – προ-υπολογισμός branches – event-driven dynamic code optimizations  Πού; – στο software (προγραμματιστής / compiler) – στο hardware  Πλεονεκτήματα: – εφαρμόσιμο σε όλους τους κώδικες (παραλληλοποιήσιμους ή μη) – διακριτική λειτουργία βοηθητικών νημάτων – αποδέσμευση βοηθητικών νημάτων από την πορεία του κύριου νήματος – αποτελεσματικό για «δύσκολα» μοτίβα

Speculative Precomputation (SP) – Κίνητρο  Delinquent loads: τα πιο «cache-missing» loads

Speculative Precomputation (SP)  Precomputation slice (P-slice): είναι ένα νήμα που περιλαμβάνει το δυναμικό ίχνος εκτέλεσης (execution trace) ανάμεσα σε μια triggering εντολή στο main thread και ένα delinquent load  Όλες οι εντολές που δεν οδηγούν στον υπολογισμό της διεύθυνσης του DL μπορούν να αφαιρεθούν με ασφάλεια (~90-95%)  Τιμές «live-in» καταχωρητών (τυπικά, 2-6) για το p-slice αντιγράφονται από το main thread στο helper thread

Speculative Precomputation (SP)

Ενδεικτικά βήματα 1.Εντοπισμός delinquent loads memory access profiling: simulators (π.χ. Valgrind, Simics), profilers (Oprofile) εδώ: L1 cache misses (shared L1 cache) 2.Εισαγωγή triggering points 1 st pass: -εκτέλεση προγράμματος μέχρι κάποιο DL -τοποθέτηση πιθανού triggering point αρκετές (π.χ.128) θέσεις πριν στο δυναμικό instruction stream 2 nd pass: -εκτέλεση προγράμματος μέχρι κάποιο πιθανό triggering point -παρατήρηση επόμενων (π.χ. 256) εντολών -αν το αντίστοιχο DL εκτελείται με μεγάλη πιθανότητα, το triggering point κατοχυρώνεται και καταγράφεται το δυναμικό ίχνος εντολών ανάμεσα σε αυτό και το DL

Ενδεικτικά βήματα 3. Κατασκευή P-slices από το αρχικό P-slice αφαιρούνται όσες εντολές δε χρειάζονται για τον υπολογισμό του DL (→ P-slices από 5-15 εντολές, συνήθως) από το τελικό P-slice καταγράφονται οι «live-in» registers 4.Σύνδεση των P-slices στο binary του προγράμματος π.χ. προσθήκη σε ειδικό μέρος του text segment 5.Εκτέλεση προγράμματος όποτε συναντάται triggering point, δημιουργείται ένα speculative thread: -δέσμευση hardware context -αντιγραφή live-in registers από το main στο speculative thread -εκκίνηση speculative thread

Παράδειγμα: mcf

live-ins

Πλεονεκτήματα σε σχέση με το «παραδοσιακό» prefetching  Software prefetching – prefetch εντολές στο σώμα του κύριου thread που στοχεύουν μελλοντικές αναφορές μνήμης – από τον προγραμματιστή ή τον compiler – αποδοτικό για λίγα + εύκολα υπολογίσιμα DLs (π.χ. με βάση κάποιο offset)  Hardware prefetching – παρατηρεί το stream αναφορών, αναγνωρίζει μοτίβα αναφορών ή/και misses και τα προφορτώνει από τη μνήμη – αποδοτικό για προβλέψιμα και «κανονικά» access patterns

Πλεονεκτήματα σε σχέση με το «παραδοσιακό» prefetching  Thread-based prefetching (SP) – επειδή χρησιμοποιεί μέρος του αρχικού κώδικα, προ-υπολογίζει αποτελεσματικά «δύσκολες» αναφορές στη μνήμη » pointer chasing codes, indirect accesses, random/complex/recursive control flows, etc. – επειδή το prefetching γίνεται σε ξεχωριστό(ά) thread(s), ο «θόρυβος» που εισάγεται στο βασικό thread (π.χ. στα instruction queues) είναι μικρότερος σε σχέση με το software prefetching – επειδή η εκτέλεση των speculative threads είναι αποδεσμευμένη από αυτή του βασικού thread, το prefetching δεν περιορίζεται από την πορεία εκτέλεσης του βασικού thread

Ζητήματα απόδοσης  Γρήγορη αντιγραφή των live-ins από το main στο speculative thread  Γρήγορη δέσμευση διαθέσιμου hardware context + εκκίνηση speculative thread  Contention για shared resources  Ποιος ο ρόλος του OS?  Τι γίνεται όταν η απόσταση ανάμεσα στο triggering point και το DL είναι μικρή (σε σχέση με το memory latency) ή αλλιώς… Τι γίνεται αν θέλουμε να στοχεύσουμε σε DLs που βρίσκονται αρκετά iterations μπροστά από το main thread?

Chaining triggers  Επιτρέπουν σε ένα speculative thread να δημιουργήσει άλλα speculative threads τα οποία μπορούν να τρέξουν «αυθαίρετα μπροστά» από το βασικό thread εκτελούνται οι loop-carried dependent εντολές του P-slice (“prologue”) προτού γίνει spawn το επόμενο thread – γιατί να μην εκτελέσουμε N φορές τον πρόλογο για να φτάσουμε στις επόμενες N επαναλήψεις («induction unrolling»)?

Chaining triggers  Επιτρέπουν σε ένα speculative thread να δημιουργήσει άλλα speculative threads τα οποία μπορούν να τρέξουν «αυθαίρετα μπροστά» από το βασικό thread κρύβεται αποτελεσματικά το κόστος αρχικοποίησης (context allocation + live-in copying) απαιτείται μηχανισμός ανάσχεσης δημιουργίας νέων threads – αποτρέπεται η εκτόπιση prefetched cache lines που δεν έχουν χρησιμοποιηθεί ακόμα από το main thread

SP Performance  περισσότερα contexts → περισσότερα chaining triggers

Dynamic Speculative Precomputation  Όπως το SP, με τη διαφορά ότι υπάρχει hardware support για: – εντοπισμό DLs – κατασκευή p-slices και διαχείριση speculative threads – βελτιστοποίηση των sp. threads όταν δε δουλεύουν καλά – κατάργηση των sp. threads όταν δε δουλεύουν καθόλου – καταστροφή των sp. threads όταν δε χρειάζονται άλλο

Dynamic Speculative Precomputation  Όπως το hardware prefetching... – δεν απαιτεί software support – δεν απαιτεί recompilation – είναι ανεξάρτητο της υποκείμενης αρχιτεκτονικής  Όπως το SP... – εισάγει ελάχιστη παρεμβολή στο βασικό thread – εκτελείται ανεξάρτητα από αυτό – αποδίδει σε irregular access patterns

Τροποποιημένο SMT pipeline για DSP  Εντοπισμός DLs – loads που απέτυχαν στην L2 εισέρχονται στο DLIT (FCFS) – heuristic για κατοχύρωση ως DL και κλείδωμα στο DLIT: αν μετά από 128Κ εντολές το load εξακολουθεί να κατέχει το entry του στο DLIT & έχει εκτελεστεί 100+ φορές από τότε & κάθε φορά χρειάστηκε >4 κύκλους για να πάρει τα δεδομένα

Τροποποιημένο SMT pipeline για DSP  Κατασκευή P-slices – όταν ένα DL (για το οποίο δεν υπάρχει P-slice) γίνεται commit, τότε οι εντολές του thread γίνονται buffer στον RIB μέχρι το επόμενο instance του DL – ο RIB πραγματοποιεί backward dependence analysis στο instruction trace και κρατά μόνο τις εντολές από τις οποίες εξαρτάται ο υπολογισμός του DL, ανανεώνοντας κατάλληλα το live-in set του P-slice – μόλις φτάσει στην πρώτη εντολή στο trace (το 1 ο instance του DL, στην ουσία) την μαρκάρει ως triggering

Παράδειγμα κατασκευής P-slice

……

Παράδειγμα κατασκευής P-slice

Τροποποιημένο SMT pipeline για DSP  Εκκίνηση και διαχείριση speculative threads – SIT: αποθηκεύει τα P-slices – όταν κατά την αποκωδικοποίηση εντολών του main thread διαπιστώνεται μια triggering εντολή, τότε, αν υπάρχει διαθέσιμο context: » τα live-ins του αντίστοιχου P-slice αντιγράφονται από το main στο speculative thread (register renaming hardware), » και το P-slice γίνεται spawn τον επόμενο κύκλο

DSP Performance

Event-driven dynamic optimization  Χρησιμοποίηση helper threads για επαναμεταγλώττιση / βελτιστοποίηση του main thread – η εκτέλεση των υπολογισμών του main thread και η βελτιστοποίηση από τα helper threads πραγματοποιούνται παράλληλα  Η βελτιστοποίηση πυροδοτείται από γεγονότα που εντοπίζονται στο hardware (event-driven) main thread helper thread helper thread μία έκδοση του κώδικα, η οποία σταδιακά βελτιστοποιείται όταν παρατηρείται αλλαγή στη συμπεριφορά του προγράμματος κατά το χρόνο εκτέλεσης

Event-driven dynamic optimization  To hardware παρατηρεί τη συμπεριφορά του προγράμματος χωρίς software overhead  Πυροδοτούνται optimization threads σε «ανταπόκριση» συγκεκριμένων γεγονότων  Βελτιστοποιούν όσο το δυνατόν συντομότερα τον κώδικα του main thread events

Παράδειγμα: hot paths  Hot path: μια ακολουθία από basic blocks που εκτελούνται συχνά μαζί  Path formation: αναδιοργάνωση των basic blocks και διάταξή τους σύμφωνα με τη σειρά που εκτελούνται στο hot path, για καλύτερη τοπικότητα στην I- cache  Αποθήκευση του νέου κώδικα στην code-cache  Events monitored: frequently executed branches

Performance of event-driven optimization

credits for slides:  D. Tullsen (University of California, San Diego) – ACACES summer school 2008

Βιβλιογραφία

Software-based Helper Threading  [Collins 01] J. Collins, H. Wang, D. Tullsen, C. Hughes, Y. Lee, D. Lavery & J. Shen. Speculative Precomputation: Long-Range Prefetching of Delinquent Loads. 28th Annual International Symposium on Computer Architecture (ISCA ’01).  [Kim 02] D. Kim & D. Yeung. Design and Evaluation of Compiler Algorithms for Pre-Execution. 10th International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS ’02).  [Kim 04] D. Kim, S. Liao, P. Wang, J. del Cuvillo, X. Tian, X. Zou, H. Wang, D. Yeung, M. Girkar & J. Shen. Physical Experimentation with Prefetching Helper Threads on Intel’s Hyper-Threaded Processors. 2nd IEEE / ACM International Symposium on Code Generation and Optimization (CGO ’04).  [Luk 01] C. Luk. Tolerating Memory Latency through Software-Controlled Pre-Execution in Simultaneous Multithreading Processors. 28th Annual International Symposium on Computer Architecture (ISCA ’01).  [Song 05] Y. Song, S. Kalogeropoulos, P. Tirumalai. "Design and Implementation of a Compiler Framework for Helper Threading on Multi-core Processors" (PACT ’05)  [Wang 04] T. Wang, F. Blagojevic & D. Nikolopoulos. Runtime Support for Integrating Precomputation and Thread-Level Parallelism on Simultaneous Multithreaded Processors. 7th ACM SIGPLAN Workshop on Languages, Compilers, and Runtime Support for Scalable Systems (LCR ’04).  [Zhang05] W. Zhang, B. Calder and D. Tullsen. An Event-Driven Multithreaded Dynamic Optimization Framework. 14th International Conference on Parallel Architectures and Compilation Techniques (PACT ‘05)  [Zhang06] W. Zhang, B. Calder and D. Tullsen. A Self-Repairing Prefetcher in an Event-Driven Dynamic Optimization Framework. (CGO ‘06)

Hardware-based Helper Threading  [Chappell 99] R. Chappell, J. Stark, S. Kim, S. Reinhardt & Y. Patt. Simultaneous Subordinate Microthreading (SSMT). 26th Annual International Symposium on Computer architecture (ISCA ’99).  [Collins 01] J. Collins, D. Tullsen, H. Wang, J. Shen. Dynamic Speculative Precomputation. 34th annual ACM/IEEE international symposium on Microarchitecture (MICRO ‘01)  [Ibrahim 03] K. Ibrahim, G. Byrd, E. Rotenberg. Slipstream Execution Mode for CMP-Based Multiprocessors. (HPCA ’03)  [Roth 01] A. Roth & G. Sohi. Speculative Data-Driven Multithreading. 7th International Symposium on High Performance Computer Architecture (HPCA ’01).  [Sundaramoorthy 00] K. Sundaramoorthy, Z. Purser & E. Rotenberg. Slipstream Processors: Improving both Performance and Fault Tolerance. 9th International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS ’00).  [Zilles 01] C. Zilles & G. Sohi. Execution-Based Prediction Using Speculative Slices. 28th Annual International Symposium on Computer Architecture (ISCA ’01).