Confidence intervals based on bootstrap “tables”
מוטיבציה עד עכשיו עסקנו במציאות סטיית התקן באמצעות ה- bootstrap. בהינתן ואומד לשונות, רווח הסמך המקובל ברמת סמך של 90% ל- יהיה כאשר המספר 1.645 מגיע מטבלת האחוזונים של ההתפלגות הנורמלית הסטנדרטית. בהרצאה נלמד על טכניקות שונות ליצירת רווחי סמך בהתבסס על ה- bootstrap, שאינו מניח הנחות על ההתפלגות של .
רווח-סמך על סמך הנחת הנורמליות ברוב המקרים, ככל ש- n גדל, ההתפלגות של שואפת להיות נורמלית: ואם נשתמש בקירוב הנ"ל נקבל ורווח הסמך יהיה מהצורה או רווח סמך שבנינו אומר שב-90% מהמקרים, אינטרוול מקרי שנבנה בצורה הנ"ל יכיל את הערך האמיתי של טטה. כמובן שמה שבנינו עד עכשיו הוא קירוב אבל משמש בצורה טובה מאד במקרים מגוונים שונים. 3
רווח-סמך על סמך הנחת הנורמליות רווח סמך שבנינו אומר שב- 100(1-2α)% מהמקרים, אינטרוול מקרי שנבנה בצורה הנ"ל יכיל את הערך האמיתי של . חשוב לדייק ולומר כי המשוואות הנ"ל הן קירוב לרווח הסמך, והסיכוי לכסות את בדרך כלל לא יהיה בדיוק 100(1-2α). למרות שמה שבנינו עד עכשיו הוא קירוב בלבד, הוא משמש בצורה טובה מאד במקרים מגוונים שונים. רווח סמך שבנינו אומר שב-90% מהמקרים, אינטרוול מקרי שנבנה בצורה הנ"ל יכיל את הערך האמיתי של טטה. כמובן שמה שבנינו עד עכשיו הוא קירוב אבל משמש בצורה טובה מאד במקרים מגוונים שונים.
רווח-סמך על סמך הנחת הנורמליות סימון: ו- עבור מקרה נורמלי נקבל במצב זה רווח הסמך נקרא בעל זנבות שוות (equaly-tailed), כלומר הסיכוי לטעות לכל כיוון שווה. רווח סמך שבנינו אומר שב-90% מהמקרים, אינטרוול מקרי שנבנה בצורה הנ"ל יכיל את הערך האמיתי של טטה. כמובן שמה שבנינו עד עכשיו הוא קירוב אבל משמש בצורה טובה מאד במקרים מגוונים שונים.
Student’s t interval כאשר ההנחה הנורמלית מתקיים, אך היא קירוב עבור ערך סופי של n. במקרה , קיים קירוב טוב יותר: ואז רווח הסמך הוא כאשר
The bootstrap-t interval נרצה לקבל רו"ס שלא מניח נורמליות של . בשיטת ה- “bootstrap-t” נעריך את ההתפלגות של Z ישירות מהמדגם. תחת הסימונים הקבועים, נחשב את כאשר הוא האומד לסטיית התקן של הדגימה :
The bootstrap-t interval האומדן לאחוזון ה- α של יהיה זה שמקיים את המשוואה: רווח הסמך לפי bootstrap-t יהיה:
bootstrap-t interval – דוגמת העכברים טבלת האחוזונים: ההבדל בין שלושת רווחי הסמך: הארגומנט השני ברו"ס של ה-BOOTSTRAP גדול מאד בגלל שתי תצפיות חריגות נורמלי t bootstrap t [34.29,78.15] [31.22, 81.01] [35.82, 116.74] 9
bootstrap-t interval הערך נקרא approximate pivot, כלומר הוא מניח שההתפלגות דומה בקירוב לכל ערך של . ניתן להוכיח באופן תיאורטי כי בדגימות גדולות הכיסוי רו"ס של ה- bootstrap-t נוטה להיות קרוב יותר לרמה הרצויה מרו"ס המבוסס על התפלגות t. חיסרון משמעותי של הקירוב הנורמלי וקירוב t הוא שהם מניחים התפלגות סימטרית, בעוד שה- bootstrap מתאים את עצמו גם להתפלגות א-סימטרית. מאידך, לשיטה זו יש את אותן "מחלות" של הקירוב הנורמלי וקירוב t – הוא יכול לשמש בעיקר עבור סטטיסטי מיקום. 10
Transformation and the bootstrap-t ראינו כי בשיטה שהוצגה האומד לסטיית התקן נלקח להיות: כמובן שאומד זה אינו תקף לסטטיסטים מורכבים יותר, להם אין נוסחה פשוטה לחישוב סטיית התקן. הדרך המתבקשת להתגבר על הקושי – לחשב עבור כל דגימה b את הסטיית התקן של באמצעות bootstrap (מגבלת כוח חישוב??). דרך נוספת – ביצוע טרנספורמציה שתשמור על שונות שווה לכל ערך של .
Transformation and the bootstrap-t הרעיון – נמצא את התלות של השונות ב- , ונסמנה ב- . כעת נחשב את פונקציית ההתמרה: כעת, ל- g(X) יש בקירוב שונות שווה. אם אנחנו לא יודעים את ? נמצא אותו באמצעות דגימות bootstrap!
Transformation and the bootstrap-t
Transformation and the bootstrap-t הבדלים בין שלושת השיטות בדוגמת עורכי הדין: רו"ס ברמת 90% רו"ס ברמת 98% סטיית התקן מחושבת בשיטת ה- bootstrap [-0.26,0.90] [-0.66,1.03] הטרנספורמציה ידועה [0.45,0.93] [0.17,0.95] הטרנספורמציה מחושבת בשיטת ה- bootstrap [0.33,0.92] [0.07,0.95]
Confidence intervals based on bootstrap percentiles
הקונספט ביצירת רווח סמך על סמך ההתפלגות הנורמלית, שני האומדים לקצוות רווח-הסמך היו שני האומדים הללו למעשה מייצגים את האחוזונים ה-100(1-α) וה- 100α של התפלגות נורמלית מהצורה כך "הבטחנו" שהסיכוי ש- יהיה בתחום הוא 1-2α.
הקונספט הרעיון של bootstrap percentile הוא לבנות רווח סמך ישירות מההתפלגות של (על-פי האחוזונים בהתפלגות של ).
פורמליקה נדגום את x* מהמדגם האמפירי , תהה פונקצית ההתפלגות המצטברת של . רווח הסמך על סמך האחוזונים יוגדר להיות או בכתיבה שקולה כיוון שמספר דגימות ה- bootstrap הינו סופי, האחוזון יהיה הערך ה- B*α בסדרת הדגימות הממוינת של .
דוגמה נדגום 10 תצפיות מתוך התפלגות נורמלית סטנדרטית. הפרמטר שמעניין אותנו יהיה , כאשר µ הינו התוחלת של ההתפלגות. הערך האמיתי של θ הוא 1. בדגימה התקבל . להלן שני רווחי הסמך שהתקבלו: רווח הסמך הסטנדרטי המבוסס על : רווח הסמך על סמך האחוזונים:
דוגמה כמובן שאם נבצע טרנספורמציה חזרה להתפלגות נורמלית ואז נבנה רווחי סמך הם יהיו דומים (הגרף הימני). רווח הסמך הסטנדרטי יהיה [-0.28,0.73]. אם נבצע טרנספורמציה חזרה נקבל [0.76,2.08] – דומה מאד לרו"ס של האחוזונים. אולם בדרך-כלל לא נדע איזו טרנספורמציה נדרש לבצע, אם בכלל, ולכן קיים יתרון משמעותי לרו"ס על סמך האחוזונים.
אינווריאנטיות לטרנספורמציות בחישוב בשקף הקודם השתמשנו בלמה עבור ה- bootstrap percentile, קיימת תכונה חזקה יותר - הוא אינווריאנטי לטרנספורמציות מונוטוניות: עבור m מונוטונית כך ש- נקבל
The range-preserving property ראינו כי רווח הסמך הסטנדרטי עלול לכלול ערכים שהם מחוץ לטווח האפשרי של θ. רווח הסמך על סמך האחוזונים שומר על תחום הערכים האפשריים – אי אפשר לדגום ערך מחוץ לתחום האפשרי ה- plug-in שומר על התחום האפשרי של θ.
ביצועים להלן אחוז הטעויות של 300 רווחי סמך ברמה 95% עבור בדגימה של 10 תצפיות מהתפלגות נורמלית:
ביצועים – n=20
מגבלות קיימות שיטות טובות יותר לביצוע רווחי סמך על סמך ה- bootstrap (נדון בהן בהרצאה הבאה). קיימים מקרים נוספים בהם רווחי הסמך הקלאסיים לא עובדים, בנוסף לחוסר נורמליות של . לדוגמה, יכולת להיות מ"מ מוטה: אז לא קיימת טרנספורמציה שיכולה "לתקן" את הפרמטר.