חוק המספרים הקטנים

פרק נוסף מספרו של דניאל כהנמן  "לחשוב מהר. לחשוב לאט" 

מחקר על שיעור סרטן הכליה ב 3,141 מחוזות בארה"ב חושף דפוס מפתיע. ממחוזות שבהם שיעור סרטן הכליה הוא הנמוך ביותר הם ברובם מחוזות כפריים שבהם האוכלוסייה דלילה, הממוקמים במדינות בעלות מסורת של תמיכה במפלגה הליברלית, במערב התיכון, בדרום ארה"ה ובמערבה.  מה את מבין מזה?

מוחך היה פעיל מאוד בשניות האחרונות, במתכוון חיפשת בזכרון וגבשת השערות. תוך הסתמכות על עובדות  וההצעות שעלו מהזכרון האסוציאטיבי שלך. מן הסתם פסלת את הרעיון שמסורת של תמיכה בפוליטיקה רפובליקנית מספקת הגנה נגד סרטן כליה. רוב הסיכוי שבסוף התמקדת בעובדה שהמחוזות בעלי אחוז נמוך של סרטן כליה הם כפריים.  קל ומפתה להניח ששיעורי הסרטן הנמוכים בהם נובעים ישירות מאורח החיים הכפרי הבריא - אין זיהום אוויר, אין מים מזוהמים, יש מזון טרי ללא תוספים. כל זה נשמע הגיוני ונכון.


עתה שים לב למחוזות בהם שיעור סרטן הכליה הוא הגבוה ביותר. מחוזות דואבים אלו נוטים להיות מחוזות כפריים שאוכלוסייתם דלילה, הממוקמים במדינות בעלות מסורת של תמיכה במפלגה הרפובליקנית, במערב התיכון, בדרום ארה"ב ובמערבה. קל להסיק ששיעורי הסרטן הגבוהים נובעים ישירות מהעוני המאפיין את אורח החיים הכפרי - העדר גישה לטיפול רפואי נאות, תזונה עתירת שומנים, יותר מדי אלכוהול, יותר מדי טבק. אבל, משהו כאן לא הגיוני כמובן, אורח החיים הכפרי אינו יכול להסביר הן שיעור גבוה מאוד והן שיעור נמוך מאוד של סרטן כליה.


גורם המפתח איננו שהמחוזות היו כפריים או רפובליקנים, אלא שהעובדה שאוכלוסיתם של מחוזות כפריים היא דלילה. והלקח העיקרי שיש ללמוד אינו נוגע לאפידמיולוגיה אלא למערכת היחסים המורכבת בין דעתנו לבין סטטיסטיקה. מערכת מספר 1 שלנו (המערכת האסוציאטיבית שלנו) מיומנת מאוד בסוג מסוים של חשיבה- היא מזהה באופן אוטומטי ונטול מאמץ קשרים סיבתיים בין אירועים. לעיתים תכופות גם כשהקשר קיים רק לכאורה.  כשסופר לך על המחוזות שבהם שיעור הסרטן גבוה, הנחתה מיד שמחוזות האלו שונים ממחוזות אחרים מסיבה כלשהי, שחייב להיות גורם שיסביר את ההבדל. אולם, כפי שיובהר בהמשך, מערכת מספר 1 מתקשה לנוכח עובדות שהן "סטטיסטיות גרידא",  עובדות המשנות את הסתברותם של תוצאות אך  אינם גורמות להן להתרחש.


אירוע מיקרי, מעצם טבעו אינו בר הסברה, אך מקבצים של אירועים מקריים הכן מתנהגים באורח סדור מאוד. דמיין כד גדול מלא בגולות, מחציתם אדומות ומחציתם לבנות, עתה דמיין אדם סבלני מאוד ששולף מין הכד באופן עיוור 4 גולות, רושם את מספר הגולות הלבנות ואת הגולות השחורות ומחזיר אותם לכד. אם תסכם את התוצאות יתברר לך שהתוצאות 2 לבנות ו 2 אדומות מתרחשות(כמעט בדיוק) פי 6 מהתוצאה 4 אדומות או 4 לבנות. יחס זה הינו עובדה מתמטית. תוכל לנבא אותה באותה מידת ביטחון שבה תוכל לנבא מה יקרה אם תכה בפטיש על קליפת ביצה. אינך יכול לחזות לפרטים כיצד תתנפץ הקליפה, אך תוכל להיות בטוח ברעיון הכללי.  קיים הבדל: תחושת הסיפוק הנובעת מן הסיבתיות שאתה חווה כשאתה חושב על פטיש ההולם בביצה, נעדרת כליל בעודך חושב על דגימות.


עובדה סטטיסטית הקרובה לדוגמת הסרטן, ליד אותו כד ניצבים שני סופרי גולות סבלניים. אחד שולף 4 והשני מוציא 7. שניהם מתעדים  את הפעמים שהוציאו את כולם אדומות או את כולם לבנות. אם יתמידו בכך מספיק זמן, המדגם של 4 גולות יוציא מדגם אחיד פי 8 יותר מאשר המדגם שיתקבל ע"י זה ששולף 7 גולות.


עתה שוו בנפשך שכל תושבי ארה"ב הם גולות בתוך כד ענקי. על חלק מהם מוטבע הסימון "סרטן כליה". אתה שולף מדגמים של גולות שגודלם תואם את גודל האוכלוסייה בכל מחוז בתורו, מדגמים כפריים הם קטנים יותר (כמו במקרה של הגולות) כך שרוב הסיכויים שתוצאות קיצוניות ז"א שיעורי סרטן גבוהים או נמוכים ימצאו באזורים דלילי אוכלוסין אילו, זה כל הסיפור.


פתחנו בעובדה הדורשת סיבה: שיעור סרטן כליה גבוהה מאוד או נמוך מאוד באזורים דלילי האוכלוסין. ההסבר המוצא הינו סטטיסט: הסיכוים למצוא במחוזות קטנים (ודלילי אוכלוסין )תוצאות קיצוניות (גבוהות ונמוכות ) רבים יותר מאשר במחוזות עם אוכלוסיה נרחבת. האמת העמוקה שאין כאן מה להסביר. שיעור הסרטן אינו באמת גבוהה או נמוך באיזורים עם  אוכלוסיה דלילה, אלה רק נדמה כך בשל תקלה בדגימה. עם נחזור על הדגימה אחרי מספיק זמן התוצאות יכולות להתהפך. אזור  עם שכיחות גבוהה של סרטן  יכול להפוך  לאזור עם שכיחות נמוכה של סרטן ולהפך. 

התצפיות הסטטיסטיות הללו אינם שגויות - אילו ארטיפקטים (ממצאי שווא ) שנגרמו בגלל ההבדלים בגודל המדגם. מדגם קטן עלול ( ואכן פעמים רבות גורם) לשגיאות .


ייתכן שהסיפור שסופר הפתיעה אותך. אך הוא לא היווה תגלית מדהימה. זמן רב אתה יודע שתוצאות מדגמים גדולים אמינות יותר מתוצאות של מדגמים קטנים, ואף אנשים ללא ידע סטטיסטי שמעו על חוק המספרים הגדולים. אך אולי תגלה שהטענות הבאות חלות עליך:

  1. המאפיין "דל אוכלוסין" לא בלט מיד כנתון רלוונטי כאשר קראת את הסיפור האפידמיולוגי. 

  2. היית מופתע  לפחות במידת מה מההבדל בין מדגמים של 4 לבין מדגמים של 7.

  3. מדגמים גדולים מדויקים יותר ממדגמים קטנים.

  4. מדגמים קטנים מניבים תוצאות קיצוניות לעתים תכופות יותר מאשר מדגמים גדולים.


השורה התחתונה: אכן ידעת שהתוצאות של מדגמים גדולים מדויקות יותר, אך יתכן שכעת נוכחת שלא ידעת זאת היטב.  אבל.. אינך לבד. התברר שגם חוקרים מתוחכמים הם בעלי אינטואיציה מפוקפקת והבנה רעועה בנושא ההשפעות של גודל הדגימה.

דניאל כהנמן (זוכה פרס נובל ומרצה לסטטיסטיקה! ) מספר במבוכת מה שהתברר לו שגם הוא בחר מדגמים קטנים מדי שגרמו לחריגות מביכות במחקרים שעשה, למרות שהוא יודע לחשב מה צריך להיות גודל הדגימה בכדי שתוצאות המחקר שלו יהיו נכונות. הוא סמך על האינטואיציה שלו - והתברר שלא בצדק. במקרים רבים בחר מדגם קטן מדי.

אנחנו מחפשים דפוסים ומאמינים באולם קוהרנטי, שבא מאורעות אינם מופיעים בדרך מקרה, אלא עקב סיבתיות או עקב כוונה של מישהו. כשאנחנו מבחינים במה שנראה כמו כלל, אנחנו ממהרים לפסול את הרעיון שהתהליך שגרם לו הינו מיקרי בלבד. קל להבחין ביתרונות שיש להנחת סיבתיות מנקודת מבט אבולוציונית. זהו חלק מהדריכות הכללית שירשנו מאבותינו הקדומים. אריות עשויים להופיע בערבה באופן מקרי, אך בטוח יותר להבחין בעלייה בשכיחות הופעתם של להקת אריות ולהגיב אליה גם אם לאמיתו של דבר היא נובעת מתנודות של תהליך מקרי לחלוטין.


דניאל כהנמן נותן דוגמה נוספת מתוך ספר המיועד למורים לסטטיסטיקה. קרן גייטס השקיעה 1.7 מיליארד דולר כדיי למצא את מאפייניהם של בתי הספר המעולים מכולם. אחת מסקנותיו של מחקר זה היא שבתי הספר המצטיינים הם בתי ספר קטנים. נתונים אלו עודדו את קרן גייטס להשקיע סכום כסף נכבד בהקמת בתי ספר, לעתים על ידי פיצול בתי ספר גדולים ליחידות קטנות. לפחות חצי תריסר מוסדות מובילים בארה"ב (כולל משרד החינוך האמריקאי ) הצטרפו למאמץ.


קרוב לוודאי שאינטואיטיבית הדבר נשמע הגיוני, קל לבנות סיפור סיבתי המסביר כיצד בתי ספר קטנים יכולים להעניק חינוך מובחר וכך להוציא מקרבם  תלמידים בעלי הישגים גבוהים מאשר היו 

משיגים בבתי ספר גדולים. למרבה הצער הניתוח הסיבתי חסר טעם

אילו החוקרים שדיווחו לקרן גייטס היו בודקים, היה מתברר שגם בתי הספר החלשים נוטים להיות קטנים מהממוצע. 


בתי ספר קטנים אינם מוצלחים יותר או חלשים יותר מהממוצע. הם בעלי שונות גדולה יותר ולכן יש בהם תוצאות קיצוניות יותר.  אם כבר אומרים חוקרים שבדקו את הנושא, דווקא בתי ספר גדולים נוטים להגיע לתוצאות טובות יותר, בעיקר בכיתות הגבוהות, שבהם מבחר של מסלולי לימוד הוא בעל ערך רב.

אודות להתקדמות שהושגה לאחרונה בפסיכולוגיה קוגניטיבית אפשר לראות היום שחוק המספרים הקטנים הוא חלק משני סיפורים גדולים בהרבה על אופן פעולתה של החשיבה:

  1. האמונה המוגזמת בתוקף של מדגמים קטנים אינה אלא דוגמה אחת לאשליה כללית יותר - אנחנו מקדישים תשומת לב רבה יותר לתוכן של המסרים מאשר למידע על מהימנותם

  2. הסטטיסטיקה מספקת תצפיות רבות שנדמה שהן משוועות להסברים סיבתיים, אך אינן ניתנות להסברים מסוג זה. עובדות רבות בעולם הם תוצאות של יד המקרה. הסברים סיבתיים לאירועים מקריים הם בהכרח שגויים.



תגובות

הוסף רשומת תגובה

רשומות פופולריות