חצי שנה אחרי שאיגור פיבלש את המודל הוא נזרק לפח, נשכח ב-גיט, נקבר בארכייב. וזה לא בגלל שהיה חרא מודל. להפך, היו לו ביצועים מעולים: Precision בשמים, Recall בעננים. הוא גם פתר בעיה אמיתית: איך מזהים התדרדרות קלינית של חולה הרבה לפני ה-Gold Standard הקיים. גם הדאטה היתה איכותית. הגיעה ממרכז רפואי גדול. כמעט שנה עבד הצוות של איגור על טיוב הנתונים והינדוס הפיצ’רים. בקיצור מודל שאפשר לפרסם ב-Science. היתה רק בעיה קטנטנה, שבכלל לא קשורה לאימון המודל או להרצה שלו. היוזרים לא השתמשו בו. התעלמו ממנו.
איגור הניח, כמו רבים לפניו, שאם גוף מוביל בתחום מזהה בעיה, נותן לו דאטה ואפילו עוזר ב-Labeling, אז הכל בסדר. שמספיק לתת פרדיקציות טובות וזה יתפוס. שמזמין העבודה, אותה מחלקת TTU ואותו פרופ’ מפורסם וכל מי שחתום על החוזה כבר ידאגו לאימוץ המודל. אז זהו שלא! בלי לצלול לעומק ה-Work Flow של המשתמש אי אפשר להצליח. לא משנה כמה טובים הביצועים של המודל. בסופו של כל מודל עומד בן אדם שצריך להשתמש בו. ואם זה לא בא לו בטוב, זה כנראה לא יקרה.
משתמשים
השאלה הראשונה שצריך לשאול היא למי מיועד המודל. מי אמור לקבל את ה-Inference. האם זה רופא, אחות, טכנאי, חולה… גם וגם? אבל שאלת הזהות המקצועית היא רק ההתחלה. היא מעידה על רמת הידע של המשתמש, הרקע שלו, עולם המושגים. היא גם מעידה על שיוך. לאיזו ‘גילדה’ מקצועית הוא שייך. כמה חזק הועד שלהם… ויש גם את שאלת ההיררכיה בתוך הארגון: האם המשתמש הוא זה שמקבל החלטות, מבצע פעולות או מפקח. מה רמת הבכירות.
את המיפוי הזה עושים כדי לזהות הזדמנויות ואיומים. איפה המודל חוסך זמן, משפר יעילות, מאפשר למשתמש לתת שירות או טיפול טוב יותר, להתבלט, לעזור, להמנע מטעויות, להקטין סיכון. ומנגד על מה המודל מאיים. היכן הוא יקטין את חופש הפעולה של המשתמש, יגביר את הפיקוח, את תחושת האח הגדול, יחשוף את ערוותו המקצועית, ואולי אף יגזול את פרנסתו יום אחד.
מודל טוב יושב בתוך מוצר טוב. ומוצר טוב מדגיש את ההזדמנויות ומנהל נכון את האיומים, עבור המשתמשים הספציפיים שלו.
עיתוי
אומרים ש-Timing is everything אז במודל חיזוי העיתוי הוא ההבדל בין הכל ל-כלום. הכוונה היא לא רק לחיזוי שמגיע אחרי הזמן, כשהמציאות כבר מתגלה לנו. אלא לחיזוי שמגיע מתי שהמשתמש זקוק לו, ופתוח לקבל אותו. תארו לכם רופא במיון שבדק את החולה, עבר על הממצאים וקיבל החלטה. חמש דקות לאחר מכן הוא מקבל התרעה ממערכת AI שמשנה את ההחלטה שלו. עד כמה רופא זה יאמץ את המוצר בעתיד, גם אם לא נגרם נזק רפואי וניתן לשנות את ההחלטה במקרה הזה?
עיתוי זה דבר טריקי. בטח בקצבים שכולנו עובדים היום. עיתוי טוב משלב בין טריגר פנימי לחיצוני. טריגר חיצוני מתייחס לתוכן של המידע או ההתרעה. מתי הגיעה בדיקת המעבדה או הדימות. מתי רמת הדופק או לחץ דם חצתה קו אדום. עד כמה הממצאים חריגים. עד כמה הם דחופים. מה אומר הפרוטוקול (Best Practice) בעניין. טריגר פנימי מתייחס למשתמש. על מה הוא מסכל עכשיו. האם זה יותר דחוף. האם הוא עלול להתבלבל בין מטופלים. האם זה Actionable בעיתוי הזה.
מודל טוב מנגיש תוצאות בזמן הנכון. והזמן הנכון הוא החיבור שבין תוכן התוצאה לפעילות המשתמש.
הקשר
פרשת קורח מלמדת אותנו כי חשוב שהצדק לא רק יעשה אלא גם יראה. אבל יש אינספור דרכים להציג תוצאות. אפשר לשלבן במערכות קיימות עליהן המשתמשים כבר רגילים להסתכל, אבל אז השאלה אם הם בכלל ישימו לב לשינוי. אפשר ‘לדחוף’ אותן למשתמשים במגוון ערוצי תקשורת קיימים, אבל אז השאלה אם לא נשחק אותם מהר. אפשר לתת למשתמש Nudge עדין או דש-בורד מקיף אבל אז נשאל אם אין לו כבר יותר מדי דש-בורדים ותזכורות.
אומנות ה-UX נשענת על מדעים קוגניטיביים שמנסים להבין את המודל המנטלי של המשתמש בכל רגע נתון. הקונטקסט שבו נמצא המשתמש משפיע מאד על איך הוא יחווה את האופן שבו המידע יונגש לו. הקונטסקט הזה משתנה ממשתמש אחד למשנהו, משלבים שונים בתהליכי העבודה, מהרקע וההטיות (Biases) של המשתמש. אבל גם ממה שהמוצר הזה ומוצרים אחרים הרגילו את המשתמש לאורך זמן.
מודל טוב משתלב נכון בקונטקסט המנטלי של המשתמש. הקונטקסט מושפע מהרקע של המשתמש, והעיתוי ב-Flow ביחס לתוכן ההתרעה.
שחיקה
אי אפשר לדבר על התרעות בלי להתייחס ל-Alert Fatigue. ובהקשר של מודל AI זה נוגע ישר בעצב החשוף של מידת האמון שהמשתמש נותן בחיזוי. היום עדיין מרבית המשתמשים (מחוץ לקהילת מדעני המידע) מגלים חשדנות רבה כלפי AI. לעיתים הנסיונות להכשיל את המודל מונעים מרצון כן לגלות את ‘גבולות הגזרה’ של המודל כדי לדעת מתי ניתן לסמוך עליו. הרבה תלוי בציפיות. מה נאמר למשתמשים. מה הנסיון הקודם שלהם. מה ההטיות (Bias) איתן הם מגיעים.
לאורך זמן ככל שהמודל יציג פחות תוצאות חיוביות שגויות (False Positives) ופחות תוצאות שליליות שגויות (False Negatives) הוא יקנה את מקומו בלבבות המשתמשים. האתגר הוא איך להגדיר נכון את ה-Threshold בין Recall ל-Precision לאורך זמן. רק הכירות אינטימית עם המשתמשים וה-Work Flows שלהם תוכל לסייע בהשגת איזון נכון לאורך זמן. ולענות על השאלה: האם להתחיל עם מעט התרעות ‘בטוחות’ (והרבה פספוסים חשובים) או להפך. מתי לשנות.
מודל טוב מנהל את האמון שרוכשים בו המשתמשים לאורך זמן. והאמון נרכש כאשר המודל עומד בציפיות המשתנות של המשתמש.
מדידה
אנחנו רגילים לחשוב על מדידה במונחים של ארועי אנליטיקס. ניטור שימושיות במערכת. Funnels של קליקים שאוספים מתוך המוצר. זה יפה ונכון למוצרי תוכנה, קצת פחות למודלי AI. מודל שנועד לסייע בקבלות החלטות DSS מקבל לא פעם ביטוי בעולם האמיתי ולא הוירטואלי. כדי לדעת איך לנהל נכון שחיקה, UX ועיתוי של התרעות אנו זקוקים למידע מהעולם האמיתי. פרוקסי של תוכנה עשוי להטעות.
דאטה סיינס הוא אולי מקצוע התכנות הכי אנושי שיש. הוא מחייב אותנו לחבר בין העולם האמיתי לוירטואלי באופן רציף. לכן, עוד לפני איסוף הדאטה ופיתוח המודל עלינו להבין את תהליכי העבודה ולתכנן כיצד נמדוד את ההשפעה של המודל עליהם. איך נגלה חוסר אמון או ‘מרד’ משתמשים. איך נוכל לייחס שיפור ביעילות למודל (Attribution). מה ההשפעה הצפויה של המודל על מדדים אחרים במערכת (שביעות רצון מטופלים, הפחתת שחיקת מטפלים, בריאות הציבור…).
מודל טוב מתבסס על תכנון נכון של מדידת אימוץ. ומדידה מגיעה מהעולם האמיתי.
אז בפעם הבאה שאתם בונים מודל, רגע לפני שאתם מתחילים לאסוף ולארגן את הדאטה, תזכרו את שאלת האימוץ. איך המודל משתלב בתהליכי העבודה. ומה צריך לעשות כדי שהמשתמשים באמת יעבדו איתו. אחרת אתם דיון תיאורתי: אם מודל סיפק חיזוי ואף אחד לא השתמש בו האם הוא מודל טוב? מעבר על הצ’ק ליסט !הזה יכול להבדיל בין מודל תיאורתי לבין כזה שבאמת עוזר לאנשים. בהצלחה!
הפוסט פורסם לראשונה ב- https://orensteinberg.com/