בטיחות ב AI – אימון סוכנים מבוקר אנשים

מיועד ל- כל אחד (כתבה לא טכנית)

נכתב על ידי תמיר נווה

1) לא יפגע רובוט לרעה בבן אדם, ולא יניח, במחדל, שאדם ייפגע.

2) רובוט חייב לציית לפקודותיו של אדם, כל עוד אינן סותרות את החוק הראשון.

3) רובוט ידאג לשמור על קיומו ושלמותו, כל עוד הגנה זו אינה עומדת בסתירה לחוק הראשון או לחוק השני.

 

אלו הם שלושת חוקי הרובוטים מספר המדע הבדיוני של אסימוב משנות ה-50. נראה כי המדע הבדיוני הזה מתקרב מאוד למדע האמיתי. הנושא שנקרא תאונות AI מדאיג יותר ויותר אנשים בעולם והוא המוטיבציה למאמר הזה.

 

כשמגדירים מטרת על לאלגוריתם או לרובוט שהינה מורכבת ודורשת הרבה פעולות קטנות מסוימות בכדי להשלימה, עלולים להיווצר בעיות בדרך. לעיתים בסוף האימון האלגוריתם יידע איך למקסם את התגמול אך לא ידע לבצע את המשימה… מנגד אם בן אנוש יפקח על תהליך האימון באופן שוטף זה גם לא ריאלי כי מדובר במאות אלפי איטרציות אימון. (כמובן זה תלוי משימה).

 

OpenAI (אותו ארגון ללא כוונת רווח של אלון מאסק) בשיתוף עם DeepMind (החברה שפיתחה את האלגוריתם שניצח את אלוף העולם ב GO ונרכשה ע”י גוגל בחצי מיליארד דולר) פרסמו גישת אימון המשלבת פיקוח אנושי מינימליסטי שנועד לפתור בעיה זו.

במאמר שלהם הם מציעים אימון מבוסס פידבק אנושי בינארי, ז”א מידי פעם להראות לצופה אנושי שתי דרכים שהאלגוריתם ניסה ולקבל פידבק איזו משתי הדרכים טובה יותר על מנת להגיע למטרת העל. בשיטה זו הם אימנו למשל רובוט לעשות סלטה אחורית (בסימולציה הוירטואלית MuJoCo):

ניתן לראות בוידיאו הזה שהסוכן Agent מנסה (בהתחלה באופן אקראי) להתהפך ומוצגת לצופה האנושי בכל פעם שתי “התנהגויות” ועל הצופה האנושי להחליט מי מהן טובה יותר בכדי להשיג את המטרה של לבצע סלטה אחורית. שימו לב שהצופה האנושי לא אמור לתת פידבקים על כל תהליך האימון (שהינו ארוך מאוד) אלא רק באופן מדגמי על קטעים קצרים. (הם הראו שיש דרך שזה מספיק)

באימון זה למשל נעזרו ב 900 החלטות אנושיות (דרש עבודה של שעת אדם בלבד) ולא השתמשו בתגמולים הקלאסיים הנהוגים ב Reinforcement Learning. באימון קלאסי התגמולים נקבעים לפי התכנות או הפרשנות של הסביבה של הסוכן\רובוט דבר שאומנם קורה אוטומטי אך לא תמיד מביא לתוצאות הרצויות.

למעשה OpenAI’s Safety Team היא שעומדת מאחורי מחקר זה כי כאמור אם נותנים מטרת על רחוקה ונותנים לתהליך האימון לרוץ לבד, קשה לנבא מה יקרה. שיטות אלו יותר מבוקרות, לעיתים יותר יעילות ועשויות למנוע אסונות.

גישה זו גם הראתה תופעה מעניינת בה האלגוריתם מנסה לרמות את הצופה: באימון של זרוע רובוטית להרים חפץ, הצופה שנותן את הפידבקים רואה זאת בתמונה דו ממדית בה לעיתים קשה להעריך עומק. הזרוע ה-“שובבה” למדה שיש מיקומים ומנחים כאלו שהצופה נותן פידבק חיובי כאילו הזרוע אכן בדרך להרים את החפץ אך בפועל היא לא באמת קרובה לאובייקט (בציר העומק).

במאמר הם מציגים גם אימון של סוכן המשחק במשחקי אטארי מגוונים:

אימון סוכן לשחק משחקי אטארי

בהנחיות שלהם לנותני הפידבקים האנושיים הם אומרים: שחק בעצמך במשחק כמה דקות, ואז קבל בכל פעם שתי קטעי וידאו קצרים ותן תגמולים טובים יותר על דברים כמו כשהסוכן יורה לעומת כשלא יורה (במשחק יריות), כשאתה עוקף ולא כשעוקפים אותך (במרוץ מכוניות), וכו’…

גישה זו אומנם מונעת אימונים שעשויים להתפתח לתאונות AI, אך מנגד ניתן רק לדמיין איך ייראה העתיד שלנו בו מתכנתים יכתבו קוד שיאמן רובוטים וסוכנים ואנשים טובים ואמינים (או לא טובים ולא אמינים) יפקחו על תהליכי האימון…