שיעור #6 – Interactive GAN המלל – בלוג בינה מלאכותית

בשיעור זה נדבר על עוד נגזרת של GAN שנקראת Interactive Gan.

מאמר זה שיצא ב 2016 של אוניברסיטת Berkeley בשיתוף עם חברת Adobe (היוצרים בין השאר של תכנת פוטושופ, וזה חשוב לצורך הבנת את השימושים של זה) לוקח את GAN למקום אחר קצת שמאפשר לעשות יצירה אינטראקטיבית, ז”א משולבת יצירה אנושית בשילוב עם אלגוריתם.

בסרטון זה ניתן לראות איך בכלי שלהם גם אדם שלא ממש יודע איך לעצב או לצייר וסתם משרבט יוצר יצירות יפות ומוצלחות. האלגוריתם ממש יוצר תמונה חדשה שנראית טוב בהתאם לשרבוט האנושי.

בואו נבין את המתמטיקה מאחורי תהליך בו מאפשרים למשתמש לקחת איזשהיא תמונה אמיתית של אוביקט (למשל תיק בדוגמה בסרטון) ולעצב על בסיסה תיק חדש ללא כל מיומנויות של עיצוב תיקים.

לאחר שמאמנים רשת GAN באופן הרגיל לעולם תוכן של תיקים ומקבלים תמונה אמיתית Xr (real), ראשית מחפשים את וקטור z (אותו מבוא לרשת ה Generator) אשר גורם ליצירת תמונת G(z) הדומה ביותר שניתן לתמונה האמיתית Xr. אותו וקטור z המייצר תמונה דומה ככל שניתן לתמונה הנתונה יסומן ב z*. הסימון L מייצג איזשהיא מטריקה בין תמונות.

ואז מאפשרים למשתמש לבצע פעולות עריכה שונות (שמסומנות ע”י f_g) כפי שראינו בסרטון (צביעה, מתיחה, כיווץ, הזזת נקודות קיצון ועוד…). ברור שלאחר פעולות אלו התמונה (שמסומנת ע”י v_g) כבר לא תיראה כמו תמונה אמיתית של תיק, כי המשתמש הממוצע כנראה יהרוס את התמונה.

ולכן מה שעושים כעת זה שוב לחפש וקטור z אופטימלי שממזער את הביטוי הבא (שמורכב משלושה גורמים שונים):

הראשון: מרחק מינימלי בין התמונה שנערכה (וכנראה נהרסה) v_g לבין תמונה כלשהיא שיוצאת מה Generator ועברה את אותה סדרת פעולות עריכה f_g.

השני: גורם חלקות לפי משקל _sλ ז”א שאותו z אופטימלי יהיה כמה שיותר קרוב ל z הראשוני. (שלא יהיו שינויים דרסטיים)

השלישי: הגורם של ה GAN הסטנדרטי שמתמרץ תמונות עליהן רשת ה Discriminator אומרת שאמיתיות. גורם זה אופציונאלי, אומנם משפר ניראות אך מאט קצב.

את התוצאות כבר ראיתם, ולכל אלו שעדיין שואלים למה GAN טוב ולמה משמש ? אז כעת ראיתם שואריאנט זה: interactive GAN הינו יישום מסחרי ולא רק למטרות מחקר ושעשוע.

חזור לוידאו

הפקת ערך, יש לך שאלה, מצאת טעות, נשמח לדעתך: