מלאכת בינת הזיופים

מיועד ל- מתחילים (כתבה קצת טכנית)

נכתב על ידי תמיר נווה

המאמר הזה בניו יורק טיימס מתאר איך פורסם ב Reddit סרטון פורנו שבו מככבת מישל אובמה, מזעזע?

כן, די… אבל העולם השתנה וכדאי שנבין את זה.

כידוע ההתקדמות המדעית טכנולוגית בבינה מלאכותית משרתת מגוון תחומים שמקדמים את האנושות: רובוטיקה, רפואה, רשתות חברתיות, מסחר ועוד… יש תחום אחד שנקרא Generative Models שמאוד מרתק וסוחף אבל מעבר לכמה יישומים מועילים שנולדו ממנו (למשל ג’ינרוט גרפיקה למשחקי מחשב) הרבה מהעיסוק בו הינו למטרת שעשוע ומחקר. הרבה שואלים למה זה משמש ?

על אף שהתחום כביכול לא מאוד שימושי, הוא עדיין משנה את העולם של כולנו (ולא רק של החוקרים הנלהבים שעוסקים בו). וזה בגלל שיש בו הרבה יישומים לא כל כך טובים…

קשה להישאר אדישים לטכנולוגיה שמערערת את כל הבטחון שיש לנו במה שאנחנו רואים או שומעים ומקשה עלינו להבין מה אמיתי ומה מזויף.

האם מה שייתכן שקביל מבחינה משפטית יכול להיות קביל באותה רמת סמך אחרי שחשופים לטכנולוגיה כמו זו למשל:

אחד הדברים שמסעירים את הרשת לאחרונה היא אפליקצייתFakeApp  מבוססת קוד פתוח ע”י מפתח אנונימי (אפשר להבין מה…) ועובדת באופן הבא:

מזינים לה לפחות מאות תמונות (ככל שיותר יותר טוב) של הפנים שנרצה להשתיל ושל הפנים שנרצה להחליף, ולאחר אימון ממושך (תלוי בחומרה של המחשב שלך) מסוגלת לקבל וידאו של האדם עם הפנים שרוצים להחליף ומוציאה וידאו עם הפנים המוחלפות ברמת נראות מידי אמינה.

מה שהאפליקציה עושה זה חותכת רק את הפנים מתוך כל תמונה נתונה (וזאת בגישות עיבוד תמונה קלאסיות שאינן למידה עמוקה, למשל עם אלגוריתם HOG) ומאמנת שתי רשתות נוירונים מסוג Autoencoder אחת על פניו של המוחלף והשניה על פניו של המחליף. ולאחר האימון האפליקציה תדע לקבל כל תמונה של המוחלף ולהחליף את פניו בפנים האחרות (ולחבר לגוף באופן שנראה מאוד אמיתי).

רשת Autoencoder שהינה הבסיס לתהליך הזה הינה רשת נוירונים המורכבת משני חלקים Encoder מקודד, ו Decoder מפענח שמסודרים במבנה הבא:

תודה ל  Gerald Geronimo ול Chervinskii

ה Encoeder מקבל קלט כלשהוא (במקרה שלנו תמונת פנים), מעבד אותו ומחזיר פיסת נתונים קטנה יותר (z בתמונה). אם למשל תמונת פנים מיוצגת ע”י עשרות אלפי ערכים מספריים, אזי z במוצא ה Encoder (נקרא גם הנתונים נסתרים latent variables) יכול להיות בסך הכל עשרות מספרים. ז”א ה Encoder מעבד ומאבד מידע, אבל השאיפה לאמן אותו כך שהמידע שיוציא ייצג את הקלט באופן כזה שיהיה ניתן לשחזר את הקלט המקורי.

ה Decoder מקבל את אותו הקוד המקוצר z ומטרתו לעבד אותו ולהרחיב אותו לגודלו מקורי (במקרה שלנו שוב תמונת פנים).

האימון של שני המרכיבים Encoder, Decoder נעשה במשותף והתגמול לכל אחד על הצלחתו היא כאשר התמונה במוצא ה Decoder זהה לתמונה בכניסת ה Encoder. אימון מוצלח של AutoEncoder משמעותו סוג של דחיסת נתונים או קידוד של הרבה מידע במעט מידע. יש לכך שימושים רבים אך במקרה שלנו השימוש הוא לייצג בתמציתיות מבנה פנים של אדם א כדי לשחזר (באמצעות Autoencoder שאומן אחרת) תמונה של פנים של אדם ב.

deepfake

מי שרוצה את כל הפרטים הטכניים איך ליצור בעצמכם וידאוים מזויפים, גשו לכאן (דרוש ידע טכני בסיסי בלבד).

הרשת כעת מלאה בדוגמאות של החלפת שחקנים וסלבריטאים בסרטים:

אז מעתה, קבלו בעירבון מוגבל את מה שעינכם רואות…