שיעור #3 – הרכבת פונקציות וכלל השרשרת המלל

מושג חשוב נוסף על מנת שבהמשך נבין back propagation כמו שצריך הינו הרכבת פונקציות ובהקשר זה את כלל השרשרת.

הרכבת פונקציות הכוונה לשים בשרשרת שתי פונקציות כאשר הפלט של הראשונה יהווה הקלט של השניה ובכך להרכיב פונקציה אחת. למעשה רשת נוירונים היא הרכבה של הרבה פונקציות (שכל אחת נקראת שכבה ברשת). למשל נרכיב את הפונקציה f(x)=x^2-6x+2 עם הפונקציה g(x)=-2x

בסדר הזה f של g וזה לעיתים מסומן ע”י עיגול קטן נקבל לבסוף פונקציה אחת שהינה 4x^2+12x+2

מקבלים זאת ע”י הצבת הפונקציה g(x) שהינו 2x- בכל פעם שמופיע x בפונקציה f(x). ז”א לקחנו את הפלט של הפונקציה g וחיברנו אותה כך שתהיה הקלט של הפונקציה f.

נשים לב שיש חשיבות לסדר ההרכבה, אם היינו מרכיבים שתי פונקציות אלו בסדר הפוך התוצאה הייתה אחרת.

כעת כלל השרשרת chain rule הינו כלל במתמטיקה שאומר איך אפשר לגזור פונקציה שהינה הרכבה של כמה פונקציות שונות. הכלל אומר שכדי לגזור f הרכבה עם g אפשר להכפיל את הנגזרת של f כשמציבים בה בנגזרת את g עם הנגזרת של g.  אז בדוגמה שלנו נגזור את g ואת f בנפרד:

נציב בכלל השרשרת וקיבלנו את הנגזרת של ההרכבה:

שימו לב שהיינו ומקבלים את אותה התוצאה אילו היינו גוזרים ישירות את f הרכבה עם g אותה ראינו מקודם:

4x^2+12x+2

ועל כן… הנוסחה עובדת!

חזור לוידאו