ספורט ה DataSciense: נא להכיר את Kaggle!

מיועד ל- כל אחד (כתבה לא טכנית)

נכתב על ידי תמיר נווה

Data Sciense עוסק בלהסיק תובנות ממידע.

Machine Learning עוסק בפיתוח אלגוריתמים ושיטות שמאפשרים למחשב ללמוד.

שני תחומים אלו נהיו מאוד פופולאריים, והרבה אנשים שרוצים להיכנס ל-“ספורט” הזה, לומדים את התיאוריה וכשניגשים לראיונות עבודה נתקלים בפרדוקס המוכר: “אבל אין לך ניסיון…”, ואיך ניתן לצבור ניסיון אם אין מקום עבודה שיקבל אותך כדי לצבור ניסיון ? ?  ?

בכתבה זו אציג את אחת השיטות הפרקטיות להיכנס לספורט הזה דרך תחרויות עולמיות נחשבות:

הכירו את “Kaggle“: שהוקמה באוסטרליה ב 2010 ונרכשה ב 2017 ע”י גוגל (אך שמרה על השם והמיתוג שלה) והינה פלטפורמת לתחרויות בין אלגוריתמאים ואנשי DataSciense ו Machine Learning. התחרויות פתוחות לציבור הרחב בחינם וחלקן מזכות בפרסים שיכולים להגיע עד מיליון וחצי דולר.

אתר Kaggle לא רק מאפשר להתחרות אלא גם מעודד שקיפות ועזרה מהקהילה, ז”א שאפשר ללמוד מבלוגים של המומחים הגדולים ואפשר להעלות קוד ולקבל עליו פידבקים ממומחים אחרים.

מי שמממן את הפרסים ומספק את ה Database שנדרש לפיתוח האלגוריתם הם חברות, ארגונים וגופי מחקר שרוצים לפתור בעיה כלשהיא ומשתמשים בחכמת ההמונים ומייצרים תחרות בין ההמונים בכדי לקבל פתרונות.

תודה kaggle

לצורך המחשה אציג כמה מהתחרויות:

שיפור הדיוק של Department of Homeland Security בזיהוי איום שווי פרסים של 1,500,000$

שיפור הדיוק של הערכת מחירי בתים Zillow שווי פרסים של 1,200,000$

זיהוי גרעין התא (לקידום הרפואה) שווי פרסים של 100,000$

ניבוי תגובת השוק לרכישות גדולות שווי פרסים של 10,000$

זיהוי שיימינג ברשתות חברתיות שווי פרסים של 10,000$

ניבוי גישות מיחשוב הדרושות לעובד חדש שווי פרסים של 5,000$

זיהוי זן ציפור על בסיס הקלטות שמע שווי פרסים של 1,800$

ניבוי אנרגיה סולארית על בסיס נתוני מזג אוויר שווי פרסים של 1,000$

ניבוי מכירות של חנויות פרס לא כספי אלא הזדמנות לעבוד ב Walmart

ובכן,Kaggle  צברו הרבה בעיות, נתונים ופתרונות, להלן וידאו של ארבע דקות בו מנכ”ל Kaggle אנטוני גולדבלום מספר על מה למדו ממיליוני משתמשים שהעלו את המודלים\האלגוריתמים שלהם:

זה מה שהוא מספר (בתמציתיות) לגבי שלבי העבודה הקלאסיים:

1) לנתח את ה Data מכל כיוון אפשרי

להציג בכל מיני דרכים, להבין כל משתנה, להבין איך נאספו הנתונים…

2) לבנות פיצ’רים

מה מהמידע הכי ישרת את פתרון הבעיה ? פה הוא נותן דוגמא של מציאת מכונית הכי טובה למכירה ומסתבר שהזוכה בחר בצבע המכונית כאחד הפיצ’רים הדומיננטים בקבלת ההחלטה מתוך הנחה שאם זה צבע ייחודי זה אומר שמי שקנה אותה היה נלהב בהתחלה וכנראה שמר עליה היטב.

3) בחירת המודל

Random Forest היה מאוד פופולארי ואז היה מעבר ל Gradient Boosting Machine

אם כי בחירת המודל לא חשוב כמו ששלב 2 חשוב.