ניתוחים עצמיים

מאפס לנכס (ומאפס לכנס) – דאטה האק 2018

By נובמבר 20, 2018 No Comments

טוב, כרגיל, צריך לפתוח בהתנצלות על תרגומים גרועים, והפעם תרגומים גרועים שגנובים מדיסני.

המטרה של הפוסט הזה מחולקת לשני תתי חלקים –

  1. לסקור את האקתון הדאטה שהיה בבית אליאנס, ירושלים, בין התאריכים 03-05.10.18
  2. לשתף קצת על החוויה של השתתפות בהאקתון דאטה כחלק מהתחרות בתיבול עצות כאלה ואחרות

דבר שחשוב לציין לפני שמתחילים – במקביל לדאטה האק מתקיים דאטה קונף – כנס עם הרצאות על דאטה, אלגוריתמים וכל מה שטוב ומגניב בעולם – לא כתבתי על זה בכלל, כי השנה הייתי כל כך מרוכז בתחרות ובחוויה שפשוט לא הגעתי לשום הרצאה – אבל מניסיון של השנה לפני כן – ממש שווה להגיע להרצאות – גם אם אתם לא לגמרי מבינים במאה אחוז את נושא ההרצאה.

שלב ראשון – אמור לי מי החברים שלך ואומר לך באילו מודלים כדאי לך להשתמש

להאקתון השנה איחדתי כוחות עם ידידה שביום-יום היא מדענית נתונים בחברת ייעוץ מאוד גדולה ובלילות היא, אמממ, מדענית נתונים בחברת ייעוץ מאוד גדולה.

היא מצידה הביאה עוד חבר (דוקטורנט בפיזיקה), אני הבאתי עוד מדענית נתונים יחסית בתחילת דרכה (אבל עם ניסיון רחב מאוד כאנליסטית), ונפגשנו כולנו לראשונה בערב ההכנה, כאשר כל הצוות שלנו הוא צוות של אנליסטים\מדעניות נתונים (צוותים אחרים מביאים מפתחי פול סטאק\באק אנד\פרונט אנד ושאר מקצועות אחרים שלא קשורים בהכרח באופן ישיר לדאטה, לא בטוח בנוגע למה היחס בין צוותים עם תפקידים שונים לצוותים רק עם מדעני נתונים).

בערב ההכנה, הספונסרים של הכנס מציגים בפני המועמדים את האתגרים עבור המסלול הרגיל (יש כמה מסלולים – למידה, חברות, עצמאים וכנס).

השנה הוצגו ארבעה אתגרים מרכזיים –

  1. אינטל – משימה חופשית "לטובת האנושות" – הצוות דואג למאגר נתונים משלו ומציד את הפתרון שלו, הכלל היחיד הוא שהפתרון צריך לעשות טוב לעולם (פלוס מינוס)
  2. מיקרוסופט – הפיכת טקסט חופשי של בעיות מתמטיות למשוואות ופתרונן – כלומר – "מספר אחד גדול מהשני ב-11 והסכום של שניהם הוא 21" – והתשובה צריכה להיות (6,15)
  3. innoviz – ספקית פתרונות חישה מרחוק עבור כלי רכב אוטונומיים – שימוש במאגרי מידע ובתמונות על מנת לקבוע מה הם העצמים שזזים במרחב בכל רגע נתון – כולל התחשבות בכל מני גורמים רלוונטיים כמו גורמים שזזים אבל לא מסכנים רכבים
  4. Lightricks – החברה שאחראית על האפליקציה "facetune" – אפליקציה של עריכת תמונות – יצירת פתרון המתאים למודל העסקי וזיהוי נוטשים פוטנציאלים לפי נתוני שימוש.

שלב שני – הסכמה על הפרוייקט

לאחר ששמענו את כל החברות מציגות את האתגרים להאקתון – התכנסנו כל חברי הצוות לדבר על איזה פרוייקט מסעיר ומעניין אותנו ועל מה פחות כדאי שנשקיע את המאמצים שלנו – בהתחלה חשבנו ללכת על הפרויקט של מיקרוסופט, היות וניתוח שפה לשוני (NLP) הוא תחום סופר מגניב שכיף להתעסק איתו – אבל בסופו של דבר, העדפנו ללכת על הפרוייקט של חברת Lightricks – גם בגלל הקרבה והניסיון, אבל גם בגלל שעבודה על סדרות זמן (עבודה) וניתוח התנהגות משתמשים (עבורי) – זה משהו שמסעיר אותנו במיוחד.

 

שלב שלישי – הכנות, אריזות ונסיעות

בהתחלה, למעשה, היינו בטוחים שנתמודד על הפרוייקט של ה-NLP, אז התחלנו בקריאת מאמרים בתחום, וגישוש אחר טכניקות שפותחו על ידי בעלי מקצוע שמתעסקים עם בעיות דומות, אבל אחרי שהחלטנו שאולי נעבור פרוייקט, ניקינו את הראש והחלטנו לחכות ולראות מה יהיה.

מבחינת האריזות, התכוננתי ללילות הקור הירושלמי – זאת הייתה קצת טעות בדיעבד, כי בסך הכל היה יחסית חמים ונעים, הצוות המארגן הנפלא של ההאקתון טרח לפרסם רשימת ציוד של דברים שמומלץ להביא באתר שלהם, רשימה שהייתה די מדויקת ואפשרה לי לא לדאוג כמעט בנוגע לכלום.

מבחינת הנסיעה לירושלים, הצוות ארגן אוטובוס שיצא מתל אביב – ופה יש את הנקודה העיקרית והיחידה שיש לי לשיפור על ההאקתון – בעוד שהייתה הרשמה לאוטובוס, העליה לאוטובוס בוצעה ללא הרשימה, ואומר – בוודאות היו על האוטובוס אנשים שלא נרשמו ונותרו בחוץ אנשים שכן נרשמו – זאת תחושה לא מגניבה למי שטרח ונרשם ולא עלה בסוף והיה צריך למצוא את דרכו לכנס באוטובוס בתשלום.

עכשיו, מתוך כך שזאת הנקודה היחידה שיש לי לשיפור – מקווה שיובן עד כמה נהניתי וכמה הארגון היה באמת מדהים.

 

שלב רביעי – התמקמות, פתיחה ולוגיסטיקה להמונים

אז ירדנו בירושלים מnש ליד בית אליאנס, התמקמנו בנקודה שתהיה עבורנו נקודת המוצא למשך ה-48 שעות הקרובות, חיברנו מחשבים ומקלדות (הצטערנו שלא הבאנו מסך איתנו), הלכנו להhרשם ולהתחיל עם תהליך אגירת ה-SWAG – חולצות (של ההאקתון עצמו), פותחנים, מחברות, קוביות פידג'ט ועוד כל מני דברים שווים יותר ושווים פחות (וכאלה דברים שישארו לכם בתיק ולא יזוזו משם לנצח.)

 

ברחבה המרכזית שנמצאת תחת כיפת השמיים, נמצאים דוכני החברות שם ניתן למצוא את כל הSWAG המוזכר לעיל, להתעניין בתפקידים פתוחים ואפילו סתם להתרשם ממה החברות עושות ומה האתגרים איתם הן מתמודדות – רובן מאוד מוכרות, חלקן אני באופן אישי לא הכרתי עד אותו הכנס, אבל בין כה וכה, זאת אחלה של הזדמנות להיחשף לדברים המדהימים שקורים היום בישראל ההייטקיסטית (ומבוססת הדאטה).

חשוב לציין שלאורך כל ההאקתון היה תמיד כל מה שצריך – אוכל בכמות מספקת – ארוחת בוקר, צהריים, ערב ולילה (אבל בלי להיות שאננים, כן? יש אנשים שאוכלים הרבה ומהר ויש סיכוי שיגמרו המנות אם תתעכבו מספיק זמן), קפה בכמויות, בירה קרה (ואנחנו מדברים פה על בירות מהסוג הבוטיקי, כן? לא איזה מכבי משנות השמונים בטעם של מים מדוללים) ושאר מיני פינוקים כמו יוגה בבוקר, לחובבי הז'אנר.

בלילה סיפקו לנו מזרנים לישון עליהם (זוכרים את הקטע המסריח הזה בצבא שאנשים לוקחים שני מזרנים וישנים עליהם? זה קורה גם שם לצערנו, אז שריינו לעצמכם מזרן אחד ברגע שניתן כדי שלא תמצאו את עצמכם מנסים להעיר מישהו בארבע בבוקר – לטובתו ולטובתכם).

שוב, ככל שניתן לקבוע, הארגון הלוגיסטי היה מעולה פלוס.

שלב חמישי – עבודה על הפרוייקט

אז בסופו של דבר, החלטנו ללכת על פרוייקט הנטישה של חברת לייטריקס – כשאנחנו מבינים את הבעיה\המשימה שלנו, לקחנו את מאגרי המידע, שניים במספר, והתחלנו לחשוב על מה יש לנו בידיים, ומה אנחנו רוצים לעשות.

ופה אתה מגלה משהו חשוב שמאלץ אותי לרגע לצאת מהתמה המרכזית של הפוסט הזה ולכתוב קטע ביניים:

קטע ביניים – ההבדל בין עבודת צוות ופייפליינינג (Pipelining)

בראיונות עבודה, חוץ משאלות על רמת האקסל שלך, בדרך כלל שואלים על ההעדפה האישית בין עבודת צוות לבין עבודת סולו – ואז הקלישאה הקבוע ההיא שאת-ה ממש בסדר גם עם זה וגם עם זה ובא לציון גואל.

ובכל זאת, כל התפקידים שעשיתי היו בתוך צוותים מולטי-דיסציפלינאריים, ועבודת הצוות בצוותים מהסוג הזה הם בעלי אופי אחר – הם בעלי אופי של פייפליין – למה אני מתכוון?

לכך שיש מישהו שאחראי בצוות על איסוף המידע, שני על ניתוח ושלישי על הסברת התוצר ללקוח, או מצב שבו חברת צוות אחת אחראית על ספקים חיצוניים, ומעבירה לך איזה שלב מסוים שצריך להתבצע וככה המשימה מסתיימת.

כן, זאת עבודת צוות, אבל עבודת צוות מסוג שטרם יצא לי להתנסות בה עד ההאקתון היא כזאת שכולם יודעים ומבינים פחות או יותר את אותו הדבר, וההבדל העיקרי למעט הניסיון המקצועי (שכולו, כאמור, באותו הדומיין) הוא ניסיון החיים והפרספקטיבה על הבעיה – מה שהופך את הביטוי 'הפריה הדדית' לכל כך הרבה יותר משמעותי.

זהו, סוף קטע ביניים.

שלב חמישי – המשך אחרי קטע ביניים

אז מבחינת הגדרת המשימה, התחלנו לחבר את התאוריה שלנו לגבי מה מגדיר קהל נוטש, ועשינו, בגדול, תהליך מעניין של לנסות לקחת את ניסיון החיים ואת ההבנה שלנו על החיים ולבדוק את הייצוג שלהם באמצעות הדאטה.

(עכשיו אני שם לב, שבשום מקום עד כה לא כתבתי שלייטריקס סיפקו המון גרפים שנתנו תחושה יחסית טובה לגבי מה המידע מייצג, ככה שאת התהליך הראשוני, ה-EDA שאני פעמים רות ממליץ עליו בחום – לא ממש היינו צריכים לעשות)

אבל בעצם זאת הנקודה החשובה שרציתי להבהיר כאן, כשאתה עובד על פרוייקט כזה, במסגרת זמן כזאת, עם מטרה לייצר תובנות ביחד עם איזה אלגוריתם שיהיה ניתן להשתמש בו – צריך לקצץ הרבה יחסית מהתהליך הסדור והרגוע, ולנסות למצוא את מה שיניב מקסימום הצלחה במינימום זמן (אחרת, נורא קל להכנס למצב של אנאליסיס פראליסיס*).

על הפרוייקט עצמו עבדנו רוב הזמן (קרוב ל-40 שעות) עם הפסקות שינה קצרות יחסית, כשאנחנו נלחמים על העלאת אחוזי F1 בפרוייקט (מה שהיה המדד הקובע).

בשלבים מסוימים, לקחתי הפסקות בשביל להתרענן, בשבלים אחרים – חברות צוות אחרות לקחו הפסקות, כשהאווירה הייתה בסך הכל סופר נחמדה ומעניינת (הגם שהיו רגעי שבירה מסוימים).

שלב שישי – סיכום

לא כתבתי כאן על מסלול הלימודים שהפעילו בדאטה האק, לא דיברתי על החונכים, לא דיברתי על ההרצאות (כי כאמור, לצערי, לא הייתי בהן בכלל השנה) וכנראה שפה ושם פספסתי עוד כמה דברים, שיכול להיות שהיו יכולים להעשיר את הטקסט ולהעביר את החוויה יותר טוב – אבל אני יכול להבטיח דבר אחד – בשנה הבאה, מתי שלא יהיה התאריך, אני אהיה שם שוב.

כי בסוף, חוץ מהתנסות נורא מגניבה וחוץ מלהיות ליד אנשים, צריך לזכור שזאת גם סוג של תחרות – ובתחרות הזאת, הצוות שזכיתי להיות שותף בו זכה כאחד מחמשת הצוותים שיותר הרשימו את השופטים, ועל כן הדבר הנחמד הזה**

לתוהים מבניכם, הצוות בו הייתי שותף היה TMI.

Congrats on being one of the five teams to win the Churning challenge in DataHack 2018

 

 

 

* נורא חבל לי שבכל פעם שאני משתמש בביטוי אנאליסיס פאראליסיס אין צחוק משומר של קהל משנות השמונים, אבל אני מניח שאלו מגבלות המדיום.

** היה גם פרס כספי, אבל זה באמת החלק הכי זניח במה שהרווחתי מהכנס

Leave a Reply