ניתוחים עצמיים

מה ההבדל בין מדענית נתונים (Data Scientist) לבין דאטה אנליסט (Data Analyst)?

By ספטמבר 21, 2018 No Comments

עולם הדאטה בפריחה, אין ספק – מדעי נתונים הפכו להיות התפקיד הסקסי ביותר של המאה ה-21, כולם רוצים להיות מדעני נתונים, ואם לא – אז אנליסטים בכירים – ובגדול – ההייפ הגדול שנוצר גרם לפריחה נפלאה שמושכת אנשים סופר מוכשרים לתחום סופר מעניין – אבל אליה וקוץ בה, אי הבהירות הזאת בין מה כל בעל תפקיד עושה ביחד עם השאיפה למשוך אנשים מוכשרים ככל האפשר גורם לכמה עיוותים (כמו בהרבה תפקידים) בשוק העבודה.

לצורך העניין, בנקודות הקיצון כבר ראיתי משרות דרושים לאנליסטים עם ידע ברשתות נוירונים ולמדעני נתונים עם פייתון או R כיתרון – מצבים כאלה הם בעייתיים כי הם לא משדרים לבעלי התפקיד הרלוונטיים – בפוסט הזה אנסה לסקור בצורה כללית קצת על התפקידים, ההבדל ביניהם, על ההסתעפויות בתוך תפקידי האנליסט ומה הקשר לביג דאטה.

 

(אם נכנסתם לכאן דרך הפייסבוק למרות התמונה הענקית של וויליאם דפו – כל הכבוד)

 

מה זה מדענית נתונים ומה זה אנליסט נתונים

מדעי הנתונים (Data science) הוא תחום שהפך להיות ממש פופולארי בשנים האחרונות, עם הכניסה של רשתות ניורונים לחיים שלנו, אבל למעשה, התחום עצמו ותיק למדי (המתודולוגיה הותיקה והנלמדת ביותר, רגרסיה לינארית, קיימת בערך מ-1870), יותר מזה – בהרצאה של הבחור הזה (שנלקח היישר משנות השמונים) מתואר פועלו של ד"ר הווארד מוסקוביץ, שהשתמש בטכניקה של קלאסטרינג בשביל לשנות את הצורה שבה עסקי המזון פועלים.

הדבר היפה בהרצאה הזאת הוא שהיא מצליחה ללכוד את הבעיה של הממוצע – ובה אנחנו מניחים שהממוצע מייצג משהו הרבה יותר גדול מאשר סכום הדגימות חלקי מספרן וכשבגדול נדבר על ממוצעים רבים ולא על ממוצע, תהיה לנו תמונת מצב טובה הרבה יותר.

בהקשר הזה, מדענית נתונים היא מי שמתעסקת במדע הנתונים, משתמשת במידע שקיים, או שעדיין לא קיים אבל צריכה להשיג אותו, בשביל להפעיל סוג של אלגוריתם מדוקטורינה מסויימת (עצי החלטה, מודלים סטטיסטיים שונים, רשתות נוירונים או כל אלגוריתם אחר) בשביל להסיק מסקנות ולקבל החלטות.

אוקיי, הבנו מה מדענית נתונים עושה, אז מה אנליסט עושה?

אנליסט הוא שם קוד קצת יותר כללי לשורה של תפקידים בעלי 'התמחויות' שונות, אנליסט ווב, אנליסט עסקים, אנליסט שיווק, אנליסט דאטה ועוד כל מני וריאציות, כאשר בסופו של יום, הם לא בהכרח עושים את אותה העבודה – אחד ינתח קמפיינים שיוקיים, שני יטמיע קוד של מערכות כמו Google tag manager או Mixpanel, שלישי ייבנה דאשבורדים.
בהקשר הזה, חלק ניכר מהעבודה של האנליסט יכול להיות להתעסק עם הויזואליזציה של המידע – סיפור הסיפור באמצעות גרפים מסוגים שונים, ובמקרה הזה – אפשר לראות את ההרצאה הזאת:

מה הקשר של כל זה לביג דאטה?

בגדול, גם מדעניות נתונים וגם אנליסטים יעדיפו הרבה יותר מדי דאטה על פני מעט מדי דאטה – זה ייקל על קבלות חלטות ועל למידה של מודלים כאלה ואחרים – וחוץ מזה, הרבה יותר הגיוני לשכנע במסקנות שנגזרו ממליון נקודות על פני עשרים.

לדעתי, לאור הפסקה הקודמת, קיומו ביג דאטה לא שייך באופן ישיר לתחומים האלו – התחום של מהנדסי הנתונים (למיטב ידיעתי, ואם יש לכם תובנות אחרות – שתפו והחכימו אותי) בהקשר של ביג דאטה נוצר כתוצאה מכמויות הדאטה העצומות שאנחנו כעסקים וכמין האנושי מצליחים לייצר – והבעיות האלו, שהם בעיות סופר מורכבות (והניבו פתרונות סופר יצירתיים) – אבל מהנדסי הנתונים פחות מתעסקים בניתוח המידע ובבניית מודלים על מנת לבצע תחזיות.

אז בעצם – מה משותף למדענית נתונים לאנליסט נתונים?

גם למדענית הנתונים וגם לאנליסטים יש צורך להתמודד עם בעיות דומות – בעיית המידע החסר מקשה על ייצור של מודלים כמו גם על הפקה של תובנות או ויזואליזציה של הגרף וצריך להחליט מה לעשות עם הנושא, השאלות ששני בעלי התפקידים יישאלו יכולות להיות מאוד דומות ואנליסט טוב יוכל פעמים רבות לבנות תשתית הנחתית טובה עבודה מדענית הנתונים (או להפך, אבל פחות), בנוסף, תחומי עניין דומים בתוך העבודה של אמינות ומהימנות המידע, בקרה על מודלים וההתעסקות הכללית עם בעיות המעסיקות את חיי העסק.

אוקיי, אז בסופו של יום – מה ההבדל בין מדענית נתונים לאנליסט נתונים?

אצל מדעני נתונים אין "התמחות" בתחום מסוים, וקיים קונצנזוס מסוים (בין אם נכון או לא נכון) שמדען נתונים צריך רק נתונים והוא יכול לוותר על מומחיות בתחום (Domain expertise) – אישית, אני חושב שמדען הנתונים יכול להגיע עד גבול מסוים בלי המומחיות, אבל בשלב מסוים, אפילו בחלק של ה- Feature Extraction לפספס דברים שהם יחסית בסיסיים.
אצל האנליסטים, יכול להיות שלא יידרשו יכולות של למידת מכונה, ויכול להיות שכן – וארצה לטעון שדווקא הטווח אצל אנליסטים מאפשר לבעלי עסקים לשלם שכר נמוך יותר לאנליסטים, אבל, וזה בל חשוב, מאפשר מוביליות מאוד גדולה אצל אנליסטים לכיוון של מדעני נתונים (וזה הרי, המקצוע הסקסי של המאה ה-21)

בקצרה ולסיכום

אין לי ממש מושג מה ההבדל, אבל כך גם לתעשייה, והאמת יושבת רק בידי מי שצריך בעל תפקיד עם יכולות מסוימות – ואומר, אם יכולות של למידה עמוקה הם משהו שעסק צריך, כנראה שהוא יתאמץ להשיג מדענית נתונים טובה ואם הצורך שלו הוא בקצת מודלים וניתוח נתונים, אז הוא כבר יצטרך להחליט מה חשוב לו בבעל תפקיד, מה שכן – רמת ההשכלה המדעית של מדענית נתונים תהיה גבוהה יותר (בשביללדעת להשתמש במודלים, צריך לדעת קצת יותר מלעשות Import), וחשוב לציין שרף הכניסה לאנליסט מתחיל הוא נמוך יותר באופן משמעותי.

importing a package is not data scienceסוף דבר:

אני מתחיל לעבוד על סדנה שאעביר בהתנדבות ושכל הכנסותיה יילכו לעמותה כלשהי (על הכוונת עכשיו או עמותה לטובת בעלי חיים או למען חולי סרטן – עוד לא החלטתי ואין מקום לדבר איתי על זה) – אז אם ישנם תכנים שנראה לכם (אני יודע שאף אחד לא קורא את זה, זה בסדר) – אני זמין כאן או בפייסבוק.

Leave a Reply