האוניברסיטה העברית|בית הספר להנדסה ולמדעי המחשב
פרופ’ קתרינה ליגת, נולדה וגדלה בניו המפשייר, ארה”ב (“גדלתי ביער ומשם העניין שלי בפרטיות. אין אנשים, יש עצים”), וכיום מתגוררת בירושלים.
האוניברסיטה העברית|דוקטורנט בבית הספר להנדסה ולמדעי המחשב
משה שנפלד, נולד וגדל כחרדי ולמד בישיבת חברון – כנסת ישראל, יצא בשאלה (“מאז ומתמיד רדפתי אחר האמת ונראה שמצאתי אותה במתמטיקה”), וכיום מתגורר בירושלים.
עידן הביג-דאטה מעלה שאלות רבות הנוגעות לפרטיות בשל קלות האיסוף וההפצה של נתונים על הפרט. פרטיות נתונים (Differential Privacy) היא שיטה שמאפשרת לפרסם מידע על משתמשים באינטרנט מבלי לפגוע בפרטיותם, אשר חברות כמו אפל, גוגל ומיקרוסופט משתמשות בה. באמצעותה ניתן להוסיף רכיב אקראי לאלגוריתמים וניתן לטשטש זהות ונתונים של פרטים. כך, ניתן לצרף נתוני משתמשים שנאספו ממכשירים כגון סמרטפון, אייפד ומחשב נייד למאגר של נתונים מצטברים על משתמשים נוספים וללמוד ממנו מאפיינים של כלל המשתמשים תוך מזעור הפגיעה בפרטיות של כל אחד מהם.
פרופ’ קתרינה ליגת מבית הספר להנדסה ולמדעי המחשב באוניברסיטה העברית וצוותה עוסקים בפרטיות נתונים ומפתחים מודלים מתמטיים (אלגוריתמים, משפטים ונוסחאות) שבאמצעותם ניתן להשתמש במידע על אנשים בצורה בטוחה. לדבריה, “במחקרינו אנו מפתחים כלים שבעזרתם ניתן לדלות נתונים רגישים ממאגרים ולפרסמם (לדוגמה על בריאות, רפואה וחיפושים בגוגל), למשל כדי להנגישם לחוקרים לצורך מחקר, ובמקביל מנסים להבין מהן המגבלות וכיצד ניתן להגן על אנשים. בסופו של דבר לא ניתן לשחרר מידע ממאגר נתונים מבלי להשפיע על הפרטיות של הפרטים במאגר, אבל שפת פרטיות הנתונים מאפשרת לשלוט ברמת הפגיעה בפרטיות, להפחיתה ולאזן בין הצרכים”.
בנוסף עוסקים פרופ’ ליגת וצוותה בהגינות אלגוריתמית – תחום מחקר שמטרתו לזהות ולתקן הטיות ושגיאות שמבצעים אלגוריתמים, אשר תורמות לאפליה. כך למשל בנקים שסורקים נתונים עם אלגוריתמים עלולים לדחות יותר בקשות משכנתה והלוואות של נשים, ומערכות רפואיות עשויות לפספס סרטן עור אצל חולים בעלי צבע עור כהה. זאת, גם אם המפתחים לא התכוונו לכך, בשל הטיות בנתונים ששימשו לאימון האלגוריתם.
“בדומה להגדרת הפרטיות, אפשר להגדיר לאלגוריתמים שמנתחים נתונים מהי הוגנות (היעד המבוקש) בצורה מתמטית וכך לדייק יותר בהחלטות שמתקבלות ולמנוע עוולות. כך למשל לבנק ישראל יש מאגר נתונים שצבר על נתוני האשראי של האוכלוסייה, וחברות פרטיות יכולות לסרוק אותו באמצעות אלגוריתמים לצורך קביעת דירוג אשראי. אם לא ניזהר, הן עשויות לזהות משתתפים במאגר על בסיס מצב משפחתי, מוצא, מגורים, עיר לידה, גובה ההכנסה, וזאת גם אם מספרי הזהות נמחקו, ולהדליף מידע רגיש לגביהם כמו מצבם הכלכלי. בנוסף לבעיית הפרטיות, ההחלטות שיתקבלו – מתן דירוג אשראי נמוך לנשים למשל – עשויות להיות מפלות. לכן במחקרינו אנו מנסים להבין כיצד ניתן לשנות אלגוריתמים כך שיפחיתו את הפגיעה בפרטיות ויזהו בעיות הוגנות, ומפתחים כלים ומדדים מתמטיים לסינון ומיסוך של הנתונים”, מסבירה פרופ’ ליגת.
תחום נוסף שבו עוסקים פרופ’ ליגת וצוותה הוא סטטיסטיקה בשיטות אדפטיביות – שימוש במידע באופן שמייצג את העולם האמיתי. לדברי משה שנפלד, דוקטורנט בצוותה של פרופ’ ליגת, “במקרים רבים חוקרים משתמשים בנתונים על קבוצות אוכלוסייה קטנות (מדגמים) לצורך כמה שאלות מחקר, שנבחרות על בסיס התשובות שהתקבלו לשאלות הקודמות מתוך אותו מדגם, ולכן עשויים להוביל למסקנות שלא מייצגות את שאר האוכלוסייה. כדי למנוע זאת, אנחנו מוסיפים לאלגוריתמים רעש (הפרעה) ש’מסתיר’ את המדגם, מה שמפחית את הסיכוי לבחירת שאלות שבהן המדגם לא מייצג, וכך מבטיחים דיוק סטטיסטי בנתונים. כך למשל, כאשר חוקרים סורקים נתונים כדי לגלות מהו אחוז החולים במחלה מסוימת (ההסתברות לחלות בה), התוצאות שיקבלו על השפעת משתנים כמו גיל, גובה ומשקל עשויות להובילם להשערה שמשלבת בין כל המשתנים בצורה שמתאימה במקרה למדגם אבל לא לשאר האוכלוסייה. כאשר מוסיפים רעש מידתי לאלגוריתם הוא מספק אחוז קצת שונה הפוגע מעט בדיוק התשובה אך מפחית משמעותית את הסיכוי להשערה שאינה מייצגת”.
מחקרם האחרון של החוקרים, שזכה במענק מהקרן הלאומית למדע, נועד לשפר את הבטחת הדיוק של התוצאות. “כמות הרעש שנדרשת למיסוך דירוג האשראי של מיליארדרים למשל הרבה יותר גבוהה מזו של אחרים. אבל הסיכוי שיהיו במדגם של האוכלוסייה הרחבה הוא נמוך. אם רוצים להבטיח פרטיות למשתתפים, צריך למסך את כולם. וכדי להבטיח דיוק בתוצאות הוספנו לאלגוריתמים כמות קטנה יותר של רעש. כך ניתן יהיה לקבל תוצאות שייצגו את כלל האוכלוסייה”, מסבירה פרופ’ ליגת.