אוניברסיטת תל אביב|בית הספר למדעי המחשב
פרופ’ עידית כהן, נשואה + ארבעה מתגוררת בתל אביב ובקליפורניה לסירוגין, אוהבת לטייל ולהיות עם המשפחה, לרכוב על אופניים, ולעשות טיולי הליכה.
אוניברסיטת תל אביב|בית הספר למדעי המחשב
פרופ’ חיים קפלן, נשוי + שלושה, , גר בהוד השרון ואוהב את הים.
כיצד ניתן לשלוף נתונים ממאגרי מידע ענקיים ביעילות ובמהירות ומבלי לפגוע בפרטיות המשתמשים? תחום טכנולוגיות המידע מתפתח ללא הרף ומאתגר בקביעות את החוקרים והעוסקים בתחום. אחד האתגרים הוא הביג דאטה (נתוני עתק) – כמויות מידע אדירות שמגיעות ממקורות שונים, מצטברות במערכות מידע ומצריכות מגוון עצום של כלים וטכנולוגיות לשימורן, תחזוקתן, ניהולן ושליפתן.
פרופ’ עידית כהן ופרופ’ חיים קפלן מבית הספר למדעי המחשב באוניברסיטת תל אביב מפתחים אלגוריתמים שאוספים, מנתחים ומעבדים מידע ונתונים. העיקריים שבהם נועדו לפתור בעיות מבוססות מרחק, אשר מורכבות ממערכת של נקודות שמחוברות ביניהן ומייצגות ישויות שונות. כך למשל הן מייצגות צמתים ברשת כבישים, משתמשים ברשתות חברתיות, שירים בשירותי מוזיקה דיגיטליים (כגון ספוטיפיי ויוטיוב), ושאילתות במנועי חיפוש (כגון גוגל). אלגוריתמים כאלה משמשים בעיקר חברות טכנולוגיות; הן צריכות לנתח מידע רב (מיליוני נקודות ויותר), ולשם כך נזקקות לחישוב אלגוריתמי יעיל ומהיר במיוחד, שגם יגן על המידע אישי של המשתמשים.
“האלגוריתמים שלנו מסייעים לחברות טכנולוגיות לנתח נתונים ולפענחם ולשלוף מידע חיוני ביעילות ובמהירות. כך למשל הן יכולות למצוא את הקבוצות המקושרות והאפקטיביות ביותר ברשתות החברתיות או לחשב את הדרך הקצרה ביותר להגיע מצומת אחד לאחר, או לשנע סחורה. לפעמים הנקודות הללו – כמו קבוצות חברתיות וצמתים – מתבססות על מידע אישי של משתמשים, כמו מיקום וחיפושים ברשת, ואז החישוב חייב להיעשות מבלי לחשוף את המידע הזה”, מסביר פרופ’ קפלן.
במחקרם האחרון, שזכה במענק מהקרן הלאומית למדע, פיתחו פרופ’ כהן ופרופ’ קפלן אלגוריתמים שיכולים לפתור מגוון בעיות מבוססות מרחק, באמצעות חלוקת הנקודות לקבוצות קרובות, בעלות מאפיינים דומים. “כך לדוגמה, אם יש לנו מאות מיליארדי נקודות שמייצגות שירים, האלגוריתמים מחלקים אותן לקבוצות לפי הסוג שלהן (הדמיון ביניהן, המאפיינים המשותפים). כך ניתן לזהות במהירות לאיזו קבוצה שייך כל שיר ולהמליץ עליו למאזינים עם העדפות מתאימות. המרחק בין הנקודות פה הוא למעשה הדמיון ביניהן, הוא לא פיזי. ככל שהשירים דומים – המרחק ביניהם קטן יותר”, מסבירה פרופ’ כהן.
כדי לא לחשוף מידע אישי של המשתמשים (למשל האזנה לשירים עם תוכן פוגעני), החוקרים גם הוסיפו לאלגוריתמים אלמנטים שמשמרים פרטיות דיפרנציאלית; פרטיות זו יכולה לגלות את דפוס השימוש הכללי של המשתמשים, אך משנה את הנתונים שכל משתמש תרם לנקודות באמצעות הוספת רעש מתמטי וכך מגנה על פרטיותו. כלומר, הפלט של האלגוריתמים חושף את הקבוצות (תמונה כללית) אבל לא את המידע שעומד מאחורי כל נקודה ונקודה, כלומר זה שכל משתמש תרם. זאת באמצעות הרצת האלגוריתמים על המרכזים (ממוצעים) שמייצגים את הנקודות וכך את התכונות האופייניות לכל קבוצה. “האלגוריתמים שפיתחנו מחשבים את המרכזים הללו מבלי להיות תלויים בחוזק של הנקודות. הם מזהים נקודות חריגות, אשר שונות במאפייניהן משאר הנקודות בקבוצה, מסירים אותן ורק לאחר מכן מחשבים את המרכזים”, אומר פרופ’ קפלן.
החוקרים בדקו את האלגוריתמים בכמה ניסויים שעסקו בסוגי מידע ושימושים שונים. בכל המקרים הם חילקו את הנקודות לקבוצות לפי מידת הדמיון ביניהן, חישבו את המרכזים שלהן, והחזירו פלט שחשף מעט מאוד מידע על כל נקודה ספציפית (למשל שמשתמש נמצא בקבוצה מסוימת). “הראינו שמצד אחד האלגוריתמים יעילים מאוד, מנתחים ומחשבים נתונים מתוך הקבוצות במהירות, ומצד שני הם לא מסגירים מידע אישי שקיים בנקודות, אשר מקורו כאמור במשתמשים שונים”, מסכמת פרופ’ כהן.