מדעי החיים והרפואה מדעים מדוייקים וטכנולוגיה מדעי החברה מדעי הרוח

גוגל, סדר לי את כל המידע על טוסקנה

מהפכת המידע מציפה אותנו, אבל המחשב עוד לא יודע להשוות ידע ממקורות שונים ולסדר אותו

מנועי החיפוש הפופולריים מציעים לנו אינספור מקורות מידע לגבי כל נושא תחת השמש – בהיקף שאנחנו בני התמותה לא מצליחים להשתלט עליו. פרופ’ עידו דגן מהמחלקה למדעי המחשב באוניברסיטת בר אילן מנסה לעשות סדר בבלגן. “לא חשוב אם אנחנו מחפשים מידע על המהומות בגבעת הקפיטול, על מסעדות מומלצות במיורקה או על מחלת הקורונה – להשתלט על הטקסטים זו משימה קשה ומייגעת, עד כדי בלתי אפשרית”, הוא אומר. “השאלה היא איך לגרום למחשב לייצג את המידע המרובה באופן כזה, שייתן לבני האדם כלים מועילים לקרוא על הנושא.

מה השאלה?
איך מחשב יכול להבין ולייצג את המידע שמצוי בטקסטים מרובים על אותו נושא?

אם נשווה כל שני טקסטים שנכתבו על אותו הנושא נמצא שלושה סוגים של פרטי מידע: פרטים חופפים, מידע משלים ומידע סותר. פרופ’ דגן וצוותו מנסים – בסיוע מענק מחקר מהקרן הלאומית לדמע – לתכנת אלגוריתמים שידעו לערוך קריאה משווה, בניסיון לגרום למחשב “להבין” אוסף של טקסטים קשורים – ולתקשר את ההבנה הזאת בצורה יעילה לקורא.

“החפיפה, ההשלמה והסתירה יכולות להיות בפרטי המידע הקטנים ביותר”, הוא אומר. “למשל, אירוע הפריצה לקפיטול בוושינגטון. אתר אחד ידווח שהמפגינים פרצו את הדלת הראשית של הקפיטול, אתר שני יספר שהם פרצו את הדלת הראשית עם אלות והשלישי יוסיף שהם עשו זאת תוך כדי פציעה של שוטרים. כדי להגיע לייצוג יעיל, צריך לפרק את הטקסטים למרכיביהם הבסיסיים ביותר: איזו דלת נפרצה, איך היא נפרצה, מתי פרצו אותה, מי פרץ אותה ועוד. בשלב השני, אחרי שפירקנו את הטקסטים המרובים, אפשר להתחיל להרכיב טקסט מאוחד שמשווה בין הפרטים השונים: אין צורך לקרוא שוב ושוב שהדלת הראשית נפרצה רק כדי להגיע בפסקה השלישית למידע חדש – שהיא נפרצה תוך כדי פציעת השוטרים”.

 

כמובן, ניסיון זה לפרק ולהרכיב מחדש פרטי מידע נוגע באחת הבעיות המדעיות המורכבות במדעי המחשב – ובכלל: עיבוד שפה טבעית. “בעיבוד שפה ובסמנטיקה יש תיאוריות לשוניות שמגדירות קשרים פורמליים וכך מפרקות כל טקסט לרכיבי משמעות, כמו שאנחנו מפרקים משפט לנושא, נשוא ומושא”, אומר פרופ’ דגן. “אלא שהתיאוריות האלה מורכבות מאוד, וקשה לבקש מאנשים להכין דוגמאות של פירוק פורמלי של המשמעות, שמהן אלגוריתמים של למידת מכונה ילמדו לנתח טקסטים לפי קשרים פורמליים. החידוש שלנו הוא בגישה האינטואיטיבית, שמבוססת על השפה עצמה. אנחנו מנסים לפרק טקסטים לאוסף השאלות והתשובות שהטקסטים עונים עליהן. לדוגמה, במקום לכתוב את המשפט ‘עודד כרמלי מראיין את עידו דגן לאתר הקרן הלאומית למדע’, אפשר להבין אותו באמצעות אוסף של שאלות – מי ראיין, מי רואיין ולאן מיועד הריאיון. לכן אנחנו מראים לאנשים בשר ודם טקסטים ומבקשים מהם לשאול את כל השאלות שאפשר לחלץ עליהן תשובות מהטקסט הזה. אחר כך אנחנו מעבירים את הניתוח הלשוני הטבעי ללמידת מכונה, כדי שהמחשב ילמד לפרק טקסטים בצורה דומה”.

אלגוריתם השאלות והתשובות של פרופ’ דגן הוא הצעד הראשון בדרך לייצוג של טקסטים מרובים. בהמשך, עולה הצורך לתקשר את הייצוג הזה בדרך  יעילה לקורא, כדי לעזור לו לנווט בים הטקסטים. “היישום בה”א הידיעה של מידע כתוב הוא מנועי חיפוש. מבחינה יישומית, שם נמצא הכסף הגדול של מהפכת המידע. אלא שהטכנולוגיה לא התפתחה כדי לעזור לנו להשתלט על המידע. אין הבדל בין חיפוש מידע בגוגל היום לבין חיפוש במנוע כמו אלטה ויסטה לפני 30 שנה: עדיין יש לנו תוצאות חיפוש ועלינו לעבור על התוצאות אחת-אחת. בעצם מופיעה רשימה של טקסטים, את הראשון אנחנו קוראים, על השני אנחנו מדפדפים ובשלישי אנחנו כבר נשברים. לאחרונה החלה גוגל להציג בחלק מהחיפושים בוקסות עם פרטי מידע משולבים, אבל לרוב אנחנו עדיין צריכים לעבור על הטקסטים בזה אחר זה. אנחנו עובדים על פיתוח תמצות לחיפוש של טקסטים”.

היישום החשוב ביותר של מידע כתוב הוא מנועי חיפוש. אלא שהטכנולוגיה לא התפתחה כדי לעזור לנו להשתלט על המידע. אין הבדל בין חיפוש מידע בגוגל היום לבין חיפוש במנוע כמו אלטה ויסטה לפני 30 שנה

מאחר שמשתמשים שונים מחפשים פרטי מידע שונים, ובהיקפים משתנים, פרופ’ דגן מפתח תמצות אינטראקטיבי – שסוקר ומעמיק מידע לפי הצורך והעניין. “נניח שאתה מחפש מידע על מיורקה. המערכת שלנו מציגה לך תמצית – ואתה משתכנע לטוס למיורקה. עכשיו התמצית כבר לא מספיקה. עכשיו אתה רוצה לדעת על מלונות בחוף מסוים, אבל אתה לא רוצה לקרוא שוב על מזג האוויר במיורקה בסתיו, לכן המערכת תצבע לך את מה שכבר קראת ותחסוך לך את הקריאה השנייה – כשהיא מאחדת, מסדרת ומייצגת את כל הטקסטים הרלוונטיים ברשת לפי הניווט שלך”.