ללמד מחשבים להבין שפת אנוש
כנס גדול בתחום המחשוב שנערך באוניברסיטת בר-אילן הראה את חזית החידושים המחקריים בנושא שכללו: הבנת שיחה ברמה אנושית, פענוח נושאי העניין האנושיים ואלגוריתמים למרכזיות שירות
עוד כותרות ב-nrg:
- כל התכנים הכי מעניינים - בעמוד הפייסבוק שלנו
הכנס "עיבוד סמנטי של טקסטים – מבט לתעשייה" אורגן במסגרת פרויקט מחקרי גדול במימון של 3.5 מיליון אירו מטעם האיחוד האירופי, הנקרא EXCITEMENT, שאותו יזם פרופסור דגן. הפרויקט כולל ארבע קבוצות מחקר ושלוש חברות תעשייתיות, מגרמניה, איטליה וישראל. לדברי פרופ' דגן "במסגרת הפרויקט פותחה טכנולוגיה גנרית להבנת משמעות טקסטים שהועמדה כקוד פתוח לרשות קהילת המחקר. מטרת האלגוריתמים והמערכות שפותחו היא לאפשר למחשב לעבור מבחנים הדומים לשאלות הבנת הנקרא שניתנות ללומדים של שפה חדשה.

לדוגמא, בהינתן טקסט המתאר תרופה ש"נלחמת" במחלה, על המחשב לדעת לענות על שאלה כגון "איזו תרופה מטפלת במחלה?". לצורך כך על המחשב להבין שבהקשר כזה "להילחם" במחלה פירושו "לטפל" בה, למרות שבאופן כללי המשמעויות של מילים אלו מנוגדות". פרופ' דגן הוסיף כי "האתגרים המרכזיים במחקר הינם כיצד ניתן לזהות בשפה טבעית משמעות מסוימת אשר יכולה להיאמר במגוון עצום של דרכים, וכיצד ניתן להסיק משפט מסוים על סמך משפט אחר או כיצד ניתנת היכולת למחשב לעבור מבחני הבנת הנקרא מסוג המאפשר למחשב לבצע משימות רבות הדורשות הבנה מעמיקה של טקסטים, כגון מענה על שאלות מורכבות, תמצות נבון של מסמכים וניווט מודרך במידע טקסטואלי רב".
לדברי פרופ' דגן "מטרת הכנס הייתה לסקור תמונה רחבה של הפיתוחים החדשניים ביותר בתעשייה ולהציג ידע ייחודי שפותח באקדמיה ורלוונטי ליישומים תעשייתיים. בכנס הציגו חוקרים ממרכזי המחקר והפיתוח הישראלים של החברות המובילות בעולם, ובהן גוגל, יבמ, יאהו, אינטל, ג'נרל מוטורס, תומסון-רויטרס ו-EMC, חברות ישראליות מובילות כנייס ו-Outbrain ומספר חברות הזנק".
לדעת לענות במדויק לשאלה
ד"ר זיו בר-יוסף מחברת גוגל הציג בכנס את הפיתוחים מאחורי תוצאות ה-Live Results, שמנסות לתת בראש העמוד תשובה ישירה ועדכנית לזמן אמת לשאלה של המשתמש, וכך לחסוך את הבדיקה באתרים ברשימת התוצאות הרגילה שבהמשך הדף. דוגמא פשוטה היא צפייה בתחזית מזג האוויר. אם בעבר הסתפקה גוגל בהפניה לאתרי מזג אוויר ייעודיים, כיום החיפוש "מזג אוויר תל אביב" יציג בצורה גרפית יפה את התחזית ליממה הקרובה. לעומת זאת, החיפוש "מזג אוויר תל אביב מחר" ייתן את התחזית של יום המחרת. מעבר לדוגמא זו, שהיא פשוטה יחסית, האלגוריתמים שפותחו בגוגל מיועדים להבין שאלות מסובכות בהרבה, ולהתמודד עם העובדה שבשפה טבעית כל שאלה יכולה להישאל במגוון עצום של צורות (אם כי לא כל היכולות האלו זמינות לחיפושים בעברית בארץ).
לדבריו שאלות המשתמש מנותחות ומטופלות על ידי "מנוע הידע" של גוגל, שמפותח על ידי מאות מהנדסים ברחבי העולם. המנוע יכול לענות ישירות על מגוון גדול של נושאים, כגון תוצאות או מועדי משחקי ספורט, שאלות על מניות, סרטים, המרת יחידות ועוד. המנוע ממפה את מגוון שאלות המשתמש לנתונים ב"גרף הידע" העצום שגוגל בונה ומרחיבה כל הזמן, ואשר כולל כיום 18 מיליארד עובדות על ישויות בעולם.
הבנת השאלות נשענת על דקדוקים מיוחדים שנלמדים באופן אוטומטי וממפים את שאלות המשתמש בשפה חופשית למבנה המדויק של גרף הידע. כמו כן, התוכנה משתמשת בהקשרים של ידע נוסף על המשתמש, כגון מיקום גיאוגרפי, העדפות, פרופיל אישי זמין וכו', על מנת לפרש טוב יותר את כוונות השואל ולהתגבר על שאלות רב-משמעיות. יכולות אלו מפותחות עבור 40 שפות שונות כדי לתמוך בחלק גדול ככל האפשר של משתמשי גוגל.
סיוע בוויכוחים אמיתיים
פרויקט מעניין ושאפתני במיוחד הוצג בכנס על ידי חוקרים ממרכז המחקר של יבמ. ליבמ מסורת של פרויקטים מאתגרים בתחום הבינה המלאכותית, כאשר שני הפרויקטים הגדולים הקודמים היו תוכנת השח "כחול עמוק" שניצחה את אלוף העולם גרי קספרוב, ולאחר מכן תוכנת "ווטסון" שהשתתפה בשעשועון שאלות הטריוויה הטלוויזיוני המפורסם ביותר בארצות הברית, Jeopardy, וניצחה בו את שני המשתתפים המצליחים ביותר בעשרות השנים האחרונות. הפרויקט שהוצג בכנס צמח ביוזמה של אנשי קבוצת המחקר ביבמ בישראל, כמענה לקריאה של החברה להציע רעיונות לאתגרים השאפתניים הבאים.

בפרויקט החדש מפתחים טכנולוגיה לתמיכה בדיונים וויכוחים (debating technology), שבהם נדרש לקבל החלטה בנושאים שנויים במחלוקת. נושאים אופייניים יכולים להיות מעבר לתזונה צמחונית, איסור על משחקי וידאו אלימים לקטינים, חתימה על הסכם שיתוף פעולה עסקי בין חברות וכד'. בהינתן שם של נושא בוויכוח, התוכנה סורקת כמויות עצומות של מסמכים, לדוגמא את מאגר ויקיפדיה כולו, ומוצאת טיעונים בעד ונגד הנושא הנדון, כגון השפעות בריאותיות ושיקולים אקולוגיים ומוסריים של צמחונות. מעבר לכך, התוכנה מאתרת את התימוכין שמובאים לכל טיעון, כמו מחקרים מדעיים ודעות של מומחים.
לדברי ד"ר נועם סלונים, שהיה מיוזמי הפרויקט, מטרתם הינה לפתח "מנוע מחקר" (research engine), שלעומת מנוע חיפוש רגיל (search engine) יוכל לסייע לאנשים לקבל החלטות מורכבות ומבוססות יותר, על סמך המידע הממוקד שהמנוע יספק להם מכמויות עצומות של טקסטים.
להבין את הלקוח יותר טוב
בניגוד לפרויקטים של גוגל ויבמ, שמנסים לאתר מידע ממוקד, תחום מחקר חשוב אחר מנסה לתת בבת אחת תמונה כוללת על כמויות עצומות של תכנים שכולם רלוונטיים לצורך מסוים. הקשר אחד שבו נדרשות יכולות כאלו הוא התכנים המגיעים למרכזי שירות לקוחות של חברות גדולות, בשיחות טלפון, צ'אט ואימייל, והתייחסויות לחברות אלו במדיה החברתית. למנהלי השירות בחברות כאלו חשוב מאוד להבין על מה הלקוחות מתלוננים, כדי לשפר את השירות ואת תדמית החברה.
לשם כך יש צורך לנתח באופן אוטומטי עד עשרות אלפי מסרים של לקוחות ולהציג בצורה מתומצתת וגרפית את עיקרי הנושאים שעלו בהן. לדוגמא, בחברת רכבות נרצה לזהות ולדווח על כמות התלונות בנושאים כמו מזון לא טעים או מזון יקר בקפיטריה, חוסר מקום לרגליים, שירות לא אדיב וכד'. טכנולוגיות לבעיה זו הוצגו על ידי החברות התעשייתיות המשתתפות בפרויקט EXCITEMENT – ובהן חברת נייס הישראלית, וכן על ידי מרכז המחקר בבאר שבע של חברת EMC האמריקאית.
לדעת מה מעניין
סוג מעניין אחר של טכנולוגיות מנסה להבין "מה מעניין?". בחברת Viacess Orca, השייכת כיום לקבוצת התקשורת פרנס טלקום, פיתחו את "מדד הדרמה" (Drama Meter), שחוזה עד כמה ידיעה מסוימת תיתפס כדרמטית ותזכה להרבה צפיות, לייקים ושיתופים. מסתבר שהגורם השכיח ביותר לדרמטיות הוא תוכן עצוב, כגון ידיעות על אסונות או מאורעות טרגיים, שכנראה מספק צורך אנושי לצרוך מידע כזה. התוכנה שפותחה בחברה מזהה נושאים כאלו, וכן נושאים נוספים, כמו ידוענים זוהרים ורשימות של "עשה ואל תעשה", שזוכים גם הם לעניין רב.
בחברת ההזנק טייקי מזהים מהם הנושאים החמים והמגמות הבולטות ברשתות החברתיות, ומשתמשים במידע כדי לשפר את ביצועי המפרסמים באינטרנט בזמן אמת. בחברה המצליחה Outbrai, שמספקת את הקישורים של "כתבות נוספות שעשויות לעניין אותך" באתרים רבים בארץ ובעולם, מעוניינים כעת להתמודד עם רמות הבנה מעמיקות יותר של התכנים המעניינים שאליהם הם מפנים. לדוגמא, יש צורך לדעת מתי הפנייה לתוכן מסוים עשויה להיות פוגענית, ולכן להימנע ממנה, כמו הפנייה למאמר על עצות לדייטים מתוך כתבה על תקיפה מינית.
הצגת הפרויקטים של מרכזי המחקר בארץ
מרכזי מחקר ישראליים של חברות הענק העולמיות יאהו, ג'נרל מוטורס ואינטל הציגו גם הם בכנס. חוקרים מחברת יאהו הציגו טכנולוגיות שמשלבות בין חוכמת המחשב לחוכמת האדם בשירות התשובות האנושי Yahoo Answers. בשירות זה אנשים שואלים שאלות בכל נושא אפשרי ומקבלים עליהן תשובות מאנשים אחרים שפעילים באתר. הטכנולוגיות שהוצגו מנתחות את תוכן התשובות האנושיות וממיינות אותן בסדר אופטימלי, כך שמרבית המידע יימצא בתשובות הראשונות וכל תשובה תוסיף מידע רב ככל האפשר ביחס לתשובות הקודמות.
אלגוריתמים נוספים מזהים
נשיא אוניברסיטת בר- אילן הרב פרופ' דניאל הרשקוביץ אמר בכינוס כי "אחד האתגרים לאינטליגנציה מלאכותית היא ליצור מחשבים היודעים לחקות חשיבה והבנה אנושית. הבנה כזאת היא לא רק הבנה מלאה של הטקסט, כי גם אצל בני האדם הדברים הינם מעבר להבנה מלאה של טקסט וישנם רבדים שלא נאמרים – אך הם חשובים לא פחות".
כאמור הכנס שאורגן על ידי המחלקה למדעי המחשב באוניברסיטת בר-אילן העיד על הצמיחה המהירה של תחום עיבוד השפות הטבעיות, וסיפק תמונה ייחודית על המגוון הרב של יישומים שהוא מאפשר. מרבית החברות הדגישו שהן שוכרות עובדים המתמחים בתחום זה, ואין ספק שעוד נשמע רבות על חידושים מלהיבים שיאפשרו למחשבים להבין יותר ויותר את שפת בני האדם.