שודרג משמעותית מנוע החיפוש של יד ושם

המנוע החדש מאפשר חיפוש טוב יותר של נספים ומזהה כפילויות וטעויות שקיימות במאגר הנצחת השמות של הארגון

אסף גולן | 8/5/2016 10:36
ביום השואה, השיק "יד ושם" גרסה מחודשת של מנוע החיפוש בארכיב קורבנות השואה, תוך שימוש באלגוריתם שפותח בטכניון ובמעבדות HEWLETT-PACKARD. האלגוריתם מאפשר איתור של רשומות לא רק על פי הקורבן הבודד אלא גם ברמה של משפחה גרעינית, משפחה מורחבת, קהילה וכו'.

כל זאת על פי דרישות החיפוש. האלגוריתם גם מצמצם משמעותית את הכפילויות הרבות שהתקיימו במאגר. מאגר המידע על קורבנות השואהמבוסס במידה רבה על דיווחי ניצולים, שתועדו בשנות החמישים ואילך באופן ידני ואחר כך במחשב. אחת הבעיות במאגר היא דיווחים כפולים, כלומר כמה דיווחים שונים על אותו אדם. לתופעה זו סיבות רבות ובהן שימוש בשפות שונות (עברית, גרמנית, פולנית ועוד), רמות שונות של זיהוי גיאוגרפי (שם כפר לעומת שם מחוז), טעויות בתאריכי לידה ומידע מעורפל לגבי גורלם של קורבנות שואה.

 
צילום מסך
מנוע החיפוש שודרג צילום מסך


בתהליך זה העדיפו אנשי "יד ושם" את האפשרות של כפילות על חוסר, כלומר על העדרו של קורבן מן המאגר.
כתוצאה מכל אלה נוצרה רמת כפילויות גבוהה; על פי ההערכות, כ-40% מבין 8 מיליון הרשומות שבמאגר הן כפילויות.


- כל התכנים הכי מעניינים - בעמוד הפייסבוק שלנו

מטרת הפרויקט הנוכחי היתה לצמצם את הכפילויות בלי ליצור חוסר. האמצעי: שימוש באלגוריתם מתקדם בתחום של הפרדת ישויות Entity Resolution) ) לצורך זיהוי רשומות שונות המתייחסות לאותו אדם. האלגוריתם, הנקרא MFIBlocks, פותח על ידי בתיה קניג בהיותה דוקטורנטית בקבוצת המחקר של פרופ' אביגדור גל מהפקולטה לתעשייה וניהול בטכניון. בניגוד לאלגוריתמים אחרים, שבהם נקבע מַפתח-הזיהוי של היישות על ידי מומחים או תוך שימוש בלמידה ממוחשבת, כאן הוא נגזר מהנתונים עצמם, כלומר אינו נקבע מראש.

את המחקר הנוכחי הוביל מטעם HEWLETT-PACKARD  ד"ר תומר שגיא, בוגר הטכניון (תואר ראשון ומסלול ישיר לדוקטורט), העובד כיום כחוקר במעבדת המחקר של HEWLETT-PACKARD  הממוקמת בקמפוס הטכניון. ד"ר שגיא התאים את האלגוריתם למנוע החיפוש של השואה יד ושם, והתוצאה: שפע של מידע לגבי רשומות כפולות במאגר, לרבות זיהוי במקרים שבהם מומחי הארכיב של יד ושם לא זיהו את הכפילות. ראוי לציין כי הפרויקט נעשה על ידי HEWLETT-PACKARD  עבור יד ושם ללא תמורה כספית.

מאמר המתאר את האלגוריתם פורסם בעיתון מוביל בתחום של ניהול מידע בשנת 2013 ומשמש עד היום כבסיס למחקרי המשך ולשיתופי פעולה עם התעשייה בפרויקט מגנ"ט. קניג, שסיימה את הדוקטורט, נמצאת כיום בפוסט-דוקטורט בקבוצת המחקר של פרופ' בני קימלפלד (הפקולטה למדעי המחשב בטכניון). מאמר המתאר את הפיתוח החדש עבור יד ושם יוצג בסוף חודש יוני בSIGMOD הכנס המחקרי המוביל בתחום ניהול מידע.
היכנסו לעמוד הפייסבוק החדש של nrg

כתבות נוספות שעשויות לעניין אותך

המומלצים