החיפוש המושלם

גוגל היא השער האנושות למידע מיידי, ואפילו היא פתרה רק חמישה אחוזים משאלת החיפוש. איך ייראה החיפוש בעתיד, ומי יעשה לגוגל מה שגוגל עשתה למנועי החיפוש שהיו לפניה? • פרק מספרו של ג'ון בטל, "החיפוש"

ג'ון בטל |

ומה הלאה?

עכשיו כשגוגל היא חברה ציבורית שכבר אינה נהנית מהילה של קדושה, עכשיו כשכמעט כל חברת מדיה וטכנולגיית מידע גדולה בעולם הכריזה שהחיפוש מהותי לעתידה, מה הצעד הבא? האם משהו יוכל להשתוות למכת הברק התרבותית שחוללה הרשת המוקדמת, או לתחושת ההתגלות שחשנו בפעם הראשונה שהשתמשנו בגוגל?

כמובן שכן. בתחום החיפוש, כמו ברשת בכלל, הדברים המעניינים ביותר עוד לא קרו. כפי שכל מהנדס בתחום ישמח להסביר, החיפוש הוא שאלה שרק חמישה אחוזים ממנה נפתרו, כלומר לא הגענו אפילו לשיעור דו-ספרתי מסך כל הפוטנציאל. והחיפוש עצמו משתנה בקצב מהיר: בשנה האחרונה צצו חידושים חשובים מדי שבוע, אם לא מהר יותר, ומכאן שניסיונות לחזות את העתיד הקרוב נדונו כמעט בוודאות לכישלון.

הבה נדמיין, אם כך, עולם של חיפוש מושלם. איך ייראו הדברים אז? דמיינו את האפשרות לשאול כל שאלה ולקבל לא רק תשובה מדויקת, אלא את התשובה המושלמת עבורכם – תשובה שמתאימה להקשר ולכוונה של השאלה שלכם, תשובה שהדיוק המופלא שלה מתבסס על הידיעה מי אתם ומדוע אתם שואלים. התשובה הזאת מסוגלת לכלול את כל הידע הזמין לחיפוש בעולם – בין אם מדובר בטקסט, וידאו או אודיו. היא מסוגלת להבחין בין בקשות ישירות ("מי היה נשיאה השלישי של ארצות הברית?") לבין שאלות מורכבות יותר ("באילו נסיבות הצהיר הנשיא השלישי של ארצות הברית על שינוי עמדתו ביחס לעבדות?").

למרות שלרוב השאלות אין תשובה אובייקטיבית מושלמת, החיפוש המושלם היה מספק את התשובה המושלמת לכם, כפי שאתם קובעים אותה – בצורת דוח, אולי, או סיכום של הדעות והמגמות העיקריות. לחיפוש המושלם יש גם זיכרון מושלם. הוא יודע מה חיפשתם ויודע להבדיל בין מסע של גילוי, שבו מחפשים דבר חדש, לבין שיחזור, שבו רוצים למצוא משהו שכבר נמצא קודם. וחשוב לא פחות, הוא יודע להבדיל בין מסמך לאדם, ולהציע שכדי לקבל את התשובה המושלמת עדיף לדבר עם אדם מסוים במקום לקרוא מסמך מסוים.

בקיצור, מנוע החיפוש של העתיד אינו מנוע החיפוש שאנו מכירים היום. הוא דומה יותר למתווך אינטליגנטי, או כפי שאמר לי לארי פייג', לספרן האמון על כלל הידע האנושי.

זה שונה מאוד ממנוע החיפוש הטיפוסי של היום, אבל הדיון בשירות כזה אינו נחשב עוד למדע בדיוני. זו המטרה המוצהרת של כל השחקנים הגדולים בתחום החיפוש כמעט, בין אם מדובר ב-IBM, במיקרוסופט, בגוגל או בעשרות חברות אחרות.

אבל איך מגיעים לכך, ואם נגיע, כיצד עשוי העולם להשתנות? מנוע חיפוש כזה מותנה בפתרונן של עשרות בעיות מיחשוב קשות במידה שלא תיאמן. הבה נבחן כמה מהן.

מייסדי גוגל, לארי פייג' וסרגיי ברין. צילום: בן מרגוט, AP בן מרגוט, AP

חיפוש בכל מקום

ראשית, יש להגיד בבירור: בעתיד הקרוב, החיפוש יעבור ממקורותיו שברשת מבוססת המחשבים האישיים ויתפשט לשלל מכשירים. מגמה זאת כבר החלה בטלפונים סלולרים ומחשבי כף יד; היא צפויה להמשיך, כמו וירוס, עד שהחיפוש יובנה אל תוך כל מכשיר דיגיטלי הנוגע לחיינו. הטלפון, המכונית, הטלוויזיה, מערכת הסטריאו, כל חפץ עם שבב אלקטרוני והיכולת להתחבר – כולם יכללו אופציית חיפוש מודע-רשת.

זאת לא פנטזיה; זהו היגיון פשוט. עם הפיכתם של תחומים רחבים יותר ויותר מחיינו למחוברים, דיגיטליים וממוחשבים, נזדקק לממשקי ניווט והקשר כדי להתמודד עם כולם. מה הוא TiVo, אחרי הכול, אם לא ממשק חיפוש לטלוויזיה? iTunes? חיפוש מוזיקה. קופסת התצלומים שמתחת למיטה שלכם וערימת התקליטורים המתנדנדת שליד הסטריאו? עתיקות אנלוגיות הממתינות ללידה מחדש בפורמט דיגיטלי. כיצד תוכלו למצוא תמונה שלכם ושל החבר/ה על חוף ביוון מלפני חמש עשרה שנה? או שתסרקו אותה, או שתאבדו אותה בערפילי השכחה האנלוגית. אבל לילדים שלכם לא יהיו בעיות כאלה; התצלומים שלהם כבר לגמרי דיגיטליים ומוטי חיפוש, עם תגיות מטה-מידע מוצמדות מראש (תאריך, שעה, ובקרוב גם הקשר).

אבל מסע הפנטזיה הדיגיטלי לא עוצר כאן. זה אולי נשמע מופרך,

אבל בעתיד, המזוודות שלכם יהיו בנות-חיפוש. בתוך שני עשורים, כמעט לכל דבר בעל ערך תוצמד תגית אלקטרונית זעירה, שתדע לומר, בתגובה לשאלת חיפוש המועברת אלקטרונית, "אני כאן, בדיוק כאן, וזה מה שעשיתי מאז הפעם האחרונה שנפגשנו". במקום מדבקות הברקוד שמודבקות כיום על המזוודות בשדה התעופה יבוא שבב רדיו זעיר ואלחוטי (RFID). המזוודות אבדו? מה פתאום. לא כשאפשר למצוא אותן בגוגל בזמן אמת.

תחשבו על זה: חפשו בגוגל את הכלב שלכם, הילד, הארנק, הסלולרי או המכונית. מהר מאוד הופכת הרשימה לאינסופית. בכל מקום שבו יכול להיות שבב יכול להיות חיפוש וכנראה אכן יהיה. אבל כדי שהחיפוש המושלם יפעל, החיפוש צריך להיות בכל מקום, מחובר לכל דבר.

פירוש הדבר, בין השאר, הוא שעל החיפוש לפתור בעיה שעד כה נראתה בלתי פתירה: הרשת הבלתי נראית. כפי שגארי פרייס וכריס שרמן כתבו בספר בשם זה, הרשת הבלתי נראית כוללת כל דבר שזמין דרך הרשת אבל עדיין לא נמצא בטווח מנועי החיפוש: מאגרים עמוקים של מידע – כמו מערכת הספריות של אוניברסיטת קליפורניה או שירות החדשות והתקדימים המשפטיים של "לקסיס-נקסיס" (LexisNexis) – סגורים בפני החיפוש מסיבות מסחריות או טכנולוגיות. ולמרות שתוכן הדיסק הקשיח שלכם הוא דיגיטלי, סביר שלא נערך לו אינדקס והמידע שבו לא הועבר למנוע חיפוש – עדיין. כפי שסיפרתי קודם, כל מנועי החיפוש הגדולים השיקו יישומים לחיפוש במחשב האישי, היוצרים אינדקס של הדיסק הקשיח ומגישים תוצאות ממש כפי שהן מוצגות עבור חיפוש ברשת. לפני ישומי החיפוש האלה, המחשב האישי היה חלק מהרשת הבלתי נראית. זה כבר איננו המצב.

גם התכנים ברשת הם ברובם בלתי נראים, ותקועים בעולם האנלוגי. כמעט מאה מיליון כותרי ספרים קיימים בעולם, אבל רק כמה מאות אלפים זמינים לגלישה, נכון לזמן כתיבת הספר. לכך יש להוסיף את הארכיב העצום של סרטים, טלוויזיה וכתבי עת הקיימים רק בפורמט אנלוגי ואינם בני-חיפוש.

תודות לנאפסטר, כבר התחלנו בפתרון הבעיה עבור מוזיקה. כשהושקה נאפסטר, מיליוני אנשים העלו עותקים של המוזיקה האהובה עליהם לרשת. הפתרון לשאר המדיה האנלוגית עשוי להיות דומה. לכל ספר, סרט, ותוכנית טלוויזיה יהיה מישהו, אי שם, שימצא סיבה להעלות אותם לרשת (בהנחה שתימצא דרך לפתור את שאלות זכויות היוצרים). פרויקטים ארכיוניים אדירי ממדים כמו גוגל פרינט, ארכיון האינטרנט ושירות החיפוש בגוף הספר של אמזון עשו דרך ארוכה לקראת פתרון חלק מן הבעיה הזאת, אבל נותרה עדיין דרך ארוכה מאוד, וההיגיון הפשוט מורה שאף גוף בודד לא יכול (ולא אמור) לארכב את סך המידע האנושי. הדרך הטובה ביותר להפוך את העולם לבר-חיפוש היא לאפשר לעולם לעשות זאת.

לתופעה הזאת כינויים רבים, אבל אני מעדיף לקרוא לה כוח הרבים. בסופו של דבר, כל דבר בעל ערך – כולל המזוודות – יהיה מחובר לרשת, משום שחיבור הוא חלק מהגדרת הערך בעולם מקוון. כשכוח הרבים ישלב ברשת את רכושה של האנושות, מנועי החיפוש ישלבו את התוכן החדש הזה באינדקסים שלהם, ויקרבו את העולם אל אפשרות החיפוש המושלם.

צילום: קרל דווייר קרל דווייר

זרם ההקלקות

כל המידע הזה נחוץ לחיפוש המושלם, אבל הוא חסר כל משמעות אם המנוע אינו מבין אותך – את העדפותיך, את נטיותיך ואת השריטות שלך. כיצד יוכל מנוע חיפוש להיות זמין לכול וגם אישי?

פתרון לבעיה הזאת טמון בזרם ההקלקות. הפעולות שאנו מבצעים בעולם הדיגיטלי מותירות סימנים לכוונות שלנו, והסימנים האלה יוצרים עקבות שניתן לזהות. סך כל העקבות האלה יוצר את מאגר המידע של הכוונות עליו דיברתי בפרק הראשון, ואלה יהפכו עם הזמן למכרה זהב של רלבנטיות.

זרם ההקלקות הוא בעצם סיפור. אנחנו אוהבים סיפורים; הם הדרך שבה אנו מבינים את העולם. לו רציתי לספר לחבר מה קרה במשחק הבייסבול אתמול בערב לא הייתי שולח לו את טבלת התוצאות והנתונים. הייתי אומר משהו כמו "נראינו רע מאוד בשני הסיבובים הראשונים. המגיש החדש שלנו היה לחוץ והיה לנו רצף טעויות שגרם לפער של שלוש ריצות עד הסיבוב השני. אבל אז סנואו נתן מכה של שלוש ריצות שהחזירה אותנו למשחק, ובסיבוב החמישי עשינו עוד שלוש. משם והלאה ה-Giants שלטו." סיפור הוא הדרך שלנו לקחת תהליך ולהפוך אותו נייד, כדי שניתן יהיה לחלוק אותו עם אחרים.

הנה, אם כן, סיפור על זרם הקלקות אחד. בקיץ 2004 חקרתי את הביטוי "להתגרות בגורל" לצורך כתיבת פרק 9 של הספר "החיפוש": "ההנפקה". היתה לי תחושת בטן שהוא יתקשר להנפקה של גוגל ולתרבות המהנדסים של החברה. הייתי בטוח שמקור הביטוי במיתולוגיה היוונית או הרומית, הוכחה לכך שבני אדם התעמתו תמיד אם שאלות של דטרמיניזם, אלים, רצון חופשי וייעוד (נזכרתי בסיפור על אודיסאוס שקשר עצמו לתורן הספינה כדי לא להתפתות לשירת הסירנות). חייב להיות סיפור מעניין מאחורי "להתגרות בגורל".

פתחתי את גוגל והתחלתי לחטט. התחלתי בחיפוש הפשוט "להתגרות בגורל", אבל התוצאות היו רחבות הרבה יותר מדי (אם כי היה מעניין לראות כתבה מחדשות גוגל על אולימפיאדת אתונה). התקשרתי לאמי, מורה לאנגלית עם ידע רחב בהרבה משלי במיתולוגיה, והיא הזכירה לי ששייקספיר התייחס לגורל לעיתים קרובות ביצירותיו. חמוש בפיסת הידע החדשה הזאת חזרתי לגוגל וכתבתי "גורל מיתולוגיה".

עליתי על משהו. מצאתי אתר שתיאר את שלוש אלות הגורל היווניות, ובעזרת מידע משם, חיפשתי ומצאתי בגוגל מידע רב עליהן. אבל לא יכולתי למצוא את התשובה המושלמת: מי הראשון שהתגרה בגורל? אולי מישהו טבע את הביטוי בהקשר מוכר, חשבתי. או אולי אין מיתולוגיה מהסוג שחיפשתי.

פתאום נתקפתי תחושת דז'ה וו: נזכרתי שכמה שבועות קודם לכן ראיתי אתר שיכול לסייע רבות בחיפוש הזה. במהלך חיפוש קודם נתקלתי במקור נהדר לציטוטים וקטעים ספרותיים. לרוע המזל, לא שמרתי את הכתובת. אם היתה לי גישה לזרם ההקלקות הזה – היסטוריית החיפוש שלי – הייתי מוצא אותה במהירות. נאלצתי להתחיל מחדש.

למרות שמעולם לא מצאתי שוב את אתר הציטטות ההוא, מצאתי את עצמי במסע נהדר, מטקסטים פילוסופיים ודתיים של תחילת המאה העשרים ועד פרשנות מלומדת של הגורלות ותפקידם בטרגדיה היוונית המוקדמת. תוך כדי כך ריעננתי את הידע שלי בכתבי הומרוס, שייקספיר וג'ויס. היה כיף. ובסופו של דבר הגעתי להבנה טובה בהרבה של השאלה המקורית שלי, שהיתה זאת: למה לעזאזל בחרה גוגל לפתוח את הליך המכירה הפומבית של המניות שלה ביום שישי ה-13? למה להתגרות בגורל?

מצאתי תשובה סובייקטיבית מאוד משלי. כפי שכתבתי בפרק תשע, תשובתי היא שמהנדסים, כמו פילוסופים יוונים, לא מאמינים שניתן להתגרות בגורל – אבל לא הגעתי למסקנה הזאת על ידי בחירה באחת מעשר התוצאות הראשונות שהעלה החיפוש הראשון שלי בגוגל. מצאתי אותה בעזרת מסע, שאותו, דרך הסיפור שלי, גם אתם עברתם כעת.

בעולם החיפוש המושלם ניתן יהיה אולי לקחת את זרם ההקלקות של המסע הזה ולהפוך אותו לאובייקט – רצף סיפורי, משהו שאפשר לאחוז בו ולשמור אותו ולהפנות אליו, כלי עזר שיסייע לי לספר שוב ושוב כיצד הגעתי לתשובה. עקבות בחול שאחרים יוכלו לעקוב אחריהן, ולבדוק כיצד הגעתי למסקנות שלי.

העקבות האלה אינם רק סיפורים שאחרים יקראו; הם יכולים גם להיות חומר שייאסף בידי זחלני מנועי החיפוש ויספק להם ידיעה מדרג חדש לגמרי על האופן בו אנשים לומדים. במצטבר, זרמי ההקלקות האלה יספקו ידע על האופן בו אנשים משתמשים ברשת, שיהיה מורכב ומדויק הרבה יותר מהמהפכה מבוססת-הקישורים שחולל אלגוריתם פייג'ראנק (PageRank) של גוגל.

"כפי שאנו עשויים לחשוב", המסה המפורסמת שפירסם ונבר בוש במגזין "אטלנטיק" ב-1945, סיפרה על ה"ממקס" (Memex), מכונת חישוב שיצרה בשדה המחקר האקדמי משהו מקביל לזרמי הקלקות. במאמרו תיאר בוש את הבעיה הניצבת בפני המין האנושי: הידע וההשכלה הפכו סבוכים כל כך, מרובי שכבות כל כך, בלתי יעילים כל כך, שכמעט בלתי אפשרי לאדם להיות רב תחומי כמו אריסטו בזמנו. בקיצור, יש פשוט יותר מדי ידע מכדי שמישהו בימינו יוכל להיות איש רנסנס.

בוש תיאר את הממקס כמכונה העוקבת אחר העקבות שמשאיר חוקר בגוף הידע בדרכו אל תגלית, ומאחסנת את הסימנים האלה כך שהחוקר הבא יוכל ללמוד מהם ולבנות עליהם.

זרמי ההקלקות הם הזרעים שיבשילו וייצרו את הממקס של התרבות שלנו – אקולוגיה חדשה של ידע פוטנציאלי – והחיפוש יהיה האת שיבקע את אדמת האינטרנט. מנועים שישתמשו בזרמי הקלקות יגרמו לחיפוש מבוסס-ניתוח הקישורים (כמעט כל החיפוש המסחרי של ימינו) להיראות כמו שריד מעידן הקרטיקון התחתון. הדגים הראשונים שהצמיחו רגליים מצויים כבר סביבנו: כמעט כל מנוע חיפוש מאפשר היום שמירת היסטוריית חיפוש, ועשרות כלים מעניינים שמנסים להבין את התבניות שאנו המחפשים יוצרים באינטרנט, יצאו לאחרונה לשוק. עלינו לאגור את המסה הקריטית של זרמי הקלקות שעליהם יוכל הדור הבא להיבנות, וכפי שציינתי בפרק 8, "חיפוש, פרטיות, ממשלות ורשע" , היא לא בהכרח תיאגר בהסכמתנו. אבל למרות החששות, אנו כבר יוצקים לכך את היסודות.

צילום: דיויד גוליילמו דיויד גוליילמו

מקומי ואישי

בעוד שמנועי חיפוש בני הדור השלישי טרם הופיעו, כבר קיים השלב הראשוני של החיפוש המותאם אישית, מה שמוכר כחיפוש מקומי. הרעיון שמאחורי חיפוש מותאם אישית פשוט למדי: ככל שמנוע יידע יותר על המשתמש, כך יוכל לפסול יותר תוצאות בלתי רלבנטיות. אסק, גוגל, מיקרוסופט ויאהו השיקו בשנים האחרונות סוג כלשהו של חיפוש מותאם אישית, ורוב המומחים חוזים עתיד גדול לשירות הזה.

כמו בכל דבר כמעט, גוגל ויאהו נוקטות גישות שונות לגמרי לבעיית ההתאמה האישית. גוגל עדיין לא שילבה לחלוטין את ההתאמה האישית באינדקס הראשי שלה, אבל היא משלבת חיפושים מקומיים. גרסתה של גוגל לחיפוש מקומי מבקשת מהמשתמש שני דברים: את שאלת החיפוש עצמה ופיסת מידע מקומי (מיקוד או שם היישוב, למשל), ומצליבה את תוצאות גוגל עם חיפוש בדפי זהב.

העובדה שגוגל אינה מניחה דבר על מי שמזין את שאלת החיפוש אופיינית לחברה, אבל יאהו עושה זאת כל הזמן. אם תקלידו "תוצאות ג'יאנטס" ביאהו, תקבלו תוצאה של המשחק המתנהל כעת כתוצאה הראשונה.

כשאני מקליד "תוצאות ג'יאנטס" יאהו מבינה דבר מתוך דבר: המנוע תוכנת כך שהוא מפרש את כוונתי ומציג בפני תוצאות שסביר שיהיו רלבנטיות מאוד (יאהו קוראת לשירות הזה קיצורי דרך; AOL, שהוסיפה טכנולוגיה דומה בתחילת 2005, קוראת לה חיפוש פרוגרמטי). יאהו, AOL, אסק ואחרות עושות זאת עבור כותרי סרטים, מוזיקה ותחומים אחרים שקל לצפות את החיפושים בהם, אבל השאלה האמיתית היא אם ניתן להרחיב את אותה גישה לתחומים אחרים.

השירות המקומי של יאהו הוא דוגמה נוספת לגישה הזאת. במקום לספק תוצאות רשת מקומיות על פי מיקוד ודפי זהב, יאהו מוצאת דרכים חדשות למצוא ולהגיש מידע באופן שמנסה להבין את כוונת שאלת החיפוש. השירות מזמין את המשתמש לנווט את דרכו לקראת התשובה המושלמת, תהליך שנראה לי שיהפוך נפוץ יותר בעתיד. היזם ומומחה החיפוש רמש ג'יין קרא לגישה הזאת חיפוש עם הגה – מערך שליטה לנהיגה בין תוצאות החיפוש שלך.

סרגיי ברין מגוגל וג'רי יאנג מיאהו. צילום: AP דאגלס פיצאק, איי.פי

השימוש בחיפוש כהגה ממשק קיבל חיזוק כשיאהו הציגה את Y!Q, טכנולוגיה מבוססת-הקשר לחיפוש בכל מקום. Y!Q עשויה לשנות את האופן שבו צרכנים מגיעים לטכנולוגיית חיפוש ופועלים מולה. "עם הצגת שירותים כמו קיצורי דרך שברנו את אחת מתבניות החיפוש הלינאריות הישנות ביותר: הכנס שאלת חיפוש, סקור תוצאות, הכנס שאלת חיפוש, סקור תוצאות וכו'," אומר סמנכ"ל החיפוש של יאהו, ג'ף ויינר, "היעד שלנו עם Y!Q הוא להגביר את הנגישות של החיפוש בכל מקום וזמן שבו משתמשים עשויים לרצות לנהל חיפוש."

במילים אחרות, חיפוש יתרחש בכל מקום ברשת, לאו דווקא באתרי יעד כמו גוגל או יאהו. לצורך זה הציגה גוגל בתחילת 2005 את גוגל דסקְבָּר (Google Deskbar), תיבת חיפוש שמרחפת במחשב האישי ומערך של ממשק לתיכנות יישומים (API), שמאפשרים לכל ספק תוכנות למחשב האישי (כמו למשל "אדובי", יצרנית תוכנת העיצוב הגרפי "פוטושופ" הפופולרית) להתחבר לתשתית של גוגל.

כשהמחשב האישי הופך משולב יותר בחיפוש, התוצאות כבר לא יופיעו כרשימת כתובות, אלא כדוח זריז על הנושא, שנמסר מיד כשהמשתמש מעוניין בו – בין אם הוא מתעמק בטבלה של אקסל ובין אם הוא גולש ברשת. אם, למשל, אתם קוראים ידיעה על להקה חדשה ומעוניינים במידע נוסף, תוכלו להקליק על סמל Y!Q ושירות החיפוש יחבר אתכם מיד לדיסקוגרפיה של הלהקה ויציע לכם ביקורות, קליפים או את האפשרות לרכוש אלבום.

הגישה הזאת לחיפוש לא תהיה מוגבלת לשאלות חיפוש פופולריות עם תשובות מובנות ידועות מראש (כמו להקות או סרטים). בעתיד, קיצור דרך כזה יוכל להשיב על כל סוג של שאלת חיפוש, בהתאמה למי שאתם, מה אתם קוראים והיסטוריית החיפוש שלכם. לו היתה לי גישה לטכנולוגית חיפוש כזאת כשחיפשתי "להתגרות בגורל", למשל, הייתי אולי מקבל את התשובה שלי בן רגע.

להצצה מרתקת נוספת אל העתיד המותאם אישית, נסו את A9.com. תנו למנוע הזה זמן – השירותים המעניינים ביותר שלו מתחילים לפעול רק אחרי שמשתמשים בו זמן מה ויוצרים היסטוריית חיפוש אישית.

אודי מנבר, עד לאחרונה מנכ"ל A9, בילה את חמש עשרה השנים האחרונות במחשבה על חיפוש, וכשעזב את יאהו ב-2003 לנהל את A9, אלה היו חדשות מרעישות בקהילת החיפוש (בתחילת 2006 עבר מנבר לגוגל, לתפקיד סגן נשיא לתחום הנדסת תוכנה). מאמצי החברה החדשה נשאו פירות ראשונים באביב 2004. המנוע השתמש באינדקס האתרים של גוגל, אבל הפעיל עליו ממשק מתוחכם ושילב את שירות "חפש בתוך הספר" של אמזון, שמציג את כל עמודי הטקסט מתוך הספר בהם מופיעות מילות המפתח או הביטוי שחיפשתם . A9 היה גם המנוע הראשון שהשתמש ברעיון היסטוריית החיפוש בתוצאות שלו (מאז השיקה גם גוגל מיזם דומה). אם תתקינו את סרגל הכלים של A9, הוא יזכור גם איפה הייתם ברשת – את סך זרם ההקלקות שלכם. יחד עם עוד כמה מאפיינים חדשניים, A9 היווה הצהרה מפורשת מצד אמזון שהיא שחקנית בכירה בתחום החיפוש, ושכדאי לעקוב אחריה בהמשך הדרמה שבין חיפוש למסחר.

צילום: אנדרו וונג, רויטרס אנדרו וונג, רויטרס

החיפוש כממשק החדש

מטפורת ההגה של ג'יין מוצלחת משום שהיא רואה את החיפוש כממשק, כדרך לנווט בסביבת מיחשוב שהולכת ונעשית סבוכה. החיפוש, כפי שרובנו מכירים אותו, תקוע כבר שנים ארוכות במה שטים בריי, מחלוצי החיפוש, מכנה שלב שורת הפקודה. כמו מערכת ההפעלה דוס בטרם הופעת חלונות ומקינטוש, ממשק החיפוש כיום מבוסס-על פקודות: מקלידים שאלת חיפוש ומקבלים רשימת תוצאות. חברות רבות ניסו לטפל במגבלה הזאת, אבל עד לאחרונה היה חסר להן רכיב מפתח הנחוץ לפריצת דרך בממשק.

רכיב המפתח הזה הוא זרם ההקלקות שלכם. בהתחשב בכך שכמעט כל מנוע חיפוש גדול זוכר כעת את היסטוריית החיפוש, בקרוב נתחיל לראות שינויים באופן שבו מוגשות לנו התוצאות. על ידי רישום, לא רק של החיפושים שאנו מבצעים אלא גם של האתרים שאנו מבקרים בהם, מנועי העתיד יוכלו ליצור בזמן אמת פרופיל של תחומי העניין שלנו והאתרים שגלשנו בהם בעבר. הפרופיל הזה ישולב בתוצאות החיפוש ובממשק החיפוש עצמו כך שייווצר מה שעשוי להפוך, בעקבות שימוש קבוע, לגישה חדשה לגמרי לחיפוש. זה יהיה כמו חיפוש ברשת מותאמת אישית – חיפוש שמגוּבה בכל מה שראיתם, כל שאלת חיפוש שהקלדתם וכל דף שסימנתם או שהייתם איתו באינטראקציה כלשהי.

ב-A9, תוצאות החיפוש מוצגות כיותר מסתם רשימת כתובות. ניתן לראות את התוצאות ערוכות לפי סוגי מידע — תמונות, למשל, או היסטוריית החיפוש שלכם, או תוצאות מאתרים שותפים עשירים במידע מובנה (כמו מילונים, אתרים רפואיים, או מאגר המידע המקוון לקולנוע IMDB). ככל שמקיימים יותר אינטראקציה עם הממשק, כך הוא נעשה עשיר יותר.

נאמנה לניתוח של מנכ"ל אמזון ג'ף בזוס, פיצל A9 את החיפוש לשני חלקיו הבסיסיים ביותר. שיחזור מתייחס לאתרים בהם הייתם בעבר (ואליהם אולי הייתם רוצים לחזור); גילוי הוא כל דבר שאולי נרצה למצוא, אבל עדיין לא נתקלנו בו. A9 מפעיל את אפשרות השיחזור בעזרת היסטוריית החיפוש וסרגל הכלים שלו, שרושם כל אתר שביקרתם בו. הגילוי מוצא אתרים שאולי יעניינו את הגולש על בסיס זרם ההקלקות שלו, ומה שמעניין יותר – על בסיס זרם ההקלקות של אחרים.

הכלי רב העוצמה הזה דומה מאוד למערכת ההמלצות המפוארת של אמזון, ועשוי להפוך בעתיד לבסיסה של שיטת דירוג רלבנטיוּת חדשה לגמרי שתמשיך את מה שהתחיל אלגוריתם פייג'ראנק מבוסס-הקישורים של גוגל. A9 הוא ממשק ניהול מידע מקוון, שחיפוש הוא כלי הניווט העיקרי שלו.

עם חידושים כמו גוגל דסקבר, A9 ו-Y!Q, ממשק החיפוש יתפתח הרבה מעבר למה שאנו מכירים היום. החיפוש יבלע אין ספור פטהבייט (פטהבייט = מיליון ג'יגהבייט) של מידע שנמצא עדיין מחוץ לאינדקסים, ממדיה כמו ספרים וסרטים ועד מאגרי מידע עיוניים כמו גורונט הישראלית (ששינתה בינתיים את שמה ל-Answers Corp) ולקסיס-נקסיס, ממזוודות ובקבוקי יין עד תוכן המחשב האישי והיסטוריית החיפוש שלנו. ואותם מנועי חיפוש יציגו את המידע הזה לא על פי אלגוריתמים כמו פייג'ראנק אלא על פי חישובים מדוקדקים ומורכבים המבוססים על זרם ההקלקות של המשתמש ושל מיליוני אחרים. כך נתקרב צעד נוסף לתשובה המושלמת לחיפוש שלנו.

יו"ר מיקרוסופט ביל גייטס עם צוות פיתוח מנוע החיפוש של MSN. צילום יחצנות מיקרוסופט

הרשת הסמנטית?

אבל החיפוש המושלם ידרוש לא רק רשת כוללת-כול, זרמי הקלקות והתאמה אישית. גוף המידע העצום הנגיש לנו כרגע הוא לעיתים קרובות חסר פשר אם אינו מסומן איכשהו – מזוהה כך שמנועי חיפוש יוכלו להבין אותו ולהגיש לנו אותו. רבים בתעשיית החיפוש מאמינים שהמהפכה בתחום תנבע ממה שנקרא מטה-מידע (Metadata). זרמי הקלקות הם סוג של מטה-מידע, מידע על האתרים שאנו מבקרים בהם ומה שאנו בוחרים כשאנו גולשים ברשת. אבל כדי ליצור חיפוש מושלם יותר, עלינו ליצור רשת חכמה יותר. פירושו של דבר סימון הדפים מהם בנויה הרשת בקוד כלשהו המכריז, בשפת מחשב אוניברסלית, מה הם, מה הם מסוגלים לעשות, וכיצד הם עשויים להשתנות לאורך זמן.

זהו חזון הרשת הסמנטית, כפי שמכנים אותו האחראים על לידתו ופיתוחו. הוא נותר במידה רבה חלום בלתי מוגשם אך מרתק. אבי הרעיון הוא טים ברנרס-לי עצמו, אבי הווב. עוד ב-1998 תיאר ברנרס-לי ב"מפת הדרכים הסמנטית" שלו גישה אוניברסלית ופשוטה למדי לבניית מטה-מידע כך שהרשת תהפוך חכמה יותר. למרות שתמיד מסוכן להסתמך על מטפורות, הרעיון הבסיסי הוא שבעזרת תיוג סמנטי תהפוך הרשת דומה יותר למאגר מידע מובנה דוגמת לקסיס-נקסיס או מערכת ההזמנות של חברת הנסיעות סייבר (Sabre), כך שיהיה קל יותר למצוא דברים. כך יתאפשר גם השימוש בכללים לוגיים.

המבנה הזה גם יקל מאוד לבצע משימות מורכבות הבנויות על מציאת מידע – קביעת מועד לפגישה, תיכנון נסיעה, אירגון חתונה וכן הלאה. במאמר משפיע במיוחד בכתב העת "סיינטיפיק אמריקן" במאי 2001, הסבירו ברנרס-לי ועמיתיו: "כוחה האמיתי של הרשת הסמנטית יבוא לידי ביטוי כשאנשים ייצרו תוכנות רבות שיאספו תוכן אינטרנט ממקורות מגוונים, יעבדו את התוכן ויחליפו תוצאות עם תוכנות אחרות. כוחם של סוכני תוכנה כאלה יגדל בטור הנדסי כשעוד תוכן מקוון קריא במכונה ושירותים אוטומטיים (כולל סוכנים אחרים) ייעשו זמינים. הרשת הסמנטית מקדמת את הסינרגיה הזאת: גם סוכנים שלא תוכננו במיוחד לפעול יחד יוכלו להחליף ביניהם מידע כשזה מסומן סמנטית".

במאמר אחר, ברנרס-לי ממשיך ומסביר את ההשפעה שעשויה להיות לכך על החיפוש: "אם מנוע עתידי ישלב מנוע היגיון עם מנוע חיפוש, הוא עשוי ליהנות מהטוב שבשני העולמות... הוא יוכל להגיע לאינדקסים המכילים רשימות מלאות מאוד של כל המופעים של מונח מסוים, ואז להשתמש בהיגיון כדי לפסול את כולם מלבד אלו שעשויים להיות שימושיים בפתרון בעיה נתונה... אני צופה גם מניע כלכלי חזק לפיתוח מנועים ואלגוריתמים שיטפלו ביעילות בבעיות מסוגים ספציפיים...למרות שעדיין לא תהיה מכונה שתבטיח לענות על שאלת חיפוש שרירותית, היכולת לענות על שאלות אמיתיות מהסוג שאנו שואלים יום יום, ובמיוחד כאלה הקשורות למסחר, תהיה עצומה".

צילום: אדם ריפקין (רישיון CC-by) אדם ריפקין, רשיון CC-by

חזון הרשת הסמנטית של ברנרס-לי עדיין רחוק מהגשמה, אבל ישנם אלפי חובבי מחשב העמלים על חלקים ממנו, ושפת הקוד הבסיסית שלו, המכונה מסגרת תיאור משאבים, RDF (ר"ת: Resource Description Framework), כבר הפכה לסטנדרט בקרב רוב אנשי הרשת המעודכנים.

ב-2002 כתב הסופר פול פורד, אחד מהוגי הרשת הסמנטית, סיפור שקישר בין רעיונותיו של ברנרס-לי לבין עליית כוחה של חברה צעירה בשם גוגל, תחת הכותרת "אוגוסט 2009: איך עקפה גוגל את אמזון ואיביי בדרך אל הרשת הסמנטית". הסיפור נולד כמדריך לשימוש ב-RDF והפך במהרה לאחד מתרחישי גוגל הפופולריים ברשת.

הנה קטע ממנו:

"ואז באה גוגל. ב-2002 היא כבר היתה מנוע החיפוש המוביל, והכנסותיה החלו לעלות. באותו זמן רעיון הרשת הסמנטית, שהיה קיים מאז 1998 בערך, החל להתקדם, ולכד את תשומת לבם של יותר ויותר אנשים.

מהי הרשת הסמנטית? בעיקרו של דבר, זאת פשוט דרך לתיאור דברים כך שמחשב יכול "להבין". מובן שמה שמתרחש אינו הבנה, אלא לוגיקה, כמו שלמדנו בתיכון:
אם א' הוא חבר של ב', אז ב' הוא חבר של א'.
לג'ים יש חבר בשם פול.
מכאן שלפול יש חבר בשם ג'ים.

בעזרת שפה בשם RDF... ניתן היה להעלות קביעות לוגיות כאלה לאינטרנט, זחלנים אספו אותן כך שניתן היה לחפש בהן לנתח ולעבד אותן. בשונה מחיפוש רגיל, ברשת הסמנטית ניתן לשלב בין הקביעות. כך שאם מצאתי באתר של ג'ים את הקביעה "ג'ים הוא חבר של פול" ומישהו מחפש את חבריו של פול, גם אם האתר של פול לא מזכיר את ג'ים, אנחנו יודעים שג'ים רואה בעצמו חבר של פול."

פורד המשיך והראה כיצד, לאחר שהרשת הסמנטית תכה שורשים, עשויה גוגל להפוך לשוק עולמי גדול בהרבה אפילו מאיביי או אמזון. בעיקרו של דבר, ברגע שיש לך מידע טוב על דברים למכירה, וחיפוש טוב שמחבר ביניהם לבין הקונים, קל יחסית להתפרנס מקישור בין השניים.

אחת הבעיות העומדת בפני יצירת הרשת הסמנטית היא קביעת הסטנדרטים: מי יקבע אילו תגיות מתאימות לאילו דפים? אם יש ברשת צילום של החוף בקייפ-קוד, האם יש לתייג אותו כ"חוף", "אוקיינוס", "מסצ'וסטס" או משהו אחר לגמרי? כפי שלמדה יאהו כשעוד היתה מדריך אתרים, האפשרויות הכמעט בלתי מוגבלות של הרשת הופכות אותה לקשה מאוד לעריכה וניהול מרוכזים.

ושוב, אנו נזקקים לכוחם של הרבים. בסוף 2004 ותחילת 2005 צמחה שיטת תיוג חדשה, כזו המבוססת לא על היררכיה נוקשה אלא על גישה מבולגנת, שעובדת מלמטה למעלה. חברות סטארט-אפ קטנות כמו פליקר, מנוע החיפוש בבלוגים טכנורטי (Technorati) ואתר הקישורים del.icio.us החלו לאפשר למשתמשים שלהם לתייג את מה שראו, ולאפשר לאחרים לראות את התגיות האלה. סך כל התיוגים, טוענת התיאוריה, ייתן בסופו של דבר מושג על הרלבנטיות של כל פריט. תמונת החוף מקייפ-קוד, למשל, תתויג בכל התיאורים האפשריים. כך, לא משנה איזו שאלת חיפוש תוקלד כדי לחפש אותו, "תצלומי אוקיינוס" או "נופי קייפ-קוד," התצלום יימצא.

בלוגרים מוקדמים כינו את הגישה הזאת טקסונומיה עממית. התיוג בתאוצה: רכישתה של פליקר בידי יאהו, בסכום המוערך ב-30-15 מיליון דולר, העניקה לתיוג דחיפה נוספת. לפליקר לא היו הכנסות, כך שברור שיאהו ראתה בה ערך מסוג אחר. בהתחשב בחשיבות שרואה יאהו בחיפוש, ההימור הסביר הוא שיאהו מצאה ערך במערך התיוג של פליקר.

איך כל זה קשור לבלוגים?

פיתוח נוסף הקשור לרשת הסמנטית הוא השטף הפתאומי של בלוגים ושל פורמט RSS (ר"ת: real simple syndication). בשעת הכתיבה ישנם 12-8 מיליון בלוגים פעילים ברשת, ועוד מיליוני RSS, שהם גרסאות ניידות של בלוגים או של אתרי מדיה אחרים שניתן לקרוא בעזרת יישומים בשם "קוראי חדשות" (Newsreaders).

בלוגים הם מעין דפי בית, אבל גם הרבה יותר מזה: הם מייצגים סוג חדש של כתיבה ברשת, כזאת שביסודה היכולת לקשר במהירות ובקלות לכל דבר אחר ברשת. כשנולד אלגוריתם פייג'ראנק וכתיבת דפי רשת דרשה עבודה מאומצת בשפת HTML, לא היה קל לקשר. כיוון שקישור דרש מאמץ רב, ניתן היה לטעון שקישורים הם אינדיקציה סבירה לסמכות – אף אחד לא יתאמץ לקשר לזבל, לא כך?

ובכן, כן ולא. הבלוגים צמחו בסוף שנות התשעים, כשהקישור נעשה קל יותר, והפעילו את "כוח הרבים" על הרשת המקושרת. בעוד שיש הטוענים שהקישורים הרבים פגעו בערך הקישור ודיללו את ערכם של פייג'ראנק ודירוגי רלבנטיות מבוססי-קישור, אני מאמין שהאמת הפוכה. בלוגים מספקים שתי אבני בניין חיוניות ליצירת רשת חכמה יותר.

ראשית, בלוגים הם הצהרות של פרטים, הכרזות אישיות מי הם ומה הם שואפים להיות בעולם בר-החיפוש. יחד עם מערכת הקישורים, הנכנסים והיוצאים, הצומחת סביב אתר ספציפי, הבלוג יוצר הצהרה מורכבת מאוד (וקלה להכללה באינדקס) של עמדתו החברתית, מערכות היחסים, תחומי העניין וההיסטוריה של יוצרו.
שנית, ברגע שהבלוגים יגיעו למסה קריטית (ואני מהמר שזה כבר קרה: אנחנו פשוט עוד לא יודעים), מנועים חכמים יוכלו לזהות בהם תבניות שיספקו מידע מדרג שני ושלישי על רלבנטיות, מה שיאפשר תוצאות חיפוש טובות בהרבה. כמו בטקסונומיה עממית, נפתרת הבעיה המקורית של יאהו – כיצד לערוך את הרשת – בידי כוח הרבים. עריכה וסיווג אנושיים טובים ממכונות בזיהוי רלבנטיות, אבל היקפה העצום של הרשת גדול עליהם. אבל מה אם נשתמש בבלוגרים כמיליוני טקסונומים מקצועיים?

צילום: רויטרס; עיבוד מחשב: גל חן רויטרס, עיבוד מחשב: גל חן

הצצה אל העתיד הסמנטי

כדי להציץ ברשת הסמנטית בפעולה, נסעתי למעבדות המחקר אלמדן של IBM בסן חוזה, קליפורניה. מרכז המחקר שוכן במתחם של ארבעת אלפים דונם יפהפיים בגבעות שמעל מפרץ סן פרנסיסקו. כדי להגיע לשם יש לעבור כחמישה קילומטרים של פארק בלתי מיושב, בין פרות שמעלות גרה פוטוגנית.
בתוך מבנה צפחה אפור, שש מאות אנשי מחקר טהור ויישומי עוסקים ב... ובכן, בעיקר חושבים על בעיות מיחשוב מורכבות. המרכז הוא אחד משמונה שמחזיקה IBM ברחבי העולם. האחרים נמצאים במקומות כמו חיפה, שוויצריה, יפן, סין והודו. להזכירנו שעם כל הכבוד לאופנתיות התקשורתית העכשווית של חברות מסוימות, ישנן גם כאלו שמגייסות בעלי דוקטורטים ומעסיקות היטב את מוחותיהם עוד מלפני שרובנו נולדנו.

נפגשתי עם שניים מהגאונים המפחידים האלה, דניאל גורהל ואנדרו טומקינס, הארכיטקט הראשי והמדען הראשי, בהתאמה, של פרויקט "ווב-פאונטיין" (WebFountain) של IBM. שמעתי הרבה על ווב-פאונטיין וזה נשמע מבטיח; הפרויקט כונה "מנוע אנליטי" בידי המכון למהנדסי חשמל ואלקטרוניקה (IEEE), מועצת החכמים של החנונים באשר הם.

קודם כל קצת היסטוריה. ווב-פאונטיין הוא תוצר של כמעט עשר שנות עבודה באלמדן סביב בעיית החיפוש. את הפרויקט התחיל ג'ונתן קליינברג, מי שנפגש עם לארי פייג' בתחילת הדרך כדי להחליף רשמים על בּק-רבּ (BackRub), הגלגול המוקדם של פייג'ראנק. קליינברג מסכים עם הדעה שהחיפוש מצוי בתחילת דרכו. הבעיות הקשות באמת – שאלות בשפה טבעית, למשל – עדיין לא נפתרו. החיפוש אמנם נעשה מתוחכם יותר באמצעות התאמת מילות מפתח וניתוח תבניות קישורים, הוא אומר, אבל לטכנולוגיית החיפוש עדיין אין מושג מה משמעותו התוכנית – במובן האנושי – של מסמך.

ווב-פאונטיין ניגש לבעיה הזאת משני כיוונים: ראשית, תיוג המסמך עצמו בידי אנשי מקצוע (עוד על כך בהמשך), ושנית – בניית שאלת החיפוש המושלמת. בעיית יסוד בחיפוש כפי שאנו מכירים אותו היא החיפוש ההפוך. בתרחיש של חיפוש הפוך, אנו חשים שישנה שאלת חיפוש מושלמת שאם תוקלד במנוע חיפוש, תניב בדיוק את התשובה שאנו מבקשים. אבל איננו יודעים מה המונח, והניסיונות שלנו לנחש אותו מניבות רק תוצאות מתסכלות ולא רלבנטיות.

למשל, אני רוצה עוד פרטים על התקנה שקובעת שיש לי זכות לטוס ללא תשלום נוסף בחברת תעופה אחרת, אם זאת שרכשתי בה כרטיס ביטלה את הטיסה שלי. איך אגיע למידע? אפשר להקליד בגוגל את מילות החיפוש "תקנה חברת תעופה ביטול" או משהו כזה. החיפוש יוביל לכמה דפים שהם רלבנטיים – למי שנמצא באירופה. אני מחפש שוב, הפעם בתוספת "-אירופה" (המינוס מסמן לגוגל להתעלם מדפים הכוללים את המילה "אירופה"; רוב המחפשים לא יודעים גם את זה). שום דבר, לפחות לא בעמודי התוצאות הראשונים. אולי נוציא את כל האיזכורים של האיחוד האירופי? שוב לא, אבל הצלחתי לבזבז חמש דקות בקריאת מסמך מרתק של מכון נידח. אולי הגיע הזמן להתקשר לחבר ההוא שעובד בחברת תעופה. אבל אם הייתי יודע שמדובר בתקנה בשם חוק רשות התעופה 240, הייתי מקבל תוצאה תוך שניות. שאלת החיפוש הזאת מניבה בדיוק את המידע הדרוש.

כיצד יכול מחשב ללמוד לפעול יותר כמו ספרן אנושי ולקשר בין "התקנה ההיא שמאפשרת לי לעבור לחברת תעופה אחרת" לבין "חוק רשות התעופה 240"? זאת בדיוק הבעיה שווב-פאונטיין מנסה לפתור.

צילום: קטיה גרימר; עיבוד מחשב קטיה גרימר. עיבוד מחשב

למה ווב-פאונטיין? ולמה עכשיו?

IBM הבחינה שחברות גדולות טובעות במידע ושמנועי חיפוש רחבי היקף כמו גוגל לא פותרים את הבעיה. כדי להתמודד עם המידע המורכב שמצוי בדרך כלל באירגון גדול, מחלקות טכנולוגיית המידע בחברות גדולות ניסו להמציא כלי מסוג חדש: כזה שיפתור בעיות ספציפיות מאוד, מבוססות-כללים, מהסוג שתאגידים גדולים נתקלים בהן. אבל כדי להמציא את הכלי הזה דרושים יותר כישרון, משאבים וחומרה, משאירגון אחד יכול להצדיק. מלבד, אולי, IBM.

ווב-פאונטיין הוא פתרון IBM קלאסי לבעיית החיפוש. במקום להתמקד בשוק הצרכני ולשרת מאות מיליוני משתמשים וחיפושים ביום, ווב-פאונטיין הוא פלטפורמה, שילוב של תוכנה וחומרה, שחברות גדולות מתחברות אליה כדי ליצור יישומים. היא משרתת רק שבריר מכמות שאלות החיפוש שגוגל עונה עליהן, אבל מדובר בשאלות מעניינות במיוחד.

בעזרת ווב-פאונטיין, למשל, לקוח IBM יכול לשאול שאלה "תיאורטית" כמו זאת: "תן לי את כל המסמכים ברשת שכתובים בשפה הערבית, ממוקמים במערב התיכון של ארצות הברית ומקושרים לשני מסמכים דומים לפחות אבל לא לאתר הרשמי של אל-ג'זירה, וכוללים איזכורים של כל אחד מתוך רשימה של חשודים בטרור". זאת אינה שאלת חיפוש שהייתם מקלידים בגוגל (IBM מעדיפה לא לפרט מי הלקוחות שמגישים שאילתות כאלה, מסיבות מובנות).

סוג אחר של לקוח עשוי לרצות תשובה לשאלה כזאת: "תן לי את כל המקומות ברשת בהם נדון הסרט 'הפסיון של ישו' ושמזכירים גם אחד מחמשת שוברי הקופות שאינם 'שר הטבעות', ופסול את כל האתרים שכתובים בספרדית או מצויים בחצי הכדור הדרומי. וגם תרגם את אלה שאינם באנגלית כשאתה מחזיר תוצאות".
האם חברת נפט רב לאומית תוכל לגלות מה אומרים תלמידי קולג' בסן-פרנסיסקו על מחירי הדלק? כן. מה בני נוער חושבים על אופנה, לפי המיקוד של השכונה ליד הקניון? אין בעיה. שיחות על מוזיקאים ולייבלים כדי להקצות תקציב שיווק? בוודאי (ווב-פאונטיין נולדה מתוך בקשה כזאת בדיוק).

אז איך עונה ווב-פאונטיין על שאלות חיפוש סבוכות וספציפיות כל כך? התשובה הקצרה: הרבה חומרה והמון תיוג מטה-מידע. התשובה הארוכה: ווב-פאונטיין לא רק יוצרת אינדקס של הרשת ומגישה תוצאות על בסיס התאמת מילות מפתח ואלגוריתמים מחוכמים. נכון, היא יוצרת אינדקס של הרשת, אבל ממשיכה משם כמה צעדים מעבר למה שעושים מנועי חיפוש צרכניים: היא מתייגת כל דף על פי קטגוריות סמנטיות. ווב-פאונטיין בעצם בונה מחדש את הרשת, כך שהיא זמינה לשאלת החיפוש של הלקוח.

רק בשביל הכיף, הנה רשימה חלקית של התיוגים שמקבל כל דף רשת (או מסמך, כפי שמכנה זאת IBM):
• שפה
• קידוד
• פורנוגרפיה (ווב פאונטן מצא ששלושים אחוזים מהרשת הם פורנוגרפיה)
• סטטוס כפילות (האם ישנו דף זהה או כמעט זהה בכתובת אחרת?)
• מידע שנסרק
• תאריך התוכן
• קבוצת הסימנים (מילים) שעל הדף
• מחבר (עבור סוגי מסמכים מסוימים)
• קטגוריות מקור (אתר מדיה, עיתון חשוב וכו')
• רשימת ישויות בדף, שם ניתן ליצור סט היררכי:
• אנשים (ממשלה/ חינוך/ עסקים)
• מקומות (נ"צ כולל קו אורך וקו רוחב)
• חברות
• אירגונים

ווב-פאונטיין יכול גם לתייג ישויות על הדף, ולדווח על יחסו של הדף לישות ועל היחסים בין הישויות. מדהימה אף יותר היא העובדה שלקוחות ווב פאונטן יכולים ליצור מערכי תיוג חדשים לגמרי, ו-IBM יכולה להעביר את מאגר המידע כולו – כלומר הרשת כולה – דרך הפילטר הזה, כדי לספק תשובה.

משחק הפלטפורמות

כפי שהזכרתי קודם, IBM ביססה את ווב-פאונטיין על מודל הפלטפורמה. כמעט כל אחד יכול לעבוד מול ווב-פאונטיין (אם הוא עומד במחיר) בעזרת ממשק תיכנות סטנדרטי שמתבסס על שירותי רשת פשוטים. IBM אינה מגלה את זהותם של רוב לקוחותיה, אבל שניים שהיא מוכנה להזכיר הם "סגמיקס" (Segamix), שמפעילה יישום (מפחיד למדי) לזיהוי הלבנת כספים, ו"פקטיבה" (Factiva) שפיתחה וזנחה את "מנהל מוניטין" – גרסה מהדור הראשון של חיפוש מבוסס-בלוגים.

בעזרת ווב-פאונטיין פילחה IBM את הרשת למערכי מידע סובייקטיביים מובנים. היא יצרה פלטפורמה שמאפשרת ללקוח להציב שאלות מורכבות וספציפיות לחלוטין שהתשובות עליהן שוות לו אולי מיליונים, אבל חסרות כל ערך עבור מחפש סתם. ווב-פאונטיין, אם כן, לעולם לא תגיע לגודלה של גוגל.

או שאולי, תהיתי בדרכי החוצה מהמתקן של IBM, היא תגדל בכל זאת? מאוחר יותר שאלתי את גרוהל אם בשלב כלשהו יהיה כוחה של ווב-פאונטיין זמין לקהילת הגולשים כולה. מדוע לא? אחרי הכול, אוברצ'ר וגוגל הגיעו להכנסות של מיליארדים מעסקאות של 5 סנט בכל פעם; מדוע לא להשכיר את ווב-פאונטיין לחברה המבקשת להביס את גוגל, אולי על ידי הצבת ממשק ידידותי על פלטפורמת ווב-פאונטיין כך שיתאפשר לחברות קטנות ואנשים פרטיים ליהנות מהשירות.

גרוהל הקדיש לעניין חלקיק שנייה של מחשבה והשיב שחוק מור לא הגיע לרמת צורכי המיחשוב של ווב-פאונטיין, בינתיים לפחות. כל התיוג הזה מחייב כוח עיבוד רב ודורש תוכנה רבה, ועל התהליך כולו להתרחש בסדר מסוים. אי אפשר פשוט להוסיף עוד מחשבים קטנים המבוססים על מערכת ההפעלה "לינוקס" כפי שעושה גוגל. תארו לכם מה היה אם גוגל היתה צריכה ליצור אינדקס חדש לגמרי עבור כל לקוח. אבל גרוהל הודה שבשלב כלשהו בעתיד, שירותים דמויי ווב-פאונטיין עשויים לשרת מיליוני שאלות חיפוש ביום. זה רק עניין של זמן.

בינתיים, ווב-פאונטיין הוא יישום קלאסי של מחשבי-על, למרות שבמקרה הזה מחשב העל מורכב מ-256 מעבדי ליבה כפולה המחוברים ליותר מחצי פטהבייט של זיכרון. יחסית לגוגל, יש לווב-פאונטן הרבה פחות מעבדים, אבל כמות החישובים המתבצעים, אומר גרוהל בלא מעט גאווה, ממקמת את השירות "בין חמישים מחשבי העל המובילים בעולם"/ במילים אחרות: ניתן לסרוק, לתייג ולתייג מחדש את הרשת כולה בפחות מעשרים וארבע שעות. בגלל אופייה המבוזר של מערכת המחשבים של גוגל, עידכון האינדקס כולו לוקח לחברה כמעט חודש (למרות שחלקים מהרשת נסרקים כעת לעיתים קרובות הרבה יותר).

אבל נראה ששתי החברות, עד כמה שהן שונות, מתקדמות במהירות לעבר נקודת מפגש אפשרית. גוגל ורוב מנועי החיפוש הפונים לצרכנים עסוקים אובססיבית בניסיון להבין את כוונת המשתמש — להפיק את התוצאות הרלבנטיות ביותר, לא משנה עד כמה שאלת החיפוש מעורפלת. הבעיה נובעת מכך שאנשים מגיעים לגוגל בדרך כלל כשהכוונות שלהם לא לגמרי מאורגנות – רוב המחפשים מתעלמים מאפשרויות חיפוש מתקדם ומקלידים רק שתיים או שלוש מילים בכל שאלת חיפוש. נוסף לכך, האינדקס של גוגל מתבסס על שיטות שניתנות להרחבה אך אינן בנויות להתאמת מילות מפתח וניתוח קישורים. למרות המגבלות האלה, במטה גוגל שוקדים על תעלולים חדשים שיכניעו את הרשת.

ב-IBM, מצד שני, כבר הכניעו (פחות או יותר) את הרשת, ויצרו פלטפורמה שמפתחים יכולים לנצל בשווקים גדולים ורווחיים יותר. אבל שפת שאלות החיפוש מסובכת ובלתי נגישה לצרכן, והמחשבים העושים במלאכה מגושמים ויקרים. האם נזכה יום אחד לגוגל-פאונטיין להמונים? אני מקווה שכן, ויש לי תחושה שזה רק עניין של זמן. המחשב שעליו אני כותב את הספר הזה הוא צאצא ישיר של מחשב-על משנות השישים שהיה נעול פעם במרכז עצבים סופר-מקורר, בדיוק כמו זה שווב-פאונטיין נעול בו היום. דמיינו את היום שבו כל אחד עם חיבור לרשת יוכל להציב שאלות חיפוש לווב-פאונטיין, בפורמט פשוט, אינטואיטיבי, ונעים כמו גוגל. זה יהיה צעד לא קטן לקראת החיפוש המושלם.

צילום יחצנות: דן לב, יחצנות אופטיקה הלפרין דן לב, יחסי ציבור

חיפוש מאוחד וחד-תחומי: קודם כל מיקוד

אבל אם אנו חפצים בחיפוש מושלם, כדאי להתקדם בצעדים קטנים. כך נולד החיפוש החד-תחומי. חיפוש-חד תחומי מתמקד בסוג מסוים של מידע, ויוצר חיפושים מותאמים שבשל גוף הידע המוגבל והיחסים הברורים בין מושגים, מספקים תוצאות רלבנטיות ביותר.

דוגמה טובה לעניין היא "גלובל-ספק" (GlobalSpec), מנוע חיפוש בתחום ההנדסה שהחל באמצע שנות התשעים כקטלוג מקוון. האתר פשוט העביר את כל המידע מבוסס-הקטלוג על מוצרים הנדסיים – גלאים, מתמרים, מדי תאוצה וכו' – אל מאגר מידע מקוון עצום. הרעיון לא היה בדיוק חדשני: עשיית רווחים מקישור בין לקוחות ליצרני חלקים בעזרת האינטרנט. פשוט.

במשך השנים התפתח גלובל-ספק והפך לקהילה של כמיליון מהנדסים שמשתמשים בו למצוא מפרטים וחלקים. זה בפני עצמו לא מעט (מיליון מהנדסים!). אבל בתחילת 2004 הבינה גלובל-ספק שלמרות שיש לה קטלוג טוב ובסיס משתמשים מעולה, אין לה יכולת לענות בקלות על כל השאלות שהקהילה שלה עשויה להפנות אליה, והיא מאבדת לקוחות פוטנציאליים לטובת מנועי חיפוש כלליים כמו גוגל.

בהתאם לקביעה שהחיפוש מניע מסחר יצרו מנהלי גלובל-ספק כלי חיפוש ממוקד שהם קוראים לו "רשת ההנדסה". העורכים האנושיים של גלובל-ספק זיהו כמאה אלף אתרים ספציפיים שלדעתם מכילים מידע הקשור לתחום ההנדסה. הם בנו זחלן שיצר אינדקס של האתרים האלה בלבד (וכמובן של אתרים קשורים שהזחלן מצא). ואז לקחה גלובל-ספק את הסריקה צעד אחד קדימה. לא רק שהיא סרקה את רשת ההנדסה הציבורית; היא העלתה גם מאגרי מידע מהרשת הבלתי נראית שלא נמצאים במנועי חיפוש רגילים — אתרי פטנטים ותקנים, למשל, שסגורים משיקולי הרשמה ועסקים. כך נוצר מנוע חיפוש חד-תחומי שלמרות שאינו מושלם, עוקף את גוגל בתחום אחד (גם אם צר).

בגלל התחום המוגבל שלו, גלובל-ספק יכול להשתמש באלגוריתמים פשוטים יחסית המבוססים על מילות מפתח כדי להעלות רשימת רעיונות או מונחים הקשורים לחיפוש נתון. כך ניתן לנסח שאלות באופנים שפשוט לא היו צולחים בעולם הרחב הרבה יותר של גוגל. הרעיונות הקשורים האלה הם תוצאה של פרשנות שאלת החיפוש המקורית. עבור החיפוש "אווירודינמיקה", למשל, יתקבלו גם הפניות לחיפושים בנושאים קשורים – "כלי תעופה, מכניקת טיסה, אווירודינמיקה של מסוקים, אווירודינמיקה תאורטית".

לטכניקה הזאת קוראים "קיבוץ" (clustering), והיא משמשת גם מנועי חיפוש גדולים דוגמת אסק ג'יבס, AOL ואחרים, אבל התוצאות המתקבלות כאן טובות בהרבה. כשחיים בקהילה מסוגרת של תחום אחד, לא נאלצים להיתקל בטרמפיסטים שקשורים רק לכאורה, מהסוג שהרשת מלאה בו.
מאחר שכל אחד יכול להשתמש בשירות – הוא לא מוגבל למשתמשים רשומים – גלובל-ספק יצרה פורטל שמזרים תנועה וכוונה דרך מאגר המידע המקורי שלה, ותוך כך בנתה גם אי חכם של מידע הנדסי בלב המרחב הציבורי.

אמת, סביר שאינכם מבלים את זמנכם בהשוואת מפרטים של מדי תאוצה, אז למה שזה יעניין אתכם? גלובל-ספק מבשרת את יצירתם של אין ספור מנועי חיפוש אנכיים רבי עוצמה, מנועים שבגלל שהם מוגבלים בתחום ואקסקלוסיביים מטבעם יכולים לספק כלים יעילים מאוד לאיתור מדויק של מה שרוצים למצוא. התמורה המסחרית של החיפוש מניעה עוד ועוד יזמים לשקוד על חלקים ספציפיים של הרשת וליצור להם תיוג מעין סמנטי. וכשגבולות מנועי החיפוש האלה יתחילו לגעת זה בזה, כמו עלי שושן על פני המים, התוצאה עשויה להיות קסומה.

נחזור ליעד המקורי שלנו, חיפוש מושלם, ונדמיין שכמעט כל תחום הזוכה למסה קריטית מסוימת של כוונה אנושית – מארכיאולוגיה ועד מכוניות, מזואולוגיה ועד מוזיקה פופולרית – יזכה לחיפוש אנכי דמוי גלובל-ספק, או למערך בלוגים שימלא פונקציה דומה. נדמיין עוד שמנועים כמו גוגל ויאהו יסרקו כל אחד מהם כך שיווצר מנוע-על המבוסס-על אלפי אתרים חד-תחומיים. מכאן ועד מצב שבו נקבל חיפוש מושלם מסך מאמציהם של אלפי אתרים קטנים יותר השוקדים על תחום מסוים, המרחק אינו רב.
ישנם כבר לא מעט סימנים המצביעים על עתיד כזה. חיפוש-על הוא תעשייה פורחת, בעיקר משום ששניים מתוך שלושת חלקי החיפוש – סריקה ויצירת אינדקס – כבר בוצעו בידי מישהו אחר. ואתרים חד-תחומיים מתחילים לקום, קודם כל בתחומים המסחריים ביותר.

קשה שלא לדמיין שכאשר יתרבו אתרי החיפוש החד-תחומיים, יתרבו גם אתרי החיפוש המאוחד או חיפוש-העל, שיתמחו בנטילת שאלות חיפוש מעורפלות יחסית והדרכת המשתמש דרך שכבות של תוצאות אל התשובה המושלמת עבורו.

ציר הזמן של הרשת

מחקר שנערך באוניברסיטת קליפורניה בברקלי קובע שב-2002, השנה האחרונה לגביה קיימים נתונים, המין האנושי ייצר 5 אקסהבייט של מידע מאוחסן. לשם המחשה: אם המידע היה על נייר, הוא היה תופס, בשנה אחת, נפח של פי חמש מאות אלף מכל ספריית הקונגרס האמריקאי. במידע מאוחסן כוונתי לדפוס, סרט צילום ומדיה מגנטית (דיסקים קשיחים). יותר מתשעים אחוזים מאותם 5 אקסהבייט אוחסנו על דיסק קשיח, מתקן שלא היה קיים לפני שישים שנה. בכל יום אנו יוצרים ומאחסנים יותר מידע (בפורמט דיגיטלי) משאוחסן על נייר במשך רוב ההיסטוריה.

אבל כפי שכבר ראינו, רוב רובו של המידע הזה אינו נגיש לרוב מנועי החיפוש. הרשת הבלתי נראית היא אחד הגורמים הראשיים לכך, אבל גורם נוסף הוא טבעה של הרשת עצמה: בכל פעם שדף רשת משתנה או יורד מהרשת, הגרסה המקורית אובדת.

לרשת, במילים אחרות, אין זיכרון. רוצים לקרוא את דיווחי TheStandard.com
מ-1999, בשיא בועת האינטרנט? גם אני הייתי רוצה, אבל אי אפשר למצוא אותם באינדקס של גוגל. רוצים למצוא את הרשימה הראשונה של המדריך של מייסדי יאהו ג'רי יאנג ודייוויד פיילו לרשת? גם יאנג היה רוצה, אבל הוא לא שמר לעצמו עותק.
אבל בשלב מסוים בעתיד הלא מאוד רחוק יהיו לנו עותקים ארכיוניים רציפים של הרשת שניתן יהיה לחפש בהם. כך יתווסף לרשת ציר זמן: ארכיב אינטרנט בזמן אמיתי עם עותק של הרשת עבור כל יום בשנה וכל שנה בהיסטוריה. במילים אחרות, עוד בימי חיינו נראה את הזיכרון התרבותי הדיגיטלי שלנו, כפי שהוא מתבטא דרך הרשת ומנועים כמו גוגל, הופך זמין, נוכח תמיד. ואם לא תתחולל איזו מהפכה תרבותית או מלחמה גרעינית טוטלית, השרשרת הזאת תמשיך, בלתי מופסקת, לנצח, אל העתיד.

היסטוריונים יראו בתקופה שאנו חיים בה, במבט לאחור, קו פרשת מים. בשלב כלשהו במאה העשרים ואחת, שאינו ניתן להגדרה מדויקת, הרשת תהפוך לבעלת זיכרון, כזה שלא סביר שיאבד עוד. זה יתחיל בוודאי כשירות של חברת ענק כמו גוגל, יאהו או אמזון, וכשזה יגיע, וההשלכות מרחיקות לכת למדי.

לו היה לרשת ציר זמן, היינו יכולים לחפש על פי תאריך. היינו יכולים להציג שאלות כמו "הראה לי תוצאות עבור שאלת החיפוש שלי עבור התקופה הזאת," או "מה היו התוצאות הפופולריות ביותר עבור 'ג'ורג' וו. בוש' בשלושה במאי 2004". ומה עם "הראה לי כל איזכור של אבי סבי ב-2006"? בעתיד, נינכם בוודאי יעשה בדיוק כך. תודות לירידה הדרמטית במחירי האיחסון, לעלייה הדרמטית בכוח המיחשוב ולמודל העסקי של הפירסום בחיפוש, היום הזה אינו רחוק. הרשת, ברובה, רק בת עשר, אבל חישבו מה יהיה בה כשתגיע לגיל מאה. הרבה מידע לחפש בו, והרבה הזדמנויות לחידושים.

מייסדי יאהו ומנכ"ל החברה. צילום: רויטרס רויטרס

אבל האם סביר לצפות לחיפוש על פי זמן? עד כה, האתגר נראה עצום. אמנם נכון שזיכרון אלקטרוני יכול לחיות לנצח, אבל עד עכשיו לא נעשה הרבה כדי להבטיח שתשתית הרשת תנצל את העובדה הזאת.

כדי שהחיפוש יהיה מושלם, נזדקק לגישה לידע של העולם. ברוסטר קהלה מנסה לטפל בבעיה הזאת על ידי יצירת פרויקט אדיר ממדים שלא למטרות רווח שמארכב חומרים מודפסים וסרטי צילום, וכן את הרשת כולה, עד כמה שניתן, על בסיס כמעט יום יומי. הפרויקט, שנקרא ארכיון האינטרנט (Internet Archive), סורק את הרשת ומארכב אותה בכל יום מאז 1996. כמו שברוסטר אמר לי כשנפגשנו במשרדיו בסן פרנסיסקו לדון בארכיון: "הלקח הראשון של שריפת הספרייה של אלכסנדריה הוא: תמיד שמור יותר מעותק אחד".

קהלה הוא גיבור עממי בקהילת החיפוש, כמי שהקים את WAIS, שירות תוכן וחיפוש מהראשונים ברשת, ואת אלקסה (Alexa), חברת חיפוש חדשנית-עדיין שנרכשה בסוף שנות התשעים בידי אמזון. אלקסה היתה אחת החברות הראשונות שהשתמשה בסרגל כלים ביתי כדי לרשום את זרם ההקלקות, והוא משמש כיום חלק משירות החיפוש A9 של אמזון.

אבל כדי שנוכל באמת להגשים את הפוטנציאל הטמון בציר הזמן של הרשת, נזדקק לכוחם של הרבים שייצרו עותקים של הרשת לאורך הזמן ויארכבו אותם כך שלכולנו תתאפשר גישה אליהם (ארכיון האינטרנט לא יוכל לעשות הכול). סימנים ראשונים למערכות כאלה מופיעים בכל מקום. היסטוריית חיפוש אישית היא התפתחות כזאת. כך גם היישום פרל (Furl) של מנוע החיפוש "לוק-סמרט" (LookSmart), שמאפשר לשכפל אתר ולאחסן אותו כך שניתן יהיה להציג אותו ולחפש בו בעתיד. אסק הכריזה על שירות דומה לקראת סוף 2004 וסביר מאוד שעד שתקראו את הדברים גוגל, יאהו ו-AOL כבר יפעילו שירותים דומים.

כשחלק משמעותי מהציבור יתרגל לשמור ולהציג דפי רשת, והדפים האלה יישמרו לנצח, למישהו יהיה הרעיון לאסוף מאנשים תרומות של עותקי דפים לקראת פרויקט זיכרון רשת אוניברסלי מסוג כלשהו. ברשת כבר קיימות דוגמאות רבות לפרויקטים דומים: ויקיפדיה (Wikipedia), אנציקלופדיה הערוכה בידי מתנדבים, עברה בספטמבר 2004 את קו מיליון המאמרים, וכמעט כל מנועי החיפוש משתמשים ב-DMOZ, מדריך רשת ערוך בידי מתנדבים. מרגע שפרויקט כזה ייצא לדרך, מתנדבים יעתיקו בוודאי חלקים גדולים של הווב אל תוך ארכיב כזה, בזמנם הפנוי, הן ממניעים אישיים (אני רוצה להבטיח שהאתר שלי יישמר לנצח!) והן לטובת הכלל. ומרגע שחלקים גדולים של הווב בעבר יאורכבו, מנועים כמו גוגל ויאהו בוודאי יכללו אותם באינדקס שלהם, ויעלו את ציר הזמן של הרשת לרשת, לתמיד.

צילום: כריסטופר הווארד כריסטופר הווארד

החיפוש אחר שלמות

ניסיתי לכסות הרבה בפרק הזה, וכעת אנסה לסכם. העליתי את הרעיון הדמיוני למדי של חיפוש מושלם, ואז ניתחתי מספר מגמות שמצביעות על הגשמה של לפחות חלק מהחזון הזה. המגמות האלה הן התרחבות החיפוש (הכללת עוד ועוד מידע באינדקסים של מנועי החיפוש), חיפוש מותאם אישית (שימוש ברשת אישית על מנת ליצור תשובה מושלמת יותר), היווצרותה של הרשת הסמנטית (תיוג מידע כך שיהיה קל יותר למצוא אותו), חיפוש חד-תחומי וציר הזמן של הרשת. אבל איך כל זה מתחבר?

מלבד גוגל אולי, אין שום מקום שבו כל המגמות האלה משתלבות. היזכרו לרגע בהתגלות גוגל הראשונה שלכם, או, אם אתם ותיקים ברשת, באלטה-ויסטה. חישבו איך הרגשתם – איך הבנתם פתאום שהעולם מצוי, במשמעות המילולית של הביטוי, בקצות האצבעות שלכם. אולי זאת היתה הפעם הראשונה בה הקלדתם את שמכם בגוגל וגיליתם שהעולם רואה אתכם כסך התוצאות. או אולי היתה זאת הפעם בה גיליתם את התקליטור המושלם בגלל המלצה של אלגוריתמי החיפוש של אמזון. או אולי בפעם הראשונה שהתקנתם תוכנת חיפוש למחשב האישי וגיליתם את האימייל ההוא ששכחתם ממנו. או אולי הפעם הראשונה שהשתמשתם בחיפוש הווידאו של גוגל כדי למצוא מתי ההקרנה הבאה של התוכנית האהובה עליכם והבנתם שבקרוב רוב הרגלי הצפייה שלכם יעוצבו בעזרת הרשת.

לא משנה מה רגע החיפוש המושלם שלכם היה, יהיו עוד הרבה יותר עם התפתחות הרשת. החיפוש הוא כבר לא יישום מנותק, כלי שימושי אך לא-אישי לאיתור תוכן כלשהו במדיום חדש שנקרא אינטרנט. יותר ויותר, החיפוש הוא המכניזם שבעזרתו אנו מבינים את עצמנו, את עולמנו ואת מקומנו בתוכו. הוא הדרך שבה אנו מנווטים במשאב האחד והאינסופי המניע את התרבות האנושית: ידע. חיפוש מושלם – כל פיסת ידע אפשרית בקצות אצבעותינו, בהקשר המושלם, בהתאמה אישית מושלמת – אולי לא יוגשם לעולם. אבל הדרך אליו היא הרפתקה נהדרת.

על אודות הסופר והספר

ג'ון בטל (John Battelle) היה ממייסדי ועורכי המגזינים Wired ו-The Industry Standard, וכיום הוא יזם עיתונות מקוונת ובעל טור. ספרו "The Search" יצא לאור ב-2005, ו-2006 יצא במהדורה עברית בשם "החיפוש" בהוצאת עברית וכתר.