במרומי הקומה ה־22 במתחם ההייטק שברחוב יגאל אלון בתל־אביב, מדגים לי תום ליבנה את יכולותיו של מנוע התמלול הישראלי שפיתחה חברת ורביט (Verbit). אנחנו שומעים שיחה מוקלטת באנגלית, ועל המסך ניתן לראות כיצד התוכנה של ורביט הופכת אותה למילים כתובות – וכיצד עושות זאת במקביל התוכנות שפותחו בגוגל וב־IBM. ניכר כי התוצר שמנפק המנוע הישראלי מדויק בהרבה מזה של ענקיות הטכנולוגיה העולמיות.
"כשרצינו לעשות הדגמה למשקיעים, הזמנו אותם אלינו למשרד שהיה סוג של מוסך ברחוב הארבעה", מספר ליבנה, שייסד את ורביט לפני שנה וחצי בלבד ומשמש בה כמנכ"ל. "הראינו להם תמלול של שיחות בשידור חי עם אנליסטים בבורסה (כל חברה שנסחרת בבורסה מבצעת אחת לרבעון שיחות כאלה, שנגישות לכלל הציבור – א"מ). מראש אמרנו להם: תבחרו יום, שעה וחברה, ונעשה לכם הדגמה בזמן אמת. מולנו הצבנו את המנועים של גוגל ו־IBM, והתוצאות שלנו היו מדויקות יותר ב־30 עד 40 אחוז".
הפיתוח של ורביט עשוי לחסוך לסטודנטים, אקדמאים, עיתונאים, עורכי דין ואחרים את אחת המלאכות השנואות עליהם: התמלול. רבים מקרב הנזכרים לעיל מעבירים שעות מאתגרות ומתישות בהאזנה לשיחות מוקלטות והעברתן אל הכתב. אחרים מוציאים סכומים גדולים כדי לשכור את שירותיהם של מתמללים מקצועיים. לא פעם תשמעו אותם תוהים בקול "איך עדיין לא הומצאה תוכנה שתעשה את זה במקומנו", ותמיד יהיה מי שיתנדב להסביר כי המחשב לא יכול להבחין בין מילים דומות, או לחלק את רצף הדיבור למילים ולמשפטים. אבל בעידן הבינה המלאכותית, המשימה הזו כבר אינה בגדר מדע בדיוני. האמצעים הטכנולוגיים שפיתחה ורביט, כך אומר ליבנה, מסוגלים להמיר אוטומטית קובץ אודיו לקובץ טקסט, וזאת על פי מודלים של הבנת שפה טבעית (שפה שמדברים בה בני אדם, בניגוד לשפות מלאכותיות כמו שפות המחשב). "המערכת שלנו גם אוספת נתונים על דוברים שונים, כדי לשפר את היכולת שלה לתמלל אותם בעתיד. באמצעות מסד הנתונים, היא מפענחת את המבטא, את קצב הדיבור ואת אוצר המילים שלהם, וכך משדרגת את האלגוריתם שלה לקראת המשימות הבאות".

הבשורה של ורביט, לפי ליבנה, מתפרשת הרבה מעבר לאותם סטודנטים או עיתונאים שמריצים אחורה וקדימה את קובץ ההקלטה, בעוד אצבעותיהם המקלידות מנסות להדביק את קצב המידע הזורם לאוזניהם. "יש המון אינטראקציות שקשורות לפקודות קוליות – אם זה בבית, באוטו או בכל מקום אחר. כשאני נותן פקודה קולית כמו 'לכבות את האור', המכשיר אמור קודם כול להבין מה אמרתי, ואז לבצע את הפקודה. לשם כך הוא צריך בשלב הראשון להפוך את הקול לטקסט, ואנחנו נאפשר לו לעשות את זה בצורה טובה יותר. שימוש נוסף יהיה בארכיונים של סרטונים וקטעי אודיו, שרוצים לאפשר חיפוש בתוכם על פי מילים מסוימות, או להנגיש את החומר לכבדי שמיעה באמצעות כתוביות. יש לנו כבר לקוחות ראשונים שאנחנו עושים עבורם את השירות הזה.
"עד סוף ספטמבר אנחנו שואפים להשיק מוצר תמלול בזמן אמת, שיהיה יעיל למשל לשידור של משחק כדורגל: חירשים שלא יכולים לשמוע את השדרן, יקבלו פתרון שכולל כתוביות. מעבר לכך, אנחנו רוצים לעזור ללקוחות שלנו לנצל את המשאבים הקוליים שלהם, שכיום לא מנוצלים בכלל. אנחנו הולכים לעשות מהפכה משמעותית בהרבה תחומים".
לראות את הקולות
ליבנה (33), מאורס טרי, מתגורר בהרצליה. הוא למד במגמת מנהל עסקים וכלכלה ב"אליאנס" בחיפה, התגייס לצנחנים, ואחרי השחרור יצא לטיול ההכרחי בדרום אמריקה. אחר כך למד בבינתחומי בהרצליה משפטים ומנהל עסקים, והמשיך לתואר שני בכל אחד מהתחומים. הוא החל לעסוק בעריכת דין – כמו אביו, אחיו הגדול ושתי אחיותיו הצעירות – אך לאחר תקופה קצרה הבין שהמקצוע לא ממש מעניין אותו. התחנה הבאה שלו הייתה לאומי־טק – חברת־בת של בנק לאומי, שמתמחה במתן שירותים לחברות הייטק צומחות. ב־2015 עזב את לאומי־טק והקים סטארט־אפ שלא האריך ימים.
באותה תקופה הוא החל לגלות עניין בעולם ה־AI (בינה מלאכותית) ככלל, ובענף Speech to text (המרת דיבור לכתב) בפרט. בסוף 2016 כבר היה לו רעיון חדש. "ניסיתי לחשוב איך ניתן לשמר מידע ורבלי שאובד ואין לו תיעוד. אם הקלטת הרצאה אתה יכול לשחזר את מה שנאמר בה, אבל רוב המידע אינו מוקלט, ופשוט נעלם. החזון היה להפוך את כל המידע המילולי בעולם לבר־חיפוש ונגיש. כך זה התחיל".
ליבנה חיפש שותף למימוש החזון הגדול, ודרך חבר משותף הגיע אל אריק שלף, שתחום המומחיות שלו הוא המרת קול לטקסט. "אריק עשה במכון וייצמן דוקטורט במתמטיקה והסתברות, והיה לו ניסיון במה שחיפשתי. דיברנו על הרעיון, והחלטנו להתחיל ממשהו ישים. הוא בדיוק סיפר שהיו לו כמה פגישות שהוא צריך לתמלל, וגם ואני נזכרתי כמה כסף וזמן היינו מוציאים על תמלול כשעבדתי כעורך דין. התחלנו לגלגל ולפתח את הרעיון. חשבנו מה יהיה המודל העסקי, ואיך אנחנו אוספים כמויות גדולות מאוד של נתונים כדי ליצור מנוע קולי שיתמוך במגוון של שפות, מבטאים ומשתנים נוספים".
שלף שימש באותה תקופה כראש תחום מכשור לביש וזיהוי דיבור בחברת אינטל (שרכשה את הסטארט־אפ "ג'ינג'ר", מקום עבודתו הקודם). הוא עזב את תפקידו שם והצטרף למיזם של ליבנה. אליהם חבר גם קובי בן־צבי, שהביא איתו ניסיון בתחום בניית הפלטפורמה, ומשמש היום כסמנכ"ל ההנדסה של ורביט. החברה יצאה לדרך בתוך זמן קצר, ועד מהרה גם ראתה הצלחה והתברגה בצמרת שוק התמלול.

לליבנה יש הסבר פשוט לזינוק המהיר מהרעיון התיאורטי ועד למעמד הנוכחי. "כולנו כבר יזמים מנוסים, והיה לנו ברור מה צריך לעשות", הוא אומר. "יש לנו גם שותפים מדהימים לדרך, משקיעים שהגיעו, ואנחנו מרגישים בני מזל לקבל את תמיכתם. כיף לנו לעבוד ביחד, וגם התרבות הארגונית שיצרנו בחברה היא מיוחדת. אחד הדברים שאני גאה בו, מעבר להתפתחות המהירה של ורביט, הוא הדי־אן־איי שלה. האנשים כאן כולם מאמינים גדולים בפיתוח שלנו. לא מזמן אנחנו, המייסדים, היינו צריכים להציג את המוצר בפני לקוח, וכל החבר'ה נשארו כאן ולא הלכו הביתה, מבחירה. הם רצו לראות איך זה עובד. זו תרבות של שיתוף פעולה, רצון להצליח ומצוינות".
תכל'ס, איך השירות שלכם עובד?
"הלקוח מעלה קובץ הקלטה, ואנחנו מעבדים אותו במנוע ASR (זיהוי דיבור) – אלגוריתם אוטומטי שיודע להפוך קול לטקסט. יש הרבה גורמים שמשפיעים על רמת הדיוק של התמלול, כמו למשל סוג השפה. גם אם מדובר באנגלית, בתוכה יש 'שפות מקצועיות' שונות בתחומים כמו משפט, חינוך, רפואה ועוד. גורמים נוספים הם המבטא של הדובר, והאקוסטיקה – האם ההקלטה נוצרה בחדר סגור או חלל פתוח. האתגר שלנו הוא גם להתגבר על רעשי רקע שונים המפריעים לשמוע בצורה ברורה. אחרי שאנחנו עורכים תשאול ראשוני כדי להבין מי הלקוח ומה הצרכים הספציפיים שלו, אנחנו מתאימים לו את המנוע".
האמצעים הטכנולוגיים עדיין לא מבטיחים דיוק מלא, ולכן ורביט נשענת גם על הגורם האנושי. "התמלול האוטומטי שמופק נשלח למתמללים מקצועיים שאנחנו מעסיקים בכל העולם, והם משלימים את העבודה בעזרת כלי עריכה מיוחד שפיתחנו. המערכת שלנו מסמנת להם באדום את המקומות שבהם יש סיכוי גבוה שזיהוי המילה שלה אינו מדויק. המערכת גם מסנכרנת בין הסאונד והטקסט, כך שאם אתה רוצה לבדוק נקודה מסוימת שמסומנת כבעייתית בתמלול, תגיע מיד לאותה נקודה בהקלטה. כל תיקון שהם מכניסים נלמד על ידי המערכת ומשפר את האלגוריתם שלנו".
גם הלקוח מקבל את כלי העריכה, למקרה שיישאר לו עוד מה לתקן?
"ללקוח יש גישה לכלי העריכה, אבל התוצר הסופי שהוא מקבל זה תמלול מושלם, כשההתחייבות שלנו היא ל־99.9 אחוז דיוק. אם סטנפורד, אחת האוניברסיטאות המובילות בעולם, צריכה כתוביות להרצאות און־ליין שלה, היא שולחת לנו את הסרטון ומקבלת את הכתוביות ברמה הזו. אותם פחות מעניין איך זה קורה".

המתמללים האנושיים שאתם מעסיקים עוברים רק על המקומות הבעייתיים?
"כרגע, כחלק מנוהלי העבודה, הם עוברים על כל הטקסט כדי להגיע לתמלול האיכותי ביותר האפשרי. אנחנו מחויבים לזה".
המודל הכלכלי שעל פיו פועלת ורביט הוא תמחור לדקת אודיו. "השאיפה היא לנצל את המשאבים שלנו לפרויקטים שיש בהם כמה שיותר דקות. לכן חברה שמספקת לנו רק מאה דקות תמלול בחודש, היא לא הלקוח המועדף עלינו. אנחנו מתמקדים בלקוחות עם צרכים גדולים מאוד, ובפרויקטים עם התחייבות מראש למינימום של 10,000 דולר בשנה".
עיתונאים צריכים כל הזמן לתמלל, אבל אנחנו לא עובדים בסדרי הגודל שמתאימים לכם. נצטרך להמשיך להקליד הכול בעצמנו?
"אנחנו מתכוונים להשיק בעתיד מוצר מיוחד לעיתונאים. הם יקבלו את התמלול האוטומטי, עם הסימונים במקומות שבהם המערכת לא בטוחה במאה אחוז – ואז יתקנו בעצמם את מה שדורש תיקון. כך נוכל להציע להם שירות ברמת מחיר נמוכה יותר, כי לא נצטרך לשלם למתמללים חיצוניים".
משולש הזהב
לדברי ליבנה, ורביט נמצאת כיום בשלישייה המובילה בעולם, מבחינת מספר המתמללים שלה ונפח ההקלטות שהיא מעבדת. "מתקיימים הרבה מאוד מכרזים בשוק, ובסופו של יום אותן שלוש חברות זוכות בהם, ואנחנו אחת מהשלוש. אם תשאל בארצות הברית על תמלול בתחום החינוך, תשמע הרבה את השם שלנו. מלבד אוניברסיטת סטנפורד יש לנו לקוחות כמו אוניברסיטת הרווארד או בית הספר לעסקים של לונדון. זה לא מגיע לבד".

במה אתם שונים מחברות בעולם שמציעות שירותי תמלול אנושיים קלאסיים?
"נותני שירות נמדדים באופן כללי לפי משולש הזהב – איכות, מהירות ומחיר. בדרך כלל אתה יכול לנצח רק בשני פרמטרים מתוך השלושה, כי תמיד דבר אחד בא על חשבון האחר. אם תרצה תמלול זול מאוד – או שהוא לא יהיה מדויק, או שהעבודה תיקח הרבה זמן. תרצה תמלול מהיר – גם זה יבוא על חשבון הדיוק, או שהשירות יהיה יקר במיוחד. הטכנולוגיה שפיתחנו מאפשרת רמת דיוק גבוהה, ולמכונה אין יום רע, מהירות התמלול גבוהה יותר באופן משמעותי כשרוב העבודה נעשית באופן אוטומטי, וזה גם מאפשר להוזיל את העלויות.
"אם נמפה את עולם התמלול, בארה"ב יש כ־5,000 חברות שעוסקות בתחום, ורובן המוחלט לא משתמשות בכלים טכנולוגיים. אולי חמש הן מוכוונות טכנולוגיה, וגם להן אין מנוע זיהוי דיבור שפותח על ידן. בדרך כלל הן ישתמשו במנוע של גוגל או של אמזון. כאשר הטכנולוגיה לא שייכת לך, אתה לא יכול 'ללמד' אותה, והיא לא מתפתחת. ורביט היא החברה היחידה בעולם שגם מחזיקה את הטכנולוגיה וגם מציעה את השימוש בה. לא סתם הגענו בתוך שנה וחצי ל־50 עובדים במשרה מלאה בארץ, עוד עשרה מתכנתים באוקראינה, אלפי מתמללים פרילנסרים, כמעט מאה לקוחות, והכנסות משמעותיות מאוד".
זה מדהים שחברות ישראליות קטנות מצליחות לחלוף על פני אלפי חברות עולמיות.
"תראה, אנחנו לא מתחרים בעולם זיהוי הדיבור, ולא מוכרים מנוע זיהוי דיבור כמו גוגל. לא תמצא אצלנו אפשרות כזאת. אנחנו משתמשים במנוע זיהוי דיבור כחלק מהפתרון שלנו לתמלול, ואנחנו מוכרים תמלול ברמת דיוק שנושקת למאה אחוזים. במנועי זיהוי דיבור אתה לא יכול לקבל התחייבות על דיוק. הסוד שלנו הוא השילוב של עבודה קשה ופתרון חדשני שלא נראה כמוהו בשוק".
בעקבות ההתחלה המפתיעה והפוטנציאל הגדול, השלימה ורביט גיוס של 11 מיליון דולר בתוך שנה מיום הקמתה. "לקרנות הון־סיכון יש מטרה אחת – הן משקיעות כדי לראות רווחים. אנחנו באנו אליהן בתוך זמן קצר עם לקוחות משלמים ועם מוצר התחלתי, הן ראו שיש כאן צוות חזק עם שאיפות גבוהות – והחליטו להשקיע. בוא נגיד שהיו כבר כמה חברות שהתעניינו ברכישת ורביט, אבל החלטנו שאנחנו לא מעוניינים למכור".
למה מיועד הכסף שגייסתם עד כה?
"המשך התרחבות של צוותי המכירות והפיתוח, והוספת פיצ'רים חדשים. כרגע אנחנו מתמקדים בתמלול בתחומי החינוך והמשפט, אבל אנחנו רוצים להוסיף גם ביטוח, פיננסים, מדיה ועוד. בארה״ב יש דרישה להמרת דיבור לטסט גם בשפה רפואית, כי קיימת שם חובת תמלול לצורך ביטוח רפואי. כל דבר כזה דורש התאמות של המוצר, וכיוונים חדשים של מאמצי המכירות והשיווק".
מיליארד דולר? אולי
בשלב הזה מתמקדת ורביט בתמלול בשפה האנגלית, שבה כמובן קיים השוק הגדול ביותר, אבל ליבנה מבטיח להרחיב את המנעד. "השפה הבאה תהיה ספרדית, שהשוק שלה הוא השני בגודלו. יש ביקוש גם לרוסית ולסינית כמובן, אבל אנחנו עדיין לא מרגישים מספיק חזקים שם".
מה עם עברית?
"גם זה מתוכנן. השוק אמנם לא גדול, אבל זה המגרש הביתי שלנו, ונוכל להיות בו מונופול. כרגע יש לנו בעברית פתרון בסיסי מאוד, ברמת דיוק של שישים־שבעים אחוז, כי יש לנו פחות דאטה זמין. כדי להגיע לתשעים אחוז, אנחנו צריכים להשקיע כמה חודשי עבודה אינטנסיביים".

האלגוריתם שלכם יכול להבין אותנו ולאיית נכון גם כשאנחנו בעצמנו לא מקפידים על ההגייה? האם קל לו יותר לפענח דיבור של בני עדות המזרח, שמבדילים בין כ' לבין ח'?
"הכול פונקציה של אימון לפי דובר ספציפי. ברגע שמגיעה הקלטה של דובר שמשתמש ב־ח' ו־ע', ויהיה מספיק דאטה, המנוע ידע לעשות את ההתאמות".
היכן אתה רואה את ורביט בעתיד?
"בתוך זמן קצר אנחנו רוצים להיות חברת התמלול הטכנולוגית הגדולה בעולם, בכל השפות ובכל הקטגוריות. כאמור, אין לנו רצון לעשות אקזיט. החזון שלנו הוא לבנות חברה גדולה שתלך עד הסוף, ומבחינתי המשמעות היא הנפקה בנאסד"ק. בטווח של עשר שנים – השאיפה היא להגיע לאלפיים עובדים והכנסות של מאות מיליוני דולרים".
תתמידו בסירוב שלכם למכור את החברה?
"בסוף לכל דבר יש מחיר. אם מחר יציעו לנו מיליארד דולר – סיכוי גבוה שנענה בחיוב. בעוד חמש שנים ייתכן שכבר לא נסכים למחיר הזה".
אתם תהיו הגוגל של התמלול?
"אם כבר, הייתי משתמש בהגדרה 'אוּבֶּר של עולם התמלול'. אובר נכנסו לתחום מיושן, המוניות, ועשו בו מהפכה טכנולוגית. עכשיו הם מנהלים צי ענק של מיליוני נהגי מוניות, שבסופו של יום הם פרילנסרים שעובדים עבורם. אותו דבר אנחנו עושים לשוק התמלול – אנחנו מנהלים צי של מתמללים שהם פרילנסרים שלנו. אבל מעבר לכך, יש המון דברים שאפשר לעשות עם זיהוי קול, ואנחנו נרצה לעזור ללקוחות שלנו להשתמש בכל המידע המילולי שהם מייצרים ולהפיק ממנו ערך. מבחינתנו תמלול זאת רק ההתחלה".