OpenAI נאלצה להתנצל בפני השחקנית סקרלט ג'והנסון בשבוע שעבר על כך שהשתמשה בקולה – או משהו דומה מאוד – בצ'אטבוט האחרון שלה, מה שדחף את טכנולוגיית שכפול הקול לאור הזרקורים.
למרות ש-OpenAI הכחישה שהקול שבו השתמשה הוא של ג'והנסון, הטיעון שלהם לא קיבל עזרה מהחלטתו של המנכ"ל סם אלטמן לתייג את מודל הקול החדש בהודעה של מילה אחת ברשתות החברתיות – "Her". ג'והנסון דיבבה דמות בינה מלאכותית בסרט "Her", שאותו אלטמן ציין בעבר כסרט האהוב עליו בנושא טכנולוגיה.
מאז תחילתה, טכנולוגיית שכפול הקול הוכיחה עצמה כבעייתית. בשנה שעברה, חברת Elevenlabs הבריטית הפכה ויראלית מהסיבות הלא נכונות כאשר שחררה את תוכנת שכפול הקול שלה. טרולים באינטרנט החלו מיד להפיץ קטעי קול מזויפים של סלבריטאים – כוכבת הארי פוטר אמה ווטסון הושמעה כאילו היא קוראת את מיין קאמפף של היטלר. רשויות החוק הזהירו ששיבוטי קולות יכולים לשמש לסחיטת כסף בטלפון מקרובים.

הטכנולוגיה התפתחה במהירות בשנה האחרונה והפכה להרבה יותר מציאותית ומעודנת. היזם הדני ויקטור ריפרבלי, מנכ"ל חברת הבינה המלאכותית הבריטית Synthesia, אמר ל-AFP שזה בעיקר בזכות תוכנה בשם Tortoise ששוחררה לפני שנתיים. מפתחי התוכנה הזרימו אלפי שעות של נתוני קול לתוך הדגם שלהם בצורה לא מובנית וגילו שהוא לא רק לומד מה להגיד אלא גם איך להגיד את זה.
"זו הייתה שינוי פרדיגמה די גדול". אמר ריפרבלי בכנס VivaTech בשבוע שעבר בפריז. Tortoise הייתה תוכנה בקוד פתוח ו-Elevenlabs הייתה הראשונה לצאת לשוק באמצעותה. OpenAI משתמשת במערכות דומות למרות שהיא לא משחררת פרטים כלשהם.

"לא מאוד טוב"
רוב המחלוקות סביב שכפול הקול התרכזו בחששות משימוש לרעה בתוכנה. אבל הטענה נגד OpenAI היא יוצאת דופן כי החברה עצמה היא שנאשמת בהתנהלות לא אחראית. "היה מאוד מצער ש-OpenAI עשתה את זה – באמת לא מאוד טוב," אמרה קטיה ליין, מנכ"לית TALKR.ai, ל-AFP ב-VivaTech. "אם הם באמת שיבטו את קולה בלי שהיא תדע אז אני חושב שזה מאוד מאוד רע," אמר ריפרבלי.
שני היזמים הם בין מאות המשתמשים בתוכנות קול שמבוססות בינה מלאכותית למטרות שהם טוענים שיהפכו את החברות ליעילות יותר. החברה של ליין מספקת עוזרות קוליות וירטואליות – למעשה נציגות שירות לקוחות מבוססות בינה מלאכותית. היא אמרה שהמערכת שלה יכולה לפתור כעת 25 עד 30 אחוז מהשיחות בלי שום מעורבות אנושית.
Synthesia מתמחה באווטארים בווידאו, שלפי ריפרבלי מאפשרים לכל עובד משרד להפוך טקסט או שקפים לסרטון על ידי בינה מלאכותית מציאותית.
גם ריפרבלי וגם ליין מאפשרים ללקוחותיהם להשתמש באווטארים שלהם, מוצרים מוכנים או כאלה שמסופקים על ידי חברות כמו OpenAI ו-Elevenlabs.
ריפרבלי אמר ש-Synthesia משתמשת בשחקנים שהקולות שלהם הושכרו לשנתיים עם אפשרות לחדש לאחר התקופה הראשונית. הבעיות מתעוררות אם משתמשים בקולות השחקנים ללא הסכמתם.
"תקדים מוזר"
הפיאסקו העיב על כנס מפתחים בפריז בשבוע שעבר כאשר OpenAI הציגה חבילה של כלים חדשים. מול מסך גדול באודיטוריום, רומן הואט, ראש חוויית המפתחים של OpenAI, שוחח בקצרה בטלפון שלו. כמה שניות לאחר מכן, הדגימה הקולית הקצרה שלו עובדה ונשמעה כקריינות על גבי וידאו שנוצר – בחמישה שפות.
ההדגמה הראתה עד כמה התחום מתקדם במהירות, אך הכותרות כבר נכתבו. הוושינגטון פוסט שאל בניוזלטר "כמה טיפשה OpenAI?", פרשנים אחרים הציעו שאלטמן הצעיר הוא לא יותר משרלטן.
למרות זאת, ריפרבלי פתוח לטענת OpenAI שהם השתמשו בשחקן אחר שנשמע כמו ג'והנסון. "אם זה לא היא אבל מישהי שנשמעת מאוד כמוה… איפה עובר הגבול?" שאל ריפרבלי. "אם הם לא מורשים להשתמש במישהו שנשמע מאוד כמוה, אז זה מציב תקדים מאוד מוזר".