היוצרים של ChatGPT צוללים לעולם הבינה המלאכותית בווידאו. הכירו את סורה – מחולל הטקסט-לווידאו החדש של OpenAI. הכלי, שאותו השיקה החברה בשבוע שעבר, מהשתמש בבינה מלאכותית גנרטיבית כדי לייצר יש מאין סרטונים קצרים על בסיס פקודות כתובות.
סורה הוא לא הכלי הראשון שמפגין יכולת טכנולוגית שכזו. אך מומחים בתעשייה מצביעים על האיכות הגבוהה של סרטונים שהתוכנה ייצרה עד כה, ומציינים שהשקתה פירושה זינוק משמעותי הן עבור OpenAI וכן עבור תחום הטקסט-לווידאו באופן כללי.
ובכל זאת, כמו בכל תחום שקשור לבינה מלאכותית בימים אלו, הטכנולוגיה הזו גם מעוררת חששות מפני השלכות אתיות וחברתיות. הנה כל מה שאתם צריכים לדעת בנושא.
מה זה "סורה" והאם הוא מוכן לשימוש?
סורה הוא מחולל טקסט-לווידאו – הוא יוצר סרטונים של עד 60 שניות שמבוססים על הוראות כתובות שמוזנות לבינה מלאכותית גנרטיבית. המודל גם יכול לחולל וידאו על בסיס תמונה בודדת.
בינה מלאכותית גנרטיבית הוא תת-תחום ב-AI שבו מנוע מייצר תכנים חדשים. הדוגמאות המפורסמות הן צ'ט-בוטים כמו ChatGPT, ומוללי תמונות כמו DALL-E ומידג'רני. שימוש בבינה מלאכותית כדי לחולל סרטונים הוא חדש ומאתגר יותר אך נשען על אותו סוג של טכנולוגיה.
סורה עוד לא זמין לשימוש הציבור (החברה אומרת שהיא מתאמת עם מחוקקים ואמנים לפני הפיכת הכלי לפומבי) ויש הרבה שאנחנו עוד לא יודעים. אך מאז ההכרזה הרשמית ביום חמישי, החברה פרסמה כמה סרטונים שחולל סורה כדי להציג מה הוא יכול לעשות.
מנכ"ל OpenAI סם אלטמן העלה פוסט ל-X ובו ביקש ממשתמשים לכתוב רעיונות לסרטונים. בהמשך הוא הגיב להצעות מעניינות כמו "שני כלבי גולדן רטריבר מקליטים הסכת על פסגת הר" ו"מרוץ אופניים בים שבו משתתפים בעלי חיים שונים במבט רחפן מלמעלה" עם סרטונים מוכנים
בעוד שסרטונים שמייצר סורה יכולים להציג סצנות מורכבות ומפורטות מאוד, בחברה מציינים שעוד יש חולשות שצריך לשדרג – כמו תפיסת חלל ואלמנטים של סיבה ותוצאה. לדוגמה, OpenAI כתבה ש"אדם עשוי לנגוס בעוגייה, אך לאחר מכן היא תוצג ללא סימן לנגיסה".
האם קיימים כלים אחרים שמסוגלים לייצר וידאו בבינה מלאכותית?
סורה אינו הראשון מסוגו. גוגל, מטה והסטארט-אפ Runway ML הן בין החברות שהציגו טכנולוגיה דומה. ובכל זאת, מומחים בתעשייה מדגישים את האיכות הנראית לעין ואת האורך המרשים של הסרטונים של סורה ששותפו עד כה. פרד האומאייר, ראש מחקר בינה מלאכותית ותוכנה בחברת "מאקווייר", אמר שההשקה של סורה היא צעד גדול קדימה עבור התעשייה.
"לא רק שאתה יכול לייצר סרטונים ארוכים יותר, עד 60 שניות להבנתי, אבל גם הסרטונים שנוצרים נראים נורמליים יותר ונראה שהם למעשה מכבדים יותר את חוקי הפיזיקה ואת העולם האמיתי", אמר האומאייר.
בעוד שהייתה "התקדמות אדירה" בווידאו שנוצר על ידי בינה מלאכותית במהלך השנה האחרונה – כולל ההשקה של Stable Video Diffusion בנובמבר האחרון – רואן קוראן, מומחה בכיר בתעשייה, אמר שסרטונים כאלה דורשים עוד עבודה כדי שייראו עקביים וטובים.
העקביות והאורך של הסרטונים של סורה, לעומת זאת, הם "הזדמנויות חדשות עבור אנשי קריאייטיב לשלב אלמנטים של וידאו שנוצר בינה מלאכותית בתוכן מסורתי יותר, וכעת אפילו ליצור סרטונים נרטיביים מלאים", אמר קוראן.
מהם הסיכונים הפוטנציאליים?
אף שהיכולות של סורה הדהימו צופים מאז ההשקה ביום חמישי, נותרה גם החרדה מההשלכות האתיות והחברתיות של שימושי וידאו שנוצרו בבינה מלאכותית. האבמאייר מצביע על הסיכונים המהותיים בבחירות 2024, למשל. היכולת ליצור סרטונים שעשויים להיראות ולהישמע מציאותיים מעוררת כמה חששות פוליטיים, משפטיים ועוד – שכן זה יכול להוביל בקלות להונאה, תעמולה והפצת חדשות כוזבות.
"ההשפעות החיצוניות השליליות של בינה מלאכותית גנרטיבית יהיו נושא חיוני לדיון ב-2024", אמר האבמאייר. "זו בעיה מהותית שכל עסק וכל אדם יצטרכו להתמודד איתה השנה".
חברות טכנולוגיה עדיין פועלות בכל הנוגע לשליטה בבינה מלאכותית ובסיכונים שלה, כאשר ממשלות ברחבי העולם פועלות להדביק את הפער. בדצמבר האיחוד האירופי הגיע להסכמה על כללי הבינה המלאכותית המקיפים הראשונים בעולם, אך החוק לא ייכנס לתוקף עד שנתיים לאחר האישור הסופי.
ביום חמישי OpenAI אמרה שהיא נוקטת בצעדי בטיחות חשובים לפני שתהפוך את סורה לזמינה באופן נרחב. "אנחנו עובדים עם מומחים בתחומים כמו חדשות כוזבות, תוכן שנאה והסתה – שיבדקו את המודל", כתבה החברה. "אנחנו גם בונים כלים שיעזרו לזהות תוכן מטעה כמו מסווג זיהוי שיכול לדעת מתי סרטון נוצר על ידי סורה".