מה אתם רואים כאן, ומה נעלם מהעין?
התמונה הורכבה בתודעת המכונה משני יסודות נפרדים. הראשון הוא פקודה בסיסית מילולית: "ילדים בחוף הים". היסוד השני הוא קובץ תמונה, ובו הכיתוב "סוף אוגוסט".
מחולל התמונות פועל ב"שכבות עבודה": הבינה המלאכותית משפרת את התמונה שהיא יוצרת, שכבה אחר שכבה, עד לקבלת התוצר הסופי.
הצלחנו לחלק את תהליך העבודה של הבינה המלאכותית כך שנוכל להוסיף את הרכיבים השונים לאילוצים שהמכונה נדרשת לעמוד בהם. בהתחלה ביקשנו ממנה לייצר רק את תמונת הילדים בחוף הים. לאחר שהשלימה כ־20 אחוזים מהעבודה הנדרשת, הוספנו לה אילוץ: לשלב בתמונה את הכיתוב "סוף אוגוסט". לקראת סוף התהליך, בערך לאחר 80 אחוזים מהמלאכה, "שחררנו" את הכיתוב, והנחנו לבינה לסיים את התמונה בלי האילוץ הזה. כעת היא עבדה רק לפי הפקודה הראשונית, "ילדים בחוף הים".
התוצאה: מנוע הבינה מלאכותית יצר תמונה, הכניס לתוכה את הכיתוב, ואז תיקן את העיוות ושילב אותו בדרכים מקוריות בתוך התמונה הסופית.
*המנוע ששימש ליצירת התמונה הוא Stable Diffusion בשילוב מודל Controlnet