שנת 2022 היא שנת הבינה המלאכותית. זה הרבה זמן שעובדים על פיתוחים בנושא אבל השנה חווינו את ההתפוצצות. נראה שהמחשב יכול לעשות כבר הכול. אחרי DALL-E-2 ושלל התוכנות להפיכת טקסט לתמונה, הצ'ט המתוחכם ChatGPT וכעת מגיע הדבר הגדול הבא.
D-ID הישראלית השיקה היום באמצעות Product Hunt את פלטפורמת הווידיאו הראשונה בעולם המאפשרת יצירה של טקסטים ותמונות והנפשתם באמצעות בינה מלאכותית. התוכנה משלבת את הטכנולוגיה הייחודית של D-ID לצד אפשרות ליצירת טקסטים בטכנולוגיית GPT-3 מבית OpenAI ויצירת תמונות בעזרת Stable Diffusion בפיתוח Stability AI, היא מאפשרת שימוש במודלים של deep learning ליצירת סרטונים של דמויות דיגיטליות המסוגלות לדבר בכ-120 שפות, ואשר נוצרו על ידי תיאורים אותם הזינו המשתמשים או אפילו תמונות של אותן דמויות.
אם שם החברה מוכר לכם, זה מכיוון שהיא התפרסמה בסרטון "שהחזיר לחיים" 5 נשים שנרצחו על ידי בן זוגן, ש"דיברו" בקולן. חמש הנשים ש"סיפרו את סיפורן" באמצעות דיבוב היו מיכל סלה, אסתר ברהני, מרין חאג' יחיא, אסתר אהרונוביץ ושגית עוזרי.
מלבד האפשרות המלהיבה של לקחת תמונה של חבר ולהפוך אותה לסרטון בו הוא אומר כל מה שאתם רוצים, הסטודיו מעצים את יכולותיהם של יוצרי תוכן, אנשי שיווק ופיתוח ארגוני, ומאפשר להם ליצור תכני וידאו המשלבים בתוכם פרזנטורים דיגיטליים. כך מותגים, חברות, יוצרי תוכן, אמנים דיגיטליים, יוצרי קולנוע וסוכנויות פרסום יכולים ליצור בקלות סרטונים על ידי העלאת תמונת פנים בודדת והבאתה לחיים.
איך זה עובד?
לתוכנה יש כמה אפשרויות. אתם יכולים לבחור האם להשתמש בתמונה של בן אדם, לייצר דמות בעזרת תיאור גרפי בטקסט או לבחור דמות דיגיטלית מוכנה מראש.
אם תרצו להעלות תמונה של אדם שאתם מכירים, שימו לב שחצי הגוף העליון שלו יהיה בבירור מול המצלמה והוא לבד בפריים.
לאחר שבחרתם את הדמות הרצויה אתם יכולים לכתוב טקסט שתרצו, אם תעשו זאת באנגלית תגלו שיש הרבה אפשרויות שונות של קולות ואפילו מצבי רוח. אם תכתבו בעברית תצטערו לגלות שהבחירה היא רק בין קול גברי אחד וקול נשי אחד. עוד פיצ'ר קטן אך מעניין הוא האפשרות לתת לבינה המלאכותית להשלים לכם את הטקסט.
לאחר מכן לחצו על כפתור generate video ותוך כמה שניות תמצאו סרטון של האדם שרציתם אומר את הטקסט שאתם רוצים.
בכל סרטון יש לכם 3,875 תווים, כך שתוכלו לכתוב נאום שלם ולהלביש אותו על האדם. כמו בשאר הבינות המלאכותיות, גם כאן המודל העסקי הוא קרדיטים. תחילה תקבלו 20 קרדיטים, ואם תרצו להמשיך תצטרכו לשלם, המחיר הוא 50 דולר לחודש ותקבלו בסביבות 60 קרדיטים אשר מתורגמים ל-15 דקות של ווידאו רצופות.
הסכנה המידית היא כמובן האפשרות לייצר פייק ניוז בקלות, ממש כמו הסרטון שאנחנו הכנו של סיימון לבייב, נוכל הטינדר. אך שימו לב, D-ID הצליחו להתגבר באופן די מוצלח על הבעיה הזאת והם סורקים את הרשת אחרי תמונות של מפורסמים ויודעים לסמן מי אדם ידוע לציבור וחוסמים את האפשרות להדביק לו טקסט. כנראה שנוכל הטינדר לא מספיק ידוע לציבור. בנוסף, ישנן הגבלות של זכויות שידור, אם תנסו נסיכת דיסני למשל המערכת לא תיתן לכם.
לפי גיל פרי, מנכ"ל ומייסד שותף D-ID, החברה עובדת על הוספת קולות נוספים לשפות שלה. הוא מספר ל-mako כי כבר היום ישנן חברות המבקשות לשכפל סאונד של אדם לצורך הוספתו לסרטונים ובקרוב היכולת הזאת תהיה זמינה אוטומטית גם בסטודיו.
והאם הם לא חוששים משימוש ברעה בטכנולוגיה? פרי טוען: "הנושא נמצא לנגד עינינו כל הזמן. רק בשנה האחרונה ייצרנו הרבה מעל 100 מיליון סרטונים עבור הלקוחות שלנו ולא נתקלנו בשימוש אחד לרעה שנעשה בטכנולוגיה שלנו. זאת בזכות הדגש הרב שאנחנו שמים על הנושא, כולל עבודה עם היועצים שלנו, שהם מומחים עולמיים בתחום האתיקה. אנחנו משתמשים בכלים המתקדמים ביותר הקיימים היום בשוק לזיהוי תוכן פוגעני ומניעת העלאת תמונות של מפורסמים.
"בנוסף, יש לנו watermark, וכל משתמש שנרשם לסטודיו שלנו חותם על הסכם לפיו אסור לו לעשות שימוש לרעה בטכנולוגיה שלנו, ואנחנו רשאים לתבוע אותו ולנתק אותו מהמערכת במידה ויפר את התנאים".
חשוב לציין שאומנם עד כה לא נעשה שימוש לרעה, אך הטכנולוגיה לא הייתה פתוחה לקהל הרחב, כעת כשכל אחד יכול לעשות סרטונים של אנשים מדברים, אנחנו כנראה ניתקל בכמה שיצליחו לעקוף את המגבלות ולייצר סרטונים בעייתיים.
שורה תחתונה
מדובר בכלי מפחיד. רמת הגימור שלו כמעט מושלמת, מלבד כמה מילים שהוא לא יודע לבטא כמו שצריך, עדיין יש לו בעיה להבדיל בין זכר לנקבה. אך המוצר הסופי יותר ממספיק כדי לשלוח לכל מי שאתם רוצים ולקבל תגובות נפעמות מהתוצאות שלו, במיוחד בשפה האנגלית. עם זאת מדובר בהתקרבות קצת מדאיגה לסצנה מתוך מראה שחורה, כך יצרנו למשל דמות נשית שתלחש לנו משפטים מאוד אינטימיים וקיבלנו עור ברווז בתוך שניות.