הסרטונים המזויפים הגיעו לרמה שכבר אי אפשר לזהות אותם

אנחנו יודעים שאתם במתח, אז נתחיל מהסרטון. צפו בו ותענו לעצמכם (ולנו, בתגובות - אבל בכנות!) על השאלה האם הייתם מסוגלים להבדיל בין הסרטונים בצד שמאל, שהם אמיתיים, לאלה שבצד ימין, שהם סרטונים שבהם הולבשו הבעות הפנים של האנשים בצד ימין על סרטונים אחרים - לפעמים של אנשים אחרים, ולפעמים של אותם אנשים במצב אחר.

כאן המקום להודות: התשובה שלנו לשאלה, ברוב הסרטונים, היא לא. כן, אנחנו מודים: אנחנו, עיתונאי טכנולוגיה ספקנים, כבר לא מצליחים להבדיל בין הדבר האמיתי לזה שבעבר היינו מזהים תוך שנייה.

הטכנולוגיה שיצרה את הסרטונים האלה היא מערכת בינה מלאכותית שנבנתה על ידי חוקרים מאוניברסיטאות מינכן, Bath וסטנפורד, מוסד מקס פלנק וחברת Technicolor, ותוצג בוועידת SIGGRAPH שתיערך בקנדה בעוד כחודשיים ושבוע.

בניגוד למערכות דומות שהוצגו בעבר (ביניהן אחת שהוצגה באותה תערוכה בשנה שעברה), שמסוגלות להזיז בעיקר את השפתיים של הדובר בווידאו לפי הפנים או הדיבור המוקלט שרוצים שהדמות בסרטון תאמר - המערכת החדשה משכפלת הכל - תנועות שפתיים, הבעות פנים, מצמוצים, תנועות ראש ואף את תנועות פלג הגוף העליון. הכל כדי שהאדם בסרטון התוצאה ייראה כאילו הוא אומר דברים אחרים מאלה שאמר בזמן הצילום.

כפי שניתן לראות, כדי לבדוק את יעילות המערכת החוקרים קצת תיחמנו: בנוסף לבדיקות שבהן שחקנים עיוותו את פניהם והן שוכפלו על אנשים מפורסמים כמו נשיא ארה"ב לשעבר ברק אובמה, נשיא רוסיה הנצחי ולדימיר פוטין וראש ממשלת בריטניה תרזה מיי, נוצרו גם סרטונים של המפורסמים שמבוססים על סרטונים אחרים שלהם. במילים אחרות: המדענים לקחו הקלטה אחת של אובמה, ושכפתו את תנועות הראש והשפתיים שלו להקלטה אחרת שלו. התוצאה מדהימה, במיוחד בהשוואה לטכנולוגיות הקודמות שבהן ניתן היה לראות גמגומים ברורים בתנועה, שחשפו את התרמית.

אנחנו לא היחידים שהתקשו להבדיל פה בין הסרטונים המקוריים למזויפים: החוקרים ביצעו ניסויים בהשתתפות מעט יותר מ-200 איש, בהם הוקרנו למשתתפים קטעים של 5 שניות ואחרי כל אחד הם התבקשו לדרג עד כמה הוא נראה אמיתי מ-1 עד 5. רק 80% זיהו סרטונים אמיתיים, וחצי מהמשתתפים חשבו שהזיופים אמיתיים. מעניין לציין שמעט יותר מחצי הוטעו על ידי זיופים ברזולוציה גבוהה יותר - כלומר, אנשים הניחו שאם האיכות גבוהה יותר הסרטון אמין יותר. הזיוף של פוטין (סרטון שבו נאום שלו מולבש על סרטון אחר שלו) השיג את התוצאה הגבוהה ביותר - האמינות שלו דורגה בקושי 10% פחות מהסרטון האמיתי.

מדובר בצעד משמעותי לקראת עתיד דיסטופי שבו לא נוכל להאמין לשום דבר שמישהו אומר אלא אם הוא עומד מולנו ואנחנו רואים אותו אומר אותו. זה התחיל לפני שנה וחצי, כאשר אדובי חשפה את תוכנת VoCo, שמאפשרת עריכת משפטים בהקלטות קול על ידי גזירה והדבקה של מילים; בשנה שעברה הושק שירות Lyrebird, שלומד קולות אנושיים ואז מסוגל להגיד בשמם כל דבר שתקלידו; מייסד גרופון אנדרו מייסון הציג תוכנה נוספת למחשבי מק שמתמללת הקלטות ומאפשרת גם לערוך אותן; והשנה כבר ראינו את ברק אובמה מכריז שטראמפ הוא חרא עצום - אלא שזה היה הקולנוען ג'ורדן פיל, שחיקוי שלו לאובמה צורף לסרטון בו נערכו תנועות השפתיים של הנשיא לשעבר.

בינתיים, שימוש אחר שכבר נמצא לטכנולוגיות כאלו משתולל ברשת: Deepfakes - סרטוני פורנו בהם הוחלפו פני השחקניות המקוריות במפורסמות מבוקשות במיוחד. אתרים שונים התחייבו להילחם בזיופים האלה, אך בינתיים נראה שהם נכשלים בכך לחלוטין.

מצאתם טעות לשון?