מיקרוסופט הציגה את המחקר האחרון שלה בתחום הבינה המלאכותית של טקסט לדיבור עם מודל בשם VALL-E. המודל יכול לדמות קול של מישהו מדגימת אודיו של שלוש שניות בלבד, כך דיווח האתר Ars Technica. הדיבור יכול לא רק להתאים לגוון אלא גם לטון הרגשי של הדובר, ואפילו לאקוסטיקה של החדר. הפיתוח יכול לשמש יום אחד עבור יישומי טקסט לדיבור מותאמים אישית או מתקדמים, אם כי בדומה לדיפ-פייק, הוא טומן בחובו סיכונים רבים של שימוש לרעה.
אושיית הרשת והצלם בועז ארד, שיתף בחשבון הטוויטר שלו דוגמה קטנה מתוך היכולות שהוצגו בעבודה של מיקרוסופט.
בשקט בשקט, בזמן שאתם עסוקים בלבקש ממודלים של בינה מלאכותית לייצר לכם תמונות ממילות שירים של סטטיק ובן אל, התברר שמיקרוסופט עומדת לשחרר מודל בינה מלאכותית בשם Vall-E שלומד לחקות קולות של בני אדם מהקלטות קצרצרות ואז מקריא מה שבא לכם בקול של אותו אדם pic.twitter.com/Y8vnWqH8Zl
VALL-E מכונה ע"י מיקרוסופט בתור "מודל עצבי לקידוד שפה", והוא מתבסס על טכנולוגיה שפותחה ע"י מטא והוצגה בסוף 2022 בשם EnCodec. בשונה לשיטות טקסט-לדיבור אחרות, שמשתמשות בסינתוז דיבור על ידי מניפולציה של צורות גל, VALL-E לעומת זאת יוצר קודי קידוד אודיו נפרדים מטקסט והנחיות אקוסטיות. הוא מנתח איך אדם נשמע, מפרק את המידע לרכיבים נפרדים בעזרת ה-EnCodec, ומשתמש בנתוני אימון כדי להתאים לידע שיש לו לגבי כיצד הקול הזה היה נשמע, אם היה משמיע ביטויים אחרים מאשר אלו שבדגימת שלוש השניות.
במאמר החוקרים מתארים כיצד אימנו את VALL-E על 60,000 שעות דיבור בשפה האנגלית, מתוך יותר מ-7,000 דוברים בספריית האודיו LibriLight של Meta. הקול שהוא מנסה לחקות חייב להיות התאמה קרובה לקול בנתוני האימון. במקרה כזה, הוא משתמש בנתוני האימון כדי להסיק איך הקול המדובר יישמע, אם היה מדבר את קלט הטקסט שנכתב.
היוצרים הראו כמה הכלי הזה מוצלח בדף VALL-E Github. עבור כל ביטוי שהם רוצים שה-AI "ידבר", יש להם סאונד מקורי של שלוש שניות מהדובר לחקות, "בסיס" של אותו דובר שאומר ביטוי נוסף לצורך השוואה, טקסט קונבנציונלי. סינתזה ודגימת VALL-E סופית.
התוצאות מעורבות, כאשר חלקן נשמעות כמו מכונה ואחרות ריאליסטיות באופן מפתיע. העובדה שהוא שומר על הטון הרגשי של הדגימות המקוריות היא מה שהופכת את הקבצים למוצלחים יותר. הוא גם מצליח להתאים בנאמנות לסביבה האקוסטית של ההקלטה, כך שאם הרמקול הקליט את קולו באולם עם הד, גם פלט VALL-E נשמע כאילו הגיע מאולם כזה.
Surprised there isn't more chatter around VALL-E
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
כדי לשפר את המודל, מיקרוסופט מתכננת לשפר את נתוני הלמידה שלה "כדי לשפר את ביצועי המודל על פני מאפיינים אקוסטיים, סגנון דיבור ודימוי לקול של הדובר". הם גם בוחנים דרכים לצמצם מילים שאינן ברורות או שמתפספסות.
מיקרוסופט בחרה לא להפוך את הקוד לקוד פתוח, אולי בגלל הסיכונים שה-AI יכול להכניס מילים לפה של דמויות ציבוריות. היא הוסיפה כי היא תיצמד ל-"נהלי הבינה המלאכותית של מיקרוסופט" בכל פיתוח נוסף. "מכיוון ש-VALL-E יכול לסנתז דיבור ששומר על זהות הדובר, הוא עלול לשאת סיכונים פוטנציאליים בשימוש לרעה במודל, כגון זיוף זיהוי קולי או התחזות", כתבה החברה בסעיף "השפעות רחבות יותר" במסקנותיה.
לפי הדוגמאות שמיקרוסופט הציגה, ניתן להבחין שהטכנולוגיה רחוקה מלהיות מושלמת. הרבה דוגמאות נשמעות פשוט רע, אך חלקן "עוברות" בתור סאונד הדומה לדובר. עם התפתחות ה-AI של השנה האחרונה, ולקראת השנה הקרובה שככל הנראה תמשיך את המגמה, ניתן להניח שמיקרוסופט או מטא יגיעו לתוצאות הרבה יותר טובות בחודשים הקרובים וזוהי רק ההתחלה.