חברות הטכנולוגיה המובילות בעולם הכריזו בשבוע שעבר של שורת שיפורים למודלים שלהם ב-AI. מחברת OpenAI שהציגה את GPT 4O, דרך גוגל שהציגה את ג׳מיני ועד מיקרוסופט שהכריזה כי מחשבי הווינדוס הבאים יכללו צ׳יפ שיוכל להריץ את Copilot של החברה על המחשב עצמו. אך על רקע שורת ההכרזות הזאת נשאלת השאלה איזה מודל באמת עושה את העבודה הטובה ביותר. בוול סטריט ג׳ורנל קיבלו גישה ראשונית למודלים העדכניים ביותר, וערכו תחרות בין חמשת הצ׳טבוטים המובילים בשוק. התוצאות מפתיעות.
לתחרות עם המודלים החדשים צורפו שני מודלים נוספים: קלוד, של חברת אנת׳רופיק שהוקמה בידי צוות של פורשי OpenAI; וכן המודל שפיתחה חברת פרפקסיטי, שמושך מידע רק ממקורות מוסמכים ומציג לינק מקור לכל מידע שהוא מספק.
הבדיקה של הוול סטריט ג׳ורנל התחלקה למספר קטגוריות: מבישול, דרך עצות כלכליות ועד בדיקת אירועים אקטואליים. בכלל הבדיקות שנערכו, המנצח הגדול היה דווקא המודל של פרפלקסיטי, שהיא החברה הקטנה ביותר מכל המתחרות. ChatGPT של OpenAI הגיע למקום השני בזכות מהירות התגובה והודות לכך שהמודל סיפק את התשובות הטובות ביותר בכל הנוגע לבישול ועצות בריאות.
ג׳ימני, המנוע של גוגל, הגיע רק למקום השלישי. המנוע אכזב מאוד במקומות שבהם הוא היה חייב להצטיין, כמו בקטגורית סיכום טקסט. במקביל להצגת המודל החדש גוגל הציגה בשבוע שעבר גם את Google Overview: תיבת טקסט שמופיעה מעל לתוצאות החיפוש של גוגל בארה"ב ומציגה סיכום של התוצאות שיצר ג'מיני.
העובדה שג'מיני נכשל בתחום סיכום הטקסטים מהווה דגל אדום בוהק עבור החברה שבונה עליו כדי שישנה מקצה לקצה את האופן שבו אנחנו מחפשים מידע באינטרנט. בשבוע שחלף מאז ההצגה כבר הספיקו משתמשים רבים לגלות שחלונית ה-Overview החדשה מציגה תשובות בעייתיות ולעיתים אף מסוכנות, כמו להוסיף דבק למתכון להכנת פיצה או לאכול אבנים מדי יום.
המנוע של פקרפקסיטי כיכב בקטגוריות כמו כתיבת קוד תוכנה - מהשימושים הפופולריים ביותר עבור צ׳טבוטים. המודל אף הצטיין בסיכום של טקסטים ובהתייחסות לאירועים אקטואלים. הבודקים ציינו כי העובדה שהמנוע מספק לינקים לרפרנסים המוצגים בתשובות שלו הופך את השימוש במנוע לקל והנוח ביותר, ולכזה שניתן להסתמך עליו בדיוק עובדתי ולהבין בקלות אם הוא טועה. מנגד, הוא גם היה זה שנדרש לזמן הארוך ביותר כדי לספק תשובות.
למקום האחרון הגיע Copilot, המודל של מיקרוסופט שמבוסס על מודל צר יותר של OpenAI בשילוב יכולת חיפוש ברשת. המודל הגיע למקום לפני אחרון בסיכום טקסטים ולמקום האחרון בכתיבת קוד. אלו סימנים רעים מאוד למיקרוסופט, שהמודל שלה צפוי לעמוד בבסיס סדרת מחשבים חדשה שהחברה צפויה לשווק בשנה הקרובה עם חברות כמו דל ולנובו.
הבדיקה נעשתה כולה באנגלית וקשה לגזור ממנה לגבי הביצועים של המודלים בעברית. כל מנועי ה-AI הללו יכולים לספק תשובות בעברית אך במידת הצלחה משתנה: המנוע של פרפלקסיטי לא שולט במיוחד בשפת הקודש בשעה שזה של OpenAI הולך ומשתפר ומציג תוצאות לא רעות בכלל, וכמוהו גם קלוד.