תעשיית הבינה המלאכותית ניצבת בפני אתגר משמעותי: מחסור בנתוני אימון - אותם נתונים שמשמשים את המודלים ללמוד ולהשתפר באמצעות תהליך של ניסוי וטעייה. "מיצינו למעשה את סך הידע האנושי המצטבר באימון בינה מלאכותית", כך הצהיר אילון מאסק בשיחה מקוונת עם יו"ר ומנכ"ל חברת השיווק Stagwell, מארק פן, ששודרה הלילה ברשת X. "זה קרה בעצם בשנה שעברה", הוסיף מאסק.
ההערכה הזו של מאסק, בעליה של חברת הבינה המלאכותית xAI, לא נאמרה בחלל ריק. היא מהדהדת את דבריו של איליה סוצקבר, לשעבר המדען הראשי של OpenAI, שהתבטא בנושא בכנס למידת המכונה NeurIPS בחודש שעבר. סוצקבר, שטבע את המונח "שיא הנתונים" (peak data), צפה כי המחסור בנתוני אימון יכריח את התעשייה לשנות את האופן שבו מודלים מפותחים כיום.
Watch Stagwell's CEO Mark Penn interview Elon Musk at CES! https://t.co/BO3Z7bbHOZ
— Live (@Live) January 9, 2025
האם הפתרון יגרום לקריסת מודלים?
הפתרון המסתמן, לפי מאסק, טמון בשימוש בנתונים סינתטיים - נתונים המיוצרים על ידי מודלים של בינה מלאכותית עצמם. "עם נתונים סינתטיים, הבינה המלאכותית תדרג את עצמה ותעבור תהליך של לימוד עצמי," הסביר מאסק.
ואכן, התעשייה כבר נעה בכיוון זה. ענקיות טכנולוגיה מובילות, ביניהן מיקרוסופט, מטא, OpenAI ו-Anthropic, משתמשות כבר עכשיו בנתונים סינתטיים לאימון מודלי הדגל שלהן. חברת המחקר Gartner מעריכה כי 60% מהנתונים המשמשים לפרויקטים של בינה מלאכותית וניתוח נתונים ב-2024 יוצרו באופן סינתטי.
דוגמאות בולטות לשימוש בנתונים סינתטיים כבר קיימות בשטח: המודל Phi-4 של מיקרוסופט, שהושק לאחרונה כקוד פתוח, המודלים של Google מסדרת Gemma, ומערכת Claude 3.5 Sonnet של Anthropic - כולם אומנו בעזרת נתונים סינתטיים לצד נתונים מהעולם האמיתי. גם מטא עשתה שימוש בנתונים מבוססי AI לשיפור סדרת המודלים האחרונה שלה Llama.
היתרון הכלכלי של הגישה הסינתטית ברור: סטארט-אפ הבינה המלאכותית Writer מדגים זאת היטב עם המודל שלו, Palmyra X 004, שפותח כמעט אך ורק באמצעות מקורות סינתטיים. עלות הפיתוח עמדה על 700 אלף דולר בלבד - לעומת הערכות של 4.6 מיליון דולר למודל בגודל דומה של OpenAI.
אולם לצד היתרונות המשמעותיים, מחקרים מסוימים מצביעים על כך שנתונים סינתטיים עלולים להוביל לתופעה המכונה קריסת מודל - מצב שבו המודל הופך פחות "יצירתי" ויותר מוטה בתפוקות שלו, עד כדי פגיעה חמורה בתפקודו. הבעיה המרכזית נעוצה במעגליות: מכיוון שהמודלים עצמם יוצרים את הנתונים הסינתטיים, כל הטיה או מגבלה בנתוני האימון המקוריים עלולה להתעצם ולהשתכפל בתהליך.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו