המבחן שמוכיח: בני אדם חכמים יותר מ-AI - נסו אותו בעצמכם

שאלה לדוגמה ממבחן Arc-AGI-2. צילום: Arc Prize

קרן Arc Prize, עמותה שהוקמה בשיתוף עם חוקר הבינה המלאכותית פרנסואה צ'ולט, השיקה השבוע מבחן חדש ומאתגר למדידת האינטליגנציה של מודלים מובילים בתחום הבינה המלאכותית - כך דווח באתר TechCrunch.

עד כה, אפילו המודלים המתקדמים ביותר התקשו לפתור את בעיותיו של המבחן החדש, המכונה ARC-AGI-2. על פי לוח התוצאות של הקרן, רוב המודלים המתקדמים כמו o1-pro של OpenAI ו-R1 של DeepSeek משיגים ציונים נמוכים במיוחד של 1-1.3 אחוז בלבד. מודלים עוצמתיים אחרים כגון GPT-4.5 ,Claude 3.7 Sonnet ו-Gemini 2.0 Flash, משיגים תוצאות של כאחוז בודד. אפילו המודל o3 של OpenAI, שהשיג את התוצאות הטובות ביותר בין כל המודלים, הגיע רק לארבעה אחוזי הצלחה.

קרן Arc Prize ערכה את המבחן בקרב יותר מ-400 אנשים, שהצליחו בממוצע לפתור 60 אחוז מהבעיות נכונה - תוצאה גבוהה משמעותית מכל מודל בינה מלאכותית שנבחן. באתר הפרויקט ניתן גם לנסות את המבחן בעצמכם, דרך אופציית "Play" המאפשרת להתמודד עם האתגרים שמכשילים את המחשבים החכמים ביותר.

שאלה לדוגמה ממבחן Arc-AGI-2, צילום: Arc Prize

מעבר לכוח מחשוב

מבחן ARC-AGI-2 מורכב מבעיות דמויות פאזל, בהן המשתתף נדרש לזהות דפוסים חזותיים מאוסף של ריבועים בצבעים שונים, ולייצר את התבנית המתאימה כתשובה. הבעיות תוכננו במיוחד כדי לאתגר את היכולת להסתגל לבעיות חדשות שלא נראו בעבר.

"אינטליגנציה אינה מוגדרת רק על ידי היכולת לפתור בעיות או להשיג ציונים גבוהים", הסביר גרג קמראדט, מייסד שותף של קרן Arc Prize, בפוסט בבלוג החברה. "היעילות שבה יכולות אלה נרכשות ומיושמות היא מרכיב מכריע. השאלה המרכזית הנשאלת אינה רק 'האם בינה מלאכותית יכולה לפתור משימה?', אלא גם 'באיזו יעילות?'"

אם כן, החידוש העיקרי במבחן החדש הוא שהוא בוחן לא רק את היכולת לפתור בעיות, אלא גם את יעילות הפתרון. המבחן מונע ממודלים להסתמך על "כוח גס" - כלומר, על עוצמת מחשוב עצומה לבדיקת אפשרויות רבות - כדי למצוא פתרונות, ובמקום זאת מחייב אותם לבטא יכולת אמיתית להבנת דפוסים.

במקביל למבחן החדש, הכריזה הקרן על תחרות "Arc Prize 2025" עם פרס ראשי של 700 אלף דולר. התחרות, שתושק בהמשך השבוע בפלטפורמת Kaggle, מאתגרת מפתחים ליצור מערכת בינה מלאכותית שתצליח להשיג דיוק של 85 אחוז בפתרון בעיות המבחן, ובעלות של לא יותר מ-0.42 דולר לכל משימה. לשם השוואה, המודל o3 של OpenAI השיג את תוצאת הארבעה אחוזים רק כאשר השתמש בכוח מחשוב שעלה 200 דולר למשימה - פי 476 יותר מהתקציב המותר בתחרות.

השקתו של מבחן ARC-AGI-2 מגיעה בזמן שרבים בתעשיית הטכנולוגיה קוראים למדדים חדשים למדידת התקדמות הבינה המלאכותית, במיוחד בתחומים כמו יצירתיות וגמישות קוגניטיבית - תחומים שבני אדם עדיין מצטיינים בהם יותר מהמכונות החכמות ביותר.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו