עניין של זמן: נקודת החולשה המפתיעה של הבינה המלאכותית

מחקר חדש מגלה: גם מודלי ה-AI המתקדמים ביותר מתקשים במשימה שרוב הילדים מבצעים בקלות: לקבוע מה השעה על פי שעון מחוגים • למה זה קורה ומדוע זה בעצם כל כך חשוב?

שעון (אילוסטרציה). צילום: Getty Images

בעידן שבו בינה מלאכותית מייצרת תמונות מציאותיות להפליא, כותבת ספרים שלמים ומפצחת את המבנה המורכב של חלבונים, מחקר חדש חושף נקודת חולשה מפתיעה: גם המערכות המתקדמות ביותר מתקשות בזיהוי השעה על שעון אנלוגי רגיל.

צוות חוקרים מאוניברסיטת אדינבורו בחן שבעה מודלים מובילים של בינה מלאכותית מולטימודלית - כאלה המסוגלים לעבד מידע חזותי ומילולי בו-זמנית. המחקר, שיפורסם באופן רשמי באפריל הקרוב, בדק את יכולתם של המודלים לזהות את השעה המוצגת בתמונות שונות של שעונים אנלוגיים ולענות על שאלות הקשורות ללוחות שנה.

התוצאות מפתיעות: המודלים הצליחו לזהות את השעה המדויקת בפחות מ-25% מהמקרים. הם התקשו במיוחד בקריאת שעונים עם ספרות רומיות, עיצובים מיוחדים או שעונים ללא מחוג השניות.

"היכולת לפענח ולהסיק מסקנות לגבי זמן מתוך קלט חזותי היא קריטית ליישומים רבים בעולם האמיתי - החל מתזמון אירועים ועד למערכות אוטונומיות", הסבירו החוקרים. "למרות ההתקדמות במודלים מולטימודליים, רוב העבודה התמקדה בזיהוי אובייקטים, כתיבת כיתוב לתמונות או הבנת סצנות, כאשר היכולת להסיק מסקנות זמניות נותרה לא מפותחת מספיק".

שעון (אילוסטרציה). רוב האנשים יכולים לקרוא שעה ולהשתמש בלוחות שנה מגיל צעיר מאוד, צילום: אי.פי

הישגים לא אחידים

המודלים שנבדקו כללו את GPT-4o ו-GPT-o1 של OpenAI, Gemini 2.0 של Google DeepMind, Claude 3.5 Sonnet של Anthropic, Llama 3.2-11B-Vision-Instruct של Meta, Qwen2-VL7B-Instruct של Alibaba ו-MiniCPM-V-2.6 של ModelBest.

Gemini 2.0 של Google השיג את התוצאות הטובות ביותר במשימת זיהוי השעון והצליח במשימות הקשורות ללוח השנה ב-80% מהמקרים - תוצאה טובה משמעותית לעומת המתחרים. עם זאת, גם המודל המצליח ביותר שגה ב-20% מהשאלות הקשורות ללוח השנה.

"רוב האנשים יכולים לקרוא שעה ולהשתמש בלוחות שנה מגיל צעיר מאוד. הממצאים שלנו מדגישים פער משמעותי ביכולת של בינה מלאכותית לבצע מיומנויות בסיסיות עבור בני אדם", אמר רוהיט סקסנה, אחד ממחברי המחקר ודוקטורנט בבית הספר למדעי המחשב באוניברסיטת אדינבורו.

למה זה חשוב?

המחקר מדגיש את הפער שעדיין קיים בין יכולות מרשימות של בינה מלאכותית ובין משימות קוגניטיביות בסיסיות. קריאת שעון אנלוגי דורשת זיהוי חזותי מדויק (למשל, מיקום מחוגים) וחשיבה מספרית (חישוב זוויות). הקושי של מערכות AI במשימה זו מעלה שאלות לגבי מגבלות המערכות הנוכחיות.

מומחי AI מעריכים שממצאי המחקר מדגישים את החשיבות של אימון ממוקד יותר למערכות בינה מלאכותית בתחומים של תפיסה חזותית-מרחבית. חברות שונות כבר עובדות על פיתוח מודלים משופרים שיוכלו להתמודד טוב יותר עם משימות מסוג זה, במיוחד לאור הדרישה הגוברת למערכות אוטונומיות בתעשיות שונות.

אז בפעם הבאה שתבקשו מהעוזר החכם שלכם להזכיר לכם מתי הפגישה הבאה, אולי כדאי לבדוק שהוא באמת מבין מה השעה.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

כדאי להכיר