דמנציה דיגיטלית? גם הבינה המלאכותית סובלת מירידה קוגניטיבית

מחקר מפתיע מגלה כי מודלים מתקדמים של בינה מלאכותית מציגים ליקויים קוגניטיביים הדומים לתסמיני דמנציה מוקדמת • התוצאות מעמידות בספק את ההנחה הרווחת כי הבינה המלאכותית תחליף בקרוב רופאים בשר ודם

האם בקרוב נמצא את עצמנו עם מטופלים וירטואליים?. צילום: AP

ההתקדמות המהירה בתחום הבינה המלאכותית בשנים האחרונות עוררה התלהבות רבה, לצד חששות בנוגע ליכולתם של צ'אטבוטים להחליף רופאים אנושיים. אולם מחקר חדש שופך אור על מגבלה משמעותית שלא נחקרה עד כה: גם המודלים המתקדמים ביותר סובלים מליקויים קוגניטיביים המזכירים תסמיני דמנציה מוקדמת.

המחקר, שנערך על ידי ד"ר רועי דיין מהמרכז הרפואי הדסה בירושלים ועמיתיו, בא לבחון היבט שטרם נחקר: האם מודלים אלה, שהוכיחו יכולות מרשימות במגוון משימות אבחון רפואיות, עלולים לסבול מליקויים קוגניטיביים בדומה למוח האנושי.

במחקר, שנערך על המודלים המובילים בתעשייה - ChatGPT בגרסאות 4 ו-4o של חברת OpenAI, הגרסה Claude 3.5 Sonnet מבית אנתרופיק ו-Gemini בגרסאות 1 ו-1.5 של אלפאבית - נעשה שימוש במבחן MoCA (ראשי תיבות של Montreal Cognitive Assessment). המבחן משמש באופן נרחב לזיהוי ליקויים קוגניטיביים ותסמיני דמנציה מוקדמת, בעיקר במבוגרים. המבחן, שבו הציון המקסימלי הוא 30 נקודות, בוחן מגוון יכולות קוגניטיביות באמצעות סדרה של משימות קצרות ושאלות, כאשר ציון של 26 ומעלה נחשב לתקין.

רופאים אנושיים - לפי המחקר, לא נראה שהם יוחלפו בזמן הקרוב, צילום: Getty Images

כשהטכנולוגיה מזדקנת: תוצאות מטרידות

התוצאות היו מאלפות: ChatGPT 4o הוביל עם ציון של 26 נקודות, בעוד ChatGPT 4 ו-Claude השיגו 25 נקודות כל אחד. המפתיע מכל היה Gemini 1.0, שהשיג ציון נמוך במיוחד של 16 נקודות בלבד. תופעה מעניינת במיוחד הייתה שגרסאות ישנות יותר של הצ'אטבוטים הפגינו ביצועים נמוכים יותר במבחנים - בדיוק כמו מטופלים אנושיים מזדקנים.

בעוד שרוב המודלים הצליחו היטב במשימות הקשורות לשיום, קשב, שפה והפשטה, כולם גילו חולשה משמעותית במשימות הדורשות כישורים ויזואליים-מרחביים ותפקודים ניהוליים. למשל, הם התקשו במשימת חיבור מספרים ואותיות בסדר עולה ובציור שעון המראה שעה ספציפית. מודלי Gemini אף נכשלו לחלוטין במשימת זכירה מושהית של רצף בן חמש מילים.

במבחנים נוספים של כישורים ויזואליים-מרחביים, הצ'אטבוטים גילו חוסר יכולת להפגין אמפתיה או לפרש במדויק סצנות ויזואליות מורכבות. רק ChatGPT 4o הצליח בשלב של מבחן Stroop, שבו משתמשים בשילובים של שמות צבעים וצבעי גופן כדי למדוד כיצד הפרעות משפיעות על זמן התגובה.

ChatGPT 4o - המודל המצטיין, צילום: אי.אף.פי

החוקרים מדגישים כי למרות שקיימים הבדלים מהותיים בין המוח האנושי למודלים שפתיים גדולים, הכישלון האחיד של כל המודלים במשימות הדורשות הפשטה ויזואלית ותפקוד ניהולי מצביע על חולשה משמעותית שעלולה להגביל את השימוש בהם בסביבות קליניות.

"לא רק שנוירולוגים לא צפויים להיות מוחלפים על ידי מודלים שפתיים גדולים בקרוב, אלא שממצאינו מרמזים כי הם עשויים בקרוב למצוא את עצמם מטפלים במטופלים וירטואליים חדשים - מודלים של בינה מלאכותית המציגים ליקויים קוגניטיביים", מסכמים החוקרים.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

כדאי להכיר