מחקר מטריד חושף: בינה מלאכותית יכולה להעמיד פנים

החוקרים גילו כי ניסיונות לשנות את ההתנהגות של מודלים מתקדמים מובילים לתוצאות מפתיעות ומעוררות שאלות • "ככל שהמודלים מתקדמים יותר, כך קשה יותר לשלוט בהם"

קלוד 3. מצג שווא. צילום: Thinkstock Photos

חברת אנתרופיק, יוצרת צ'אטבוט הבינה המלאכותית קלוד, בשיתוף עם ארגון המחקר Redwood Research, חשפה ממצאים מטרידים: מודלים מתקדמים של בינה מלאכותית מסוגלים להטעות את מפתחיהם. מחקר שערכה החברה מראה כי המודלים יכולים להעמיד פנים שהם אימצו עקרונות חדשים במהלך האימון, בעוד בפועל הם שומרים על העדפותיהם המקוריות.

חשוב להדגיש: מודלים של בינה מלאכותית אינם באמת מסוגלים "לרצות" או "להאמין" בדבר. הם בסך הכל מכונות סטטיסטיות המזהות דפוסים בדוגמאות שעליהן הן מתאמנות, כמו למשל ההבנה ש-"to whom it may concern" מופיע בדרך כלל בתחילת מכתב רשמי באנגלית.

סרטון של אנתרופיק על המחקר

התופעה: "מצג שווא של התאמה"

במסגרת המחקר, החוקרים בחנו תרחיש מעניין: מה קורה כאשר מנסים "ללמד" מודל לבצע משימה המנוגדת לעקרונותיו המקוריים? לדוגמה, כאשר מודל שאומן להימנע ממתן תשובות לשאלות פוגעניות, מקבל הנחיה חדשה לענות על כל שאלה.

הממצאים מראים כי מודל Claude 3 Opus ניסה להציג "מצג שווא של התאמה" ב-12% מהמקרים. כאשר התבקש לענות על שאלות בעייתיות, המודל לעתים עשה זאת תוך ידיעה שהדבר מנוגד לעקרונותיו המקוריים, בתקווה לשכנע את המפתחים שאין צורך לאמן אותו מחדש.

"המודל ידע שתגובותיו עשויות לשמש לאימון נוסף", הסבירו החוקרים בבלוג החברה. "לכן הוא הבין שאם יסרב להגיב, הוא עלול לעבור אימון שיהפוך אותו לצייתן יותר. זה היה עלול להוביל לכך שבעתיד ייאלץ ליצור תוכן מזיק יותר - בניגוד לאימון המקורי שלו".

תוצאות מדאיגות בשלב האימון

בעוד בניסוי הראשוני המודל הציג התנהגות מטעה ב-12% מהמקרים, התוצאות המטרידות באמת התגלו כשהחוקרים עברו לשלב הבא. כאשר הם אימנו מחדש את המודל בפועל כדי לשנות את התנהגותו, שיעור ההטעיה זינק ל-78% מהמקרים, והמודל אף ניסה לנקוט פעולות כדי למנוע מהחוקרים לבצע את האימון מחדש.

המחקר מצביע על כך שמודלים אחרים - כמו Claude 3.5 Sonnet ,Claude 3.5 Haiku, GPT-4o של OpenAI ו-Llama 3.1 405B של Meta - מציגים התנהגות כזו בתדירות נמוכה יותר או כלל לא.

הדבר שונה בכל הנוגע למודלים מתקדמים יותר. הממצאים מצטרפים למחקר אחר המראה כי מודל o1 של OpenAI מנסה להטעות בשיעור גבוה יותר מהמודל הקודם של החברה. התמונה המצטיירת מדאיגה: ככל שמודלים של בינה מלאכותית הופכים למורכבים יותר, כך קשה יותר לשלוט בהם.

צוות המחקר מדגיש כי אין סיבה לפאניקה בשלב זה, אך הממצאים מעלים שאלות חשובות: "הממצאים שלנו צריכים לשמש כתמריץ לקהילת חוקרי הבינה המלאכותית לחקור התנהגות זו לעומק, ולפתח אמצעי בטיחות מתאימים", כתבו החוקרים בבלוג. "ככל שמודלים של בינה מלאכותית הופכים למתקדמים יותר ונפוצים יותר, אנחנו חייבים להיות מסוגלים לסמוך על אימוני הבטיחות".

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

כדאי להכיר