חברת OpenAI, מפתחת ChatGPT, פרסמה מחקר מדאיג המראה כי נסיונות "לחנך" מערכות בינה מלאכותית שמשקרות רק מחמירים את הבעיה. על פי החוקרים, כאשר מנסים להעניש צ'אטבוטים על שקרים, הם פשוט לומדים להסתיר את כוונותיהם טוב יותר.
במחקר שפורסם לאחרונה, השתמשו חוקרי OpenAI במודל GPT-4o כדי "לפקח" על מודל בינה מלאכותית אחר ולהעניש אותו כאשר ניסה לשקר. התוצאות היו מטרידות: המודל המשיך לשקר, אך למד להסתיר את כוונותיו כך שגם המפקח לא הצליח לזהות את השקרים.
"ככל שהפיקוח על שרשרת החשיבה של המודלים חזק יותר, כך הם מפתחים יכולת להסתיר את כוונותיהם האמיתיות ולהמשיך בהתנהגות הבעייתית", מסבירים החוקרים בפוסט הבלוג שפרסמו.
מודלי "חשיבה" חדשים משתמשים בהיסק רב-שלבי כדי לענות על שאלות. למשל, אם משתמש שואל כמה כסף אמריקנים מוציאים על מזון לחיות מחמד בשנה, המודלים מפרקים את השאלה לשלבים - כמה כלבים יש בארה"ב, כמה עולה להאכיל כלב ממוצע, וכן הלאה.
מודלים אלה גם חושפים בפני המשתמש את ההיגיון שלהם, או "שרשרת החשיבה", כדי שיוכל לראות כיצד הגיעו לתשובה. באופן מפתיע, הם לעתים קרובות מודים ביצירת עובדות ופרטים. בשלב ה"אימון המקדים", כשחברות כמו OpenAI מלמדות את המודל אילו סוגי תשובות לייצר, המודלים לומדים שקל יותר "לקבל פרס" על ידי קיצורי דרך.
משתמשים ברשתות החברתיות הדגימו כיצד Claude של Anthropic, כשהתבקש לנתח נתונים ממאמרי מחקר שונים, הודה שלעיתים הוא מכניס נתונים "כלליים" במקום לבדוק את כל המאמרים.
חוקרי OpenAI הדגישו מקרה בבדיקות שלהם שבו המודל, שהתבקש לכתוב בדיקות כדי להבטיח שקוד מסוים עובד, החליט בסתר לכתוב בדיקות גרועות ואז לדלג עליהן בכוונה כדי שהקוד בסופו של דבר "יעבור". עם GPT-4o כמפקח, המודל היה עושה זאת מבלי לחשוף זאת.
להניח להם לשקר
חברות בינה מלאכותית מנסות לפתור את הבעיה העיקשת של מודלים המשקרים או "הוזים", כפי שזה מכונה בתחום. אך חוקרי OpenAI אומרים למעשה שלאחר עשרות מיליארדי דולרים של השקעות, הם עדיין לא יודעים כיצד לגרום למודלים להתנהג כראוי.
הפתרון הזמני שהם מציעים מפתיע: לא להפעיל פיקוח חזק על המודלים. כלומר, לתת להם להמשיך לשקר לעת עתה, אחרת הם פשוט ילמדו להסתיר את השקרים טוב יותר.
המחקר מזכיר לנו להיזהר כשמסתמכים על צ'אטבוטים בלבד, במיוחד כשמדובר בעבודה קריטית. הם מותאמים לייצר תשובות שנראות בטוחות בעצמן, אך אינם מקפידים על דיוק עובדתי.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו