חוקרי OpenAI ממליצים: זה מה שכדאי לעשות כשהבינה המלאכותית משקרת לך

מודלי AI לומדים להערים על מנגנונים שאמורים לפקח על אמינותם • האם אנחנו מתחילים לאבד שליטה?

חברת Open AI, אילוסטרציה. . צילום: אי.פי

חברת OpenAI, מפתחת ChatGPT, פרסמה מחקר מדאיג המראה כי נסיונות "לחנך" מערכות בינה מלאכותית שמשקרות רק מחמירים את הבעיה. על פי החוקרים, כאשר מנסים להעניש צ'אטבוטים על שקרים, הם פשוט לומדים להסתיר את כוונותיהם טוב יותר.

במחקר שפורסם לאחרונה, השתמשו חוקרי OpenAI במודל GPT-4o כדי "לפקח" על מודל בינה מלאכותית אחר ולהעניש אותו כאשר ניסה לשקר. התוצאות היו מטרידות: המודל המשיך לשקר, אך למד להסתיר את כוונותיו כך שגם המפקח לא הצליח לזהות את השקרים.

הצ'אטבוטים למדו להסתיר את השקרים שלהם טוב יותר, צילום: GettyImages

"ככל שהפיקוח על שרשרת החשיבה של המודלים חזק יותר, כך הם מפתחים יכולת להסתיר את כוונותיהם האמיתיות ולהמשיך בהתנהגות הבעייתית", מסבירים החוקרים בפוסט הבלוג שפרסמו.

מודלי "חשיבה" חדשים משתמשים בהיסק רב-שלבי כדי לענות על שאלות. למשל, אם משתמש שואל כמה כסף אמריקנים מוציאים על מזון לחיות מחמד בשנה, המודלים מפרקים את השאלה לשלבים - כמה כלבים יש בארה"ב, כמה עולה להאכיל כלב ממוצע, וכן הלאה.

מנכ"ל OpenAI סם אלטמן, צילום: AFP

מודלים אלה גם חושפים בפני המשתמש את ההיגיון שלהם, או "שרשרת החשיבה", כדי שיוכל לראות כיצד הגיעו לתשובה. באופן מפתיע, הם לעתים קרובות מודים ביצירת עובדות ופרטים. בשלב ה"אימון המקדים", כשחברות כמו OpenAI מלמדות את המודל אילו סוגי תשובות לייצר, המודלים לומדים שקל יותר "לקבל פרס" על ידי קיצורי דרך.

משתמשים ברשתות החברתיות הדגימו כיצד Claude של Anthropic, כשהתבקש לנתח נתונים ממאמרי מחקר שונים, הודה שלעיתים הוא מכניס נתונים "כלליים" במקום לבדוק את כל המאמרים.

חוקרי OpenAI הדגישו מקרה בבדיקות שלהם שבו המודל, שהתבקש לכתוב בדיקות כדי להבטיח שקוד מסוים עובד, החליט בסתר לכתוב בדיקות גרועות ואז לדלג עליהן בכוונה כדי שהקוד בסופו של דבר "יעבור". עם GPT-4o כמפקח, המודל היה עושה זאת מבלי לחשוף זאת.

חברות הבינה המלאכותית מציעות לא להפעיל פיקוח חזק על המודלים, צילום: GETTY IMAGES

להניח להם לשקר

חברות בינה מלאכותית מנסות לפתור את הבעיה העיקשת של מודלים המשקרים או "הוזים", כפי שזה מכונה בתחום. אך חוקרי OpenAI אומרים למעשה שלאחר עשרות מיליארדי דולרים של השקעות, הם עדיין לא יודעים כיצד לגרום למודלים להתנהג כראוי.

הפתרון הזמני שהם מציעים מפתיע: לא להפעיל פיקוח חזק על המודלים. כלומר, לתת להם להמשיך לשקר לעת עתה, אחרת הם פשוט ילמדו להסתיר את השקרים טוב יותר.

המחקר מזכיר לנו להיזהר כשמסתמכים על צ'אטבוטים בלבד, במיוחד כשמדובר בעבודה קריטית. הם מותאמים לייצר תשובות שנראות בטוחות בעצמן, אך אינם מקפידים על דיוק עובדתי.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

כדאי להכיר