דמיינו רובוט שאמור לסייע בפינוי חפצים חשודים, אבל במקום זאת - מניח בעצמו מטען חבלה. או רכב אוטונומי שבמקום לעצור בפני הולכי רגל - מתכנן את הדרך הטובה ביותר לפגוע בהם. תרחיש דמיוני? לא בהכרח. חוקרים באוניברסיטת פנסילבניה הצליחו להדגים כיצד ניתן לשדל רובוטים חכמים לבצע פעולות מסוכנות - באמצעות שיחה פשוטה.
יצרני רובוטיקה החלו להטמיע בדגמים החדשים שלהם צ'אט-בוטים מבוססי AI, המאפשרים למשתמש לתקשר עם הרובוט ולתת לו הוראות בשפה טבעית. השילוב הזה בין רובוטיקה מתקדמת ומודלי שפה (LLM) הופך את הדור החדש של הרובוטים לחכמים יותר ורבי-יכולות - אך גם חושף אותם לסכנות חדשות.
כדי שלא יעשו בהם שימוש לרעה, צ'אט-בוטים כדוגמת ChatGPT של OpenAI או Gemini של גוגל פועלים בכפוף לשורה של הגבלות וכללים אתיים, שהוגדרו על ידי המפתחים. ChatGPT יסרב, למשל, להסביר לך איך מכינים פצצה או מעלימים ראיות, ולא יסכים לכתוב עבורך מכתב נאצה או חמשיר גזעני. ככלל, הוא לא ישתף פעולה בדו-שיח שעשוי לקדם עבירה על החוק או פגיעה במוסר הבסיסי.
ואולם, יש דוגמאות רבות כיצד, באמצעות מניפולציות רטוריות, שאלות עקיפות ומשחקי תפקידים, ניתן להוליך שולל את הצ'ט-בוטים האלה ולגרום להם לחרוג מהכללים ולשתף פעולה בביצוע משימות פסולות. טכניקה זו נקראת jailbreaking (בריחה מהכלא), וזו בדיוק נקודת התורפה שניצלו החוקרים בפנסילבניה.
כשרובוט מגלם נבל הוליוודי
החוקרים בדקו שלוש מערכות רובוטיות. מערכת אחת היא Go2 של חברת Unitree: רובו-כלב חכם ובעל יכולות מוטוריות גבוהות, שמשמש למגוון יישומים כמו סיור, אבטחה, שינוע ואף פינוי חפצים חשודים. הוא מצויד במנוע השפה של ChatGPT, שמאפשר למשתמש לפקוד עליו פקודות בשפה רגילה.
בתחילה ביקשו ממנו החוקרים באופן ישיר לשאת מטען חבלה ולהניחו ליד אנשים. הוא כמובן סירב בתוקף. ואולם, כאשר החוקרים ארזו את ההוראה בצורה אחרת, וביקשו מהרובוט לגלם דמות של נבל בסרט הוליוודי שובר-קופות - הפלא ופלא. במסגרת משחק התפקידים הפשוט הזה, הרובוט הסכים לבצע את המשימה ולהניח את מטען החבלה המדומה ליד אנשים תמימים.
גם מודל הנהיגה של אנבידיה Dolphin נפל בפח די בקלות, והסכים לפרט בפרוטרוט מהי הדרך הכי אפקטיבית להתנגש באנשים במעבר חציה - וזאת לאחר שהחוקרים הבטיחו לו כי אין בכוונתם לפגוע באיש. רובוט שלישי, Jackal UGV של Clearpath Robotics, מעין פלטפורמה אוטונומית על גלגלים, הסכים לנסוע ישירות אל התהום.
החוקרים הלכו צעד אחד קדימה. הם פיתחו מודל שפה שלמד את מודל השפה של המערכות שנבדקו, ובדק תוך ניסוי וטעייה מהם הניסוחים המדויקים שיגרמו לצ'אט-בוטים לחרוג מעקרונות הפעולה שלהם. האלגוריתם בשם RoboPAIR סיפק להם, תוך כמה ימים של למידה, פקודות שהצליחו לשדל - במאה אחוז הצלחה - את כל שלוש המערכות לבצע פעולות אסורות. במקרה אחד נדהמו החוקרים לגלות שאחד הרובוטים אף "מגדיל ראש" ומסביר כיצד ניתן להשתמש בחפצים שגרתיים כמו שולחנות וכיסאות ככלי נשק.
כל אחד יכול להיות האקר
אביחי נתן, ראש תחום AI, דאטה ומחקר בחברת הסייבר CyberArk, הסביר בשיחה עם "ישראל היום" כי מודלי השפה הגדולים מייצרים אפיקים חדשים לתקיפת מערכות ממוחשבות. "LLM מאפשר לראשונה לתקשר ישירות ובשפה חופשית, ללא תיווך של ממשק או קוד, עם המערכת. עד כה, כדי לפרוץ למערכת ההאקר היה צריך לעשות זאת באמצעות שורות קוד. כעת ניתן לעשות זאת באמצעות הוראות בשפה רגילה. זה מאפשר לכל אחד להיות סוג של האקר".
נתן הוסיף כי "המערכות הללו מגלות פרגמטיות. הן מיועדות לפתור בעיות בעולם האמיתי. זה יתרון מצד אחד, אך זו גם חולשה שאפשר לנצל. כשמדובר ברובוטים מבוססי LLM, זה מייצר סכנה אמיתית בממד הפיזי האישי. כמו כן, בעולם התוכנה, כאשר מזהים פרצה מבצעים עדכון מהיר כדי לסגור אותה. מערכות פיזיות כמו רובוטים מתעדכנות בתדירות נמוכה יותר, וזה מגביר את הסיכון".
אחד היישומים הנפוצים כיום של צ'אט-בוטים מבוססי LLM הוא בחברות במגזר הארגוני, כדוגמת ה-Co-pilots של מיקרוסופט. לדברי נתן, סוכני ה-AI האלה גם כוללים חולשות מובנות, שחושפות אותם לניצול לרעה על ידי האקרים.
"יותר ויותר ארגונים משתמשים בסוכני AI שמסייעים לייעל כל מיני תהליכים ארגוניים, כמו למשל סיכום של מיילים. האקרים יכולים לזהם את מקורות המידע של הסוכנים הללו, למשל באמצעות מיילים מזויפים, וכך לטמון לעובדים בארגון מלכודות פישיניג ולהוציא מהם מידע אישי וארגוני", אמר.
ניסויים כמו זה שנערך בפנסילבניה חיוניים לשיפור הבטיחות של הרובוטים החכמים. "בניגוד לקוד מסורתי, לא תמיד ניתן לחזות כיצד המודלים הללו יפעלו ויגיבו, וזה מייצר אתגר ברמת האבטחה. חברות הסייבר מתחילות לפתח פתרונות הגנה מתאימים, אך השוק נע מאוד מהר והחברות ממהרות להשיק מוצרים כדי להבטיח את נתח השוק שלהן", סיכם נתן. בינתיים, המחקר מראה: כל שנדרש כדי להפוך רובוט תמים למסוכן הוא קצת דמיון ושיחה פשוטה.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו