גוגל מעסיקה עובדים חיצוניים שמשווים את תשובות מודל ה-AI שלה ג'מיני לאלו של המתחרה קלוד, שפותח על ידי חברת אנתרופיק – כך חשף אתר TechCrunch. על פי התכתבויות פנימיות שהגיעו לידי האתר, ההשוואה נעשית באמצעות המערכת הפנימית של גוגל.
העובדים החיצוניים, שתפקידם לדרג את הדיוק של תשובות המודל, נדרשים להעריך כל תשובה על פי קריטריונים שונים, כולל אמינות ורמת הפירוט. לפי הדיווח, ההתכתבויות בגוגל הראו כי העובדים מקבלים עד 30 דקות לכל פרומפט (הנחיה שניתנת למודל AI) כדי לקבוע איזו תשובה טובה יותר - של ג'מיני או של קלוד.
התחזות ותכנים מיניים
על פי ההתכתבויות, לאחרונה החלו העובדים לשים לב להופעתן של תשובות מקלוד במערכת הפנימית של גוגל. באחד המקרים, הפלט אף הכריז במפורש: "אני קלוד, נוצרתי על ידי אנתרופיק".
בשיחות פנימיות ציינו העובדים כי תשובותיו של קלוד מדגישות יותר את נושא הבטיחות בהשוואה לג'מיני. "הגדרות הבטיחות של קלוד הן המחמירות ביותר" בין מודלי הבינה המלאכותית, כתב אחד העובדים.
במקרה אחד, למשל, קלוד נמנע מלהשיב לפרומפט מסוים, בעוד תשובתו של ג'מיני סומנה כ"הפרת בטיחות חמורה" בשל תכנים מיניים פוגעניים. במקרה אחר, קלוד סירב להתחזות למודל AI אחר.
השוואות מקובלות או קו אדום?
השימוש של גוגל בקלוד מעלה שאלות משפטיות, שכן תנאי השימוש של אנתרופיק אוסרים על לקוחות להשתמש בקלוד "לבניית מוצר או שירות מתחרה" או "לאימון מודלי בינה מלאכותית מתחרים" - ללא אישור מאנתרופיק. זאת למרות שגוגל היא משקיעה משמעותית באנתרופיק.
המקרה מעלה שאלות נוספות על האופן שבו חברות טכנולוגיה מעריכות את הביצועים של מודלי AI. על פי הדיווח, בדרך כלל חברות בוחנות את המודלים שלהן מול מתחרים באמצעות מדדי תעשייה מקובלים, ולא על ידי הערכה מדוקדקת של תשובות המתחרים על ידי עובדים חיצוניים.
בתגובה, שירה מקנמרה, דוברת גוגל DeepMind שמפעילה את ג'מיני, סירבה לומר אם החברה קיבלה אישור מאנתרופיק לשימוש בקלוד. היא ציינה כי DeepMind אכן "משווה פלטים של מודלים" לצורך הערכה, אך הדגישה: "כל רמיזה לכך שהשתמשנו במודלים של אנתרופיק לאימון ג'מיני אינה מדויקת". דובר אנתרופיק לא הגיב לפניות בנושא.
חשיפה זו מגיעה בעקבות דיווח אחר של TechCrunch, לפיו עובדים חיצוניים העובדים על מוצרי AI של גוגל נדרשים כעת לדרג תשובות של ג'מיני בתחומים שמחוץ למומחיותם. בהתכתבויות פנימיות הביעו העובדים חשש שג'מיני עלול לייצר מידע לא מדויק בנושאים רגישים כמו בריאות.