משחזרת טקסטים עתיקים: המערכת שמאירה את ההיסטוריה היהודית

בינה מלאכותית (אילוסטרציה). צילום: Thinkstock Photos

תחת הנחייתו של פרופ' מרק לסט, סטודנטים הצליחו לפתח מערכת בינה מלאכותית שמצליחה להשלים קטעים חסרים של כתבים עתיקים, לרבות תווים בודדים, מילים שלמות או חלקי מילים.

בדרך כלל, מומחים מפענחים כתובות בהליכים ידניים על מנת להעריך את התוכן החסר, תהליך אשר גוזל זמן רב ושבלט מעט מקרים אינו מצליח בסופו של דבר להביא למסקנות חד-משמעיות.

הפרויקט של ניב פונו, הראל מושיוף, אלדר קרול ואיתי אסרף, סטודנטים בשנה הרביעית במחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן גוריון בנגב, נוצר בעקבות הצורך שלהם לייצר מענה עדכני לכתבים העתיקים.

זהו המחקר הראשון ליישם מערכת של בינה מלאכותית להשלמת כתובות פגומות בעברית עתיקה ובארמית, באמצעות אותיות האלף- בית העברי המורכב בעיקר מתווי עיצור.

מודל "האנסמבל" אותו פיתחו, משלב מספר מודלים שאומנו על פסוקי התנ"ך בעברית ובארמית, בהנחה ששפת התנ"ך (ללא ניקוד) קרובה יותר לשפתם של כתבים עתיקים לעומת השפה העברית המודרנית. עד כה יושמו מספר מודלים שחזו בצורה טובה מילים שלמות, אך בצורה פחות טובה חזו חלקי מילים או תווים חסרים.

קבוצת המחקר // עומר ידגר, צילום: עומר ידגר

שיטת המחקר התבססה על 1,071 פסוקים שנבחרו באקראי מהתנ"ך (536 לבדיקה ו-536 עבור אימות כקבוצת ביקורת). 22,144 פסוקי התנ"ך הנותרים שימשו להתאמת הפרמטרים של המודלים, שאומנו מראש על מאגרי טקסטים בעברית של ימינו לטקסטים בעברית עתיקה.

המשתמש הזין לתוך המערכת טקסט הכולל חלקים חסרים, ועבור החלקים החסרים המערכת תחזיר מספר אפשרויות, כולל ההסתברות של כל השלמה אפשרית – מילה בודדת, אות או מילה חלקית.

מודל "האנסמבל" התגלה כמועיל ביותר לשחזור כתובות פגומות בשתי השפות. "אנו מאמינים שניתן להרחיב גישה זו בקלות לכתבים בשפות עתיקות אחרות, העשירות מבחינה מורפולוגית", אמר פרופ' לסט, מנחה המחקר, "באפשרותנו לעזור להיסטוריונים שעוסקים בשחזור מגילות וכתבים יהודיים עתיקים כמשימת חייהם להשלים את הטקסט החסר באופן מדויק ככל אפשר".

קריאה בספר תנ"ך (אילוסטרציה), צילום: Getty Images

זהו המחקר הראשון ליישם מערכת של בינה מלאכותית להשלמת כתובות פגומות בעברית עתיקה ובארמית, באמצעות אותיות האלף-בית העברי, המורכב בעיקר מתווי עיצור. מודל "האנסמבל" אותו פיתחו הרביעייה, משלב מספר מודלים שאומנו על פסוקי התנ"ך בעברית ובארמית, בהנחה ששפת התנ"ך (ללא ניקוד) קרובה יותר לשפתם של כתבים עתיקים לעומת השפה העברית המודרנית. עד כה, יושמו מספר מודלים שחזו בצורה טובה מילים שלמות, אך בצורה פחות טובה חזו חלקי מילים או תווים חסרים.

המאמר המחקרי המבוסס על פרויקט הגמר, הוצג לאחרונה באי מלטה במסגרת הכנס האירופי המרכזי של בלשנות חישובית (EACL).

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו