עם הגידול העצום בטקסטים מקוונים, עלה גם הצורך בשיטות אוטומטיות לתמצות טקסטים, כמו מאמרים או ראיונות, לצורך קריאה או עיבוד.
רוב השיטות האוטומטיות הקיימות כיום לתמצות של טקסטים ארוכים, תלויות-שפה והאלגוריתמים בבסיסן צריכים לעבור אימון מוקדם על כמויות גדולות של טקסט.
כעת Technologies BGN, חברת מסחור הטכנולוגיה של אוניברסיטת בן-גוריון, הציגה כלי חדש, אוטומטי לתמצות טקסטים שאינו תלוי שפה. לטענתם, השיטה ישימה לתמצות מאמרים, כתבי עת, מסמכים וטקסטים אחרים במסגרת המאגרים עצמם או עבור משתמשי קצה כמו ספריות, מכוני מחקר או מנועי חיפוש כלליים.
עוד בנושא:
הבינה המלאכותית שנלחמת בחיזבאללה
השיטה החדשה, שהומצאה על ידי פרופ' מרק לסט, ד"ר מרינה ליטבק וד"ר מנחם פרידמן במחלקה להנדסת מערכות תוכנה ומידע, מספקת תקצירים של טקסטים בשפות שונות, על סמך אלגוריתם שמדרג את המשפטים במסמך, לפי מאפיינים סטטיסטיים על המשפטים. את הדירוג הזה ניתן לבצע בכל שפה, ולחלץ משפטים בעלי דירוג גבוה לכדי תקציר. השיטה, שקרויה MUSE, נבדקה על תשע שפות ונבחנה עד כה על 4 שפות - אנגלית, עברית, ערבית ופרסית, והראתה דמיון רב לתקצירים שנעשו על ידי בני אדם.
ניסויים מראים שלאחר אימון ראשוני של האלגוריתמים, התוכנה לא חייבת לעבור אימון מחדש על תקצירים ידניים בשפות חדשות. לדברי פרופ' מרק לסט, "תמצות מסוג זה חיוני כדי לייצר במהירות סיכומים של כמויות טקסט גדולות. יכולת זו חשובה ביותר למנועי חיפוש, כמו גם עבור משתמשי קצה כמו מכוני מחקר, ספריות ואנשי תקשורת".
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו