היום שבו המחשב יבין את מה שאנחנו אומרים לו ולא נצטרך להשתמש במקלדת ובעכבר כבר כמעט כאן. מחלקת המחקר של מיקרוסופט הצליחה לפתח מערכת זיהוי קול בעלת דיוק ברמה אנושית ו־5.9 אחוזי שגיאות בלבד, ובכך שברה את השיא הקודם של המחשב ווטסון של IBM, שעמד על 6.9 אחוזים. מיקרוסופט תשלב את המערכת החדשה בתוך מוצרים חדשים כגון הסייענית הקולית קורטנה, קונסולת אקס בוקס וכלי תוכנה נוספים.
כבר היום יש סייענים דיגיטליים שמתיימרים להבין מה אנו אומרים להם ומבצעים את מה שאנו מבקשים. Google Home, שהושק בשבוע שעבר בתגובה ל־Echo של אמזון, העלה את הרף. הוא מדגים הבנה מורכבת של שאלות עוקבות, ולא רק הבנה של הבקשה או השאלה האחרונה שנשאלה. כך, למשל, בהדגמה נשאלה המערכת של גוגל מי גר בבית הלבן. אחרי שהתקבלה התשובה הנכונה, השאלה הבאה היתה מתי הוא נולד, והתשובה התייחסה נכונה לברק אובאמה - בלי שהיה צריך לחזור בשאלה על שמו של הנשיא המכהן. כך שורה של שאלות שנותנות הרגשה שמישהו באמת מקשיב וגם מבין מההקשר למה התכוונת.
קורטנה, אלקסה (שמה של הסייענית של אמזון) וגם סירי של אפל הן סנוניות ראשונות של דור חדש של סייענים שמרחיק אותנו עוד יותר מהמקלדת. המהפכה החלה עם השקתו של הטלפון החכם, מכשיר חזק ועוצמתי שאין לו מקלדת, וגם אם אנו מקישים על המקלדת הווירטואלית במסך, זה לא הכי נוח. נוח יותר לומר בקול מה אנו רוצים, בתקווה שהמכשיר יבין ויבצע. עוצמות המחשוב מאפשרות את זה היום.

"גוגל הום". חיבור ליוטיוב וליומן הפגישות // צילום: גוגל
הממשק הקולי הוא המועדף עלינו ברוב המקרים. ההתקדמות המהירה של התחום בשנה האחרונה תביא לכך שתוך זמן קצר זו תהיה הדרך הכמעט בלעדית שלנו לתקשר עם המחשב. זה נובע מן העובדה הפשוטה שהדיבור מהיר יותר מהכתיבה. לפי מחקר של אוניברסיטת סטנפורד, הקול מהיר פי שלושה מפקודות במקלדת, והשגיאות יורדות בכ־20 אחוזים.
אלקסה, תזמיני לי שולחן
סירי של אפל וקורטנה של מיקרוסופט מיועדות למכשיר האישי שלנו - טלפון, טאבלט או מחשב. אבל גוגל הום ואמזון אקו מיועדים לבית ומוצבים בין הרהיטים.
אקו הוא למעשה רמקול אלחוטי המופעל בקולו של בעל הבית, לאחר שהוא פונה אליו במילה "אלקסה". אז בעל הבית יכול לפקוד עליו להזמין עבורו מקום במסעדה, לבקש תזכורת עוד 20 דקות, להוסיף פריט לרשימת קניות או לנגן אחד ממיליוני שירים שנמצאים בספרייה של אמזון.
לאקו יש שבעה מיקרופונים וחיישנים שיכולים לשמוע אותנו גם מהצד השני של החדר. אם מותקנים בבית כמה מכשירי אקו מקושרים, המערכת יודעת לאיזה מכשיר אנו הכי קרובים, והוא שיקשיב ויבצע את המשימה. הבעיה היחידה בשלב זה היא שכל אחד מדרי הבית צריך מכשיר משלו, כי המכשיר מאומן להקשיב רק לקול יחיד של אדם אחד; כך שכל אחד מבני המשפחה צריך מכשיר משלו כדי שהחוויה תהיה משפחתית.
בעיה דומה יש גם לגוגל הום, המתביית רק על קול אחד ולא יקשיב לקולות של אחרים. שני הסייענים הללו מתקשרים כמובן לכל אפליקציות "הבית החכם", ואפשר להשתמש בהם כדי לכבות אורות, לפתוח תריסים, להדליק מזגן או להפעיל את מכונת הקפה. זאת כמובן נוסף על התקשורת והתכנים המגיעים מהאינטרנט.
יש כמה חבילות תוכן, בעיקר שירים, והזולה שבהן עולה 4 דולר לחודש והיקרה 15 דולר לחודש או 149 דולר לשנה. המכשיר עצמו עולה 180 דולר, לאחר שהסתיימה תקופת ההרצה שבה אפשר היה להשיג אותו ב־100 דולר. גוגל הום, שהוכרז השבוע, יעלה 129 דולרים בלבד. בשלב זה אין תשלום נוסף על התוכן והמודל העסקי הוא חשיפה לפרסומות. השירות מוגבל בשלב זה רק לארה"ב, אבל בעתיד יהיה זמין במדינות נוספות.
התוכן הוא המלך
אמזון, שדורשת מינוי חודשי לשירות, התקשרה עם שורה של ספקי תוכן דוגמת ספוטיפיי, פנדורה, iHeartRadio ו־TuneIn, המציעים כמעט את כל מגוון התכנים הדיגיטליים הקיים היום. זאת לעומת סירי של אפל, המוגבלת לתכנים של iTune ולספקים של Apple TV, שהם לא הרבה פחות מקיפים וגם כאן יש חבילות של מינוי חודשי שנע מ־7 דולר ועד 19 דולר לחודש, לפי החבילה.
התוכן הוא המלך כאן, וגוגל יודעת את זה. היא מגייסת עתה את כל הספרייה של יו־טיוב כדי לשלב אותה ברמקול של הום, שהוא קומפקטי יותר מהרמקול של אמזון ומזכיר מעט את מטהרי האוויר הקטנים. המכשיר משתלב טוב יותר בעיצוב הקיים של הבית, ויש אפשרות גם לטקסטורה מותאמת בתחתיתו. קיימים בו כל התכנים שגוגל יכולה להציע, ובקרוב ישולבו גם הסרטים של נטפליקס.
הום של גוגל משלב גם את היומן של גוגל ויכול להתריע על פגישה או מטלה שצריך לבצע, להודיע לנו אם לקחת מטרייה או שלא יירד גשם, מה מצב התנועה בכבישים וכל מידע שהיינו מחפשים במנוע החיפוש של גוגל, אבל עכשיו אפשר לקבל אותו בלי מקלדת אלא בבקשה פשוטה בקול הטבעי שלנו.
אדם מול מכונה
עם כל ההתקדמות הגדולה, הממשק הקולי עדיין בחיתוליו וצריך להתגבר על כמה מכשולים לפני שיאומץ על ידי כולם. ראשית, עדיין לא הגענו לרמת דיוק כמעט מלאה. לפני שאחוז השגיאות יפחת לפחות מאחוז אחד, לא נוכל לסמוך על הסייענית הדיגיטלית שתסייע בכל מקרה. חברות המחקר העוסקות בתחום ביצעו סקרים, ולפיהם רמת הדיוק עדיין איננה מספקת כדי ליצור מערכת של אמון בין המשתמשים לבין הסייענים.
הבעיה השנייה שהחוקרים מצביעים עליה היא הקושי הפסיכולוגי שבדיבור אל מכונה. 34 אחוזים מהנשאלים בסקר גדול אמרו כי הם אינם מודעים לקיומם של ממשקי קול עם המחשב. 18 אחוזים מהנשאלים אמרו כי ישתמשו בממשק הקולי רק כשאין אדם אחר לידם. רק כאשר האנשים לא ירגישו נבוכים להשתמש בממשק הקולי ליד אנשים אחרים ויישבר המחסום הפסיכולוגי, אפשר יהיה להגיע ליותר משתמשים.
המשוכה הגדולה ביותר של המכשירים הללו היא היכולת שלהם להבין מה אנו רוצים מהם. נצטרך לדבר ברור ובמבטא שיהיה מובן למכשיר כדי שיוכל להגיב בהתאם. המכשיר לא יתאים לכל אחד, ונצטרך ללמוד לעבוד איתו כדי לנצל את כל התכונות שלו.
אי אפשר שלא להזכיר בעניין זה את המערכון הסקוטי על שני תושבי גלזגו שנכנסים למעלית ומתברר להם שהיא מופעלת בפקודות קוליות. הם בסך הכל רוצים להגיע לקומה 11, ומסכת הייסורים שהמעלית מעבירה אותם בגלל המבטא הסקוטי המודגש מעלה חיוך וגם סימני שאלה על עתיד הממשק הקולי. אין ספק שזהו הממשק של העתיד, ולמעשה הוא כבר כאן איתנו.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו