Feeds:
פוסטים
תגובות

Archive for the ‘בלשנות חישובית’ Category

[בלה פוסט אורחת בלה גבי סטנובסקי בלה סטודנט לבלשנות בלה באוניברסיטת בת בלה]

לאחרונה נתקלתי ברשת במספר אלגוריתמים לשוניים מעניינים ומוזרים שהוצעו בשפה האנגלית. עניין אותי לנסות ולשחזר אותם עבור השפה העברית. רשומה זו סוקרת את האלגוריתמים, את הכלים החישוביים אשר נעשה בהם שימוש, ומספקת מקבילה עברית שלהם.

NURBLE

במקור

מן הקומיקס המעולה SMBC של הכותב והמאייר זק ווינר (Zach Weiner). בקומיקס מועלים לא פעם רעיונות מתחומים רבים, חלקם דמיוניים לחלוטין, וחלקם מתבררים כפרקטיים למדי.

באחד הקומיקסים הכותב העלה את הסברה כי ניתן לשפר טקסטים פוליטיים ע"י שינוי כל מילה שאינה שם עצם ל-NURBLE. עוקב טוויטר חרוץ לא איחר להגיב עם תוכנה קטנה שעושה בדיוק את זה – מקבלת טקסט, ומחזירה אותו "מנורבל".

הרעיון לא חמק מעינם של הכותבים של לאנגואג' לוג, אלו התייחסו בפוסט שבו הוצעו מספר "מנרבלים" נוספים.

איך זה נעשה

התוכנה הקטנה ששלח העוקב (שנכתבה בשפת PHP) עושה שימוש במשאב חיצוני – קובץ המכיל מאגר מילים וחלק הדיבר שלהם. התוכנה עוברת מילה-מילה על הטקסט אותו יש לנרבל, ובודקת לפי המאגר האם המילה היא שם עצם או לאו – בהתאם היא מחזירה Nurble, או את המילה עצמה.

התוצאה

מעניינת ומשעשעת למדי, ניתן להתרשם באותו הקומיקס מהרצה של האלגוריתם על נאום המצב לאומה של אובמה. באופן מפתיע ניתן להבין את רובו, גם כאשר הרוב המוחלט של המילים "מנורבל".

בעברית

כפי שראינו התוכנה המקורית עשתה שימוש במאגר מילים ממשאב חיצוני. למיטב ידיעתי משאב שכזה לא קיים בשפה העברית. בנוסף, כנראה שנטייתה של השפה העברית לעמימות תחבירית יקשה מאד על שימוש במשאב כזה, גם אם קיים. מסיבות אלו נעשה שימוש במתייג – פונקציה אשר בקבלת משפט מחזירה, בין השאר, את חלקי הדיבר של מילותיו (עוד על כך בהמשך) באחוזי ההצלחה מסוימים. בהינתן פונקציה כזו הפתרון למשימה נעשה טריוויאלי – נעבור על כל המשפטים בקלט, נזין אותם למתייג, ונברור את שמות העצם מתוכם.

התוצאה

התרשמו בעצמכם מ"נירבול" נאומו של יאיר לפיד במליאה:

מקור, ולאחר נירבול.

עינכם הרואות – ה"נארבל" עשה עלייה ל-"בלה", לדעתי גם במקרה הזה ניתן להבין את המסר בקווים כלליים.

נסו בעצמכם

אם אתם מעוניינים לבדוק בעצמכם את ההשפעה של הנירבול על טקסטים אחרים, העלתי מדגים של התוכנה (לאחר הכנסת הטקסט, סמנו את האופציה NURBLE).

אתנחתא – מתייגים, מפיגי עמימות ומודלים סטטיסטיים

בתחום הבלשנות החישובית קיימים מספר תחומים ובעיות אשר נחקרו רבות בשנים האחרונות – רובן בעיות בסיסיות אשר פתרון שלהן יהווה בסיס כמעט לכל מערכת אשר רוצה לעשות שימוש בשפה טבעית. בין אלו ניתן למצוא: תיוג חלקי דיבר (Part Of Speech Tagging), זיהוי ביטויים שמניים (NP Chuncking) וזיהוי ישויות (Named Entity Recognition). קל לראות כי אלו הן אבני הבסיס למשימות "מורכבות" יותר, דוגמת ניתוח תחבירי (Parsing), תרגום מכונה, סיכום אוטומטי, ועוד.

בניגוד למשימות ה"מורכבות", במשימות בסיס אלו קיימת לרוב הסכמה בין דוברי השפה לגבי הפלט הרצוי. כך, כל דובר שפה עברית יסכים כי חלק הדיבר של המילה "רץ" במשפט "גל רץ הביתה" הנו פועל (Verb), בעוד שספק אם קיימים שני אנשים שונים אשר יסכמו את הרשומה הזו לכדי אותו סיכום.

כמובן שבעיות אלו הנן תלויות שפה עד מאד, והאלגוריתמים אשר מנסים לפתור אותן חייבים להתייחס למאפייניה הייחודיים של השפה אליה הם מכוונים פתרונן. למשל אופייה הצירופי (word agglutination) של השפה העברית עלול להקשות רבות על כותבי אלגוריתמים כנ"ל לשפה העברית – אלגוריתמים אלו צריכים להפיג את העמימות באשר היא קיימת לגבי המילים במשפט. אם נסתכל שוב על המילה "רץ" הפעם במשפט "גל הזיז את הרץ למשבצת הסמוכה", ברור כי יש להתייחס למילה רץ בתור שם עצם, בניגוד לפועל שראינו במשפט לעיל – אלגוריתמים אלו יצטרכו לבחור את הפירוש הנכון למילה בהינתן ההקשר המתאים. [ראו גם כאן וכאן – א"ק]

המגמה הבולטת בשנים האחרונות לתקיפת בעיות אלו היא גישה הסתברותית (סטוכסטית). ניתן לייחס זאת להתחזקות כוח המחשוב, לקורפוסים העצומים והבלתי מעובדים (unstructured corpora) של שפה טבעית שמשתמשי האינטרנט מייצרים על בסיס יומיומי, ולאכזבה כללית ממודלים דטרמיניסטיים ו-"שלמים" יותר שהוצגו בעבר.

אלגוריתמים הנוקטים בגישה זו מניחים קיום של מודל כלשהו אשר ממנו מופקים משפטים תקינים בשפה או שבעזרתו ניתן לנתח משפטים בשפה טבעית. כך לדוגמא רשתות נוירונים מניחות קיומו של מודל המפשט את המוח האנושי לכדי נוירונים אשר מופעלים לפי פונקציות הפעלה מסוימות (activation function), ומודלי מרקוב חבויים (Hidden Markov Models) מניחים קיומו של מודל של מכונת מצבים, אשר המעבר בין המצבים תלוי במשפט הקלט ובהסתברות מסוימת.

מודלים אלו נמצאים בבסיס האלגוריתמים הסטוכסטיים. אופיינית, אלגוריתמים אלו יתחילו מתהליך של "אימון" על משפטי קלט משפה טבעית. תהליך זה מטרתו לכייל את הפרמטרים אשר מוטבעים במודל. כך ברשתות נוירונים יכוילו המשקלים אשר ניתנים לכל נוירון, ובמודלי מרקוב חבויים תכוילנה ההסתברויות למעבר בין המצבים.למעשה ניתן לומר כי תהליך האימון מתאים את המודל למשימה הספציפית מולה ניצבים.

לאחר שלב האימון, מפסיקים לכייל את הפרמטרים של המודל ומציגים בפניו משפטים שלא חזה בהם בשלב האימון. בתקווה, המודל אכן יודע להכליל איזושהי תחזית לגבי כלל המשפטים בשפה (או בחלק נרחב ממנה), ולכן יוכל לתת תשובות באמינות מסוימת גם עבור משפטים שלא ראה בעבר.

חלק מן החכמה בכתיבת מערכות שכאלו כוללת את בחירת המודל, אפיון הפרמטרים שלא ישתנו במהלך האימון (לדוגמא, טופולוגיית הרשת במקרה של רשתות נוירונים), ובחירת המאפיינים (features) שיהוו קלט למודל הנבחר.

עבור מימוש שני האלגוריתמים הפשוטים יחסית שמתוארים ברשומה זו, עשיתי שימוש במתייג ומפיג העמימות שנכתב על ידי מני אדלר מאוניברסיטת בן גוריון. משפטים שלמים מן הקלט מוזנים אליו, ובתמורה מקבלים עבור כל מילה בין השאר את חלק הדיבר שלה (בו כבר עשינו שימוש עבור אלגוריתם NURBLE) את הבניין, הזמן, המין, הגוף, ואת צורת הריבוי שלה – בכל אלו נעשה שימוש באלגוריתם הבא שיתואר.

Jailbreak the Patriarchy

במקור

במקרה הזה מדובר בתוסף לשוני מוזר לדפדפן chrome שמתיימר לשבור את הפטריארכיה השלטת ברשת.

התוסף מחליף בטקסט דפי האינטרנט שמות גוף זכריים לנקביים ולהיפך. בנוסף הוא מחפש ביטויים זכריים מסוימים ומחליף אותם במקבילה הנקבית שלהם, ולהיפך. כך לדוגמא "he loved his mother very much" יהפוך ל-"she loved her father very much" ו-"the patriarchy also hurts men" יומר ל- "the matriarchy also hurts women".

איך זה נעשה

לפי תיאור התוסף, נראה כי מדובר במשימת "חפש-החלף" פשוטה יחסית: התוסף עובר על הטקסט בדף, ומחפש ביטויים שנקבעו מראש. ברוב המשפטים אכן מושגת החלפת מין (gender swapping, לפי הכותב), זאת מכיוון שרוב חלקי הדיבר בשפה האנגלית הם ניטרליים מבחינת מין.

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

בעברית

בדומה לאלגוריתם הקודם, נראה כי הגישה שננקטה במקור לא תספק מענה הולם בעברית. נסתכל על הדוגמא שנתנה בחלק הקודם:

  • גל רץ הביתה.
  • גל הזיז את הרץ למשבצת הסמוכה.

נניח כי נבצע משימה של חיפוש והחלפה, ונרצה להחליף את "רץ" ב-"רצה", נקבל:

  • גל רצה הביתה
  • * גל הזיז את הרצה למשבצת הסמוכה

ברור כי זוהי אינה התנהגות רצויה, וכאמור, בשפה האנגלית לרוב לא נתקלים בקשיים שכאלו.

הדרך בה נקטתי לפתרון הבעיה הנה שימוש במתייג שהוזכר לעיל – ממנו דליתי עבור כל מילה בקלט את חלק הדיבר שלה, בהתאם הפעלתי עליה פונקציית החלפת מין. אתאר את הפונקציות עבור חלקי הדיבר שם-גוף ופעלים:

שמות גוף:
בהינתן הידע כי מילה מסוימת היא שם גוף, והעובדה כי שמות הגוף היא קבוצה סגורה וקטנה יחסית של מילים, ניתן להשתמש בטבלה פשוטה ולהמיר "הוא" <-> "היא", "הם" <->"הן" וכיו"ב.

פעלים:
בהינתן הפרמטרים הבאים עבור מילה: בניין, זמן, מין, גוף, ואת צורת הריבוי שלה. ניתן להשתמש בחוקי התחביר העברי, לגזור את השורש ולשתול אותו במקבילה הנקבית / זכרית.
בנוסף לאלו, הכנסתי גם רשימת ביטויים בעלי מין אותם האלגוריתם מחליף, בדומה לתוסף המקורי – "אמא" <->"אבא", "פטריארכיה" <-> "מטריארכיה" ועוד.

התוצאה

מעניינת, אך רחוקה מלהיות מושלמת. אם להמשיך באותו קו של דוגמאות, בחרתי את פוסט הפייסבוק שמשום מה התפרסם בזמן האחרון על ריקי כהן הדמיונית, וזוהי התוצאה: "אני רוצה שנדבר על מר כהן". ניתן לראות כי ביטויים רבים מבלבלים את התוכנה, אולם ברגעיה היפים יוצאים משפטים לתפארת מרב מיכאלי.

נסו בעצמכם

גם בתוכנה זו ניתן להתנסות בהמרת מינו של כל ביטוי העולה על רוחכם – כאן (לאחר הכנסת הטקסט, סמנו את האופציה Jailbreak).

[בלה בלה רשומת אורחת בלה גבי בלה בלה בלה פוסט אורחת בלה צרו בלה קשר בלה בלה דרך הטופס בעמוד בלה בלה]

Read Full Post »

וואו. כריס מאנינג ודן ג'ורפסקי, שני בלשנים חישוביים מוערכים מסטנפורד, מלמדים קורס בעיבוד שפה טבעית, בחינם, דרך האינטרנט, החל מה-23 לחודש. הם חוקרים כל כך מוכשרים, והרעיון הזה כל כך מלהיב, שזה שווה פוסט שלם רק בשביל קישור אחד: כל הפרטים כאן.

מומלץ לצפות גם בסרטון הקצר שבו שני החוקרים מזמינים אתכם לקורס; הוא נראה בדיוק כמו שהייתם מצפים משני מדעני מחשב שמושיבים אותם מול מצלמה ונותנים להם לדקלם טקסט. זה כה חמוד.
אז כדי שהפוסט הזה לא יהיה חסר כל תוכן משל עצמו, הנה חידה: ישנן 4 טעויות בכתוביות (האוטומטיות?) של הסרטון ביוטיוב. מה הן?

רמז: שלוש הן של מאנינג — כנראה בגלל המבטא האוסטרלי — ואחת של ג'ורפסקי.


Read Full Post »

נראה שהחומסקיבוט, אותו מנגנון פשוט שמצרף חלקים ממשפטים לא קשורים לכדי פארודיה שלמה אחת, זוכה לאחרונה לעדנה ברשת הישראלית. אני חושב שתיארנו את החומסקיבוטים לראשונה בתגובות כאן; האתר שולף משפטים או חלקי משפטים ממאמרים שונים של חומסקי ומחבר אותם לפסקה משעשעת אחת. בדומה לזה נוצר גם מחולל הפוסט מודרניזם, שמחבר מאמרים שלמים בעלי ניחוח אקדמי.

מה יש לאינטרנט העברי להציע לאחרונה? די הרבה.

נתחיל עם אתר שעלה לאחרונה לרגל התחדשות גל החקיקה האנטי-דמוקרטית, מחולל החוקים הרשמי של מדינת ישראל. חוק לדוגמה: "חוק איסור התחזות. יוזם החוק: מאיר שטרית. סטטוס: קריאה ראשונה. תמצית החוק: ייאסר על אזרחים ממוצא מוסלמי לקרוא לילדיהם בשמות אשר עלולים להתפרש גם כשמות יהודיים כגון אדם, אמיר או רני. אזרחים אשר כבר מחזיקים בשם שכזה יחויבו להחליף את שמם לשם הולם יותר, דוגמת עבדאללה נסראללה."
הערכה: צחוק, צחוק, בסוף לא הפסקנו לבכות. אל תפספסו את סדרת חוקי 'חוק בנות ישראל לא לישמעאל', 'חוק ישראל היום' וחוקי 'חוק היורד הבוגד'/'מי צריך אתכם יבוגדים'. מהבחינה הטכנית החוקים יחסית קבועים, רק שם היוזם והסטטוס משתנים. ובכל זאת לפעמים יש שינוי או שניים בגוף החוק עצמו, כדי לשמור על הגיוון.

נמשיך עם מחולל ההתרשמות הקולינרית של השף אייל שני, או האיילשניבוט, שיוצר משפטים כמו "הכבד ברוטב סוסוני ים שהכנת מעלה בי זכרונות של תקופת הטירונות. זה כמו להקליד את שמך במהופך אף על פי שמקובל לפתוח בהורה סוערת."
הערכה: מצד אחד, מי שלא ראה תוכנית של אייל שני מימיו (כמוני) עשוי לא להבין על מה המהומה. מצד שני, די קל להבין את הקטע. מהבחינה הטכנית זה לא חומסקיבוט מתוחכם מדי, פשוט בוחרים באקראי מתוך רשימה מה משלים את המשפט "ה-א' שהכנת עושה לי ב'. זה כמו ג' בלי ד'".

התגובמולטור עובד בצורה דומה ומחולל טוקבקים לתפארת: "560. המשטרה מתנהגת כמו פושעים. אבא לחייל קרבי, בושה וחרפה (09.10.10): האשכנזים ההומואים מלאים בשנאה עצמית ושונאים כל דבר שקשור ליהדות. גלעד שליט בשבי כבר יותר משלוש שנים וזה מה שאתם מתעסקים איתו? בושה כרגיל ברק וצהל חכמים על יהודים".
הערכה: כנראה המדויק מכל החומסקיבוטים. ניתן לקרוא את התגובמולטור ולא צריך אפילו לדבר עם אנשים ברחוב. מהבחינה הטכנית מסביר היוצר, ארז וולף, מה קורה בפשטות: "התגובמולטור מבוסס על אלגוריתם חזק שיודע להרכיב מבנה זהה של תגובה: מישהו (משתנה A) עכירת ישראל (משתנה B) עושה משהו (משתנה C)"

על הגל הזה רוכב גם היערימט, מחולל משפטי אהוד יערי, שמספק פרשנויות לתפארת דוגמת "ללא ספק יאיר, נצרף גם את דברי סלאם פיאד: 'ראלבין פיל קיסקוס, אינתי עומרי עחוש' או בתרגום חופשי – אין הכבשה פוסעת, זה לעולם לא יהיה זאבת".
הערכה: חוזר על עצמו די מהר, ויש כמות גדולה מהרגיל של ג'יבריש שפשוט נשמע מצחיק, אבל עושה את העבודה. מהבחינה הטכנית זה אותו השטיק כמו בשני החומסקיבוטים הקודמים.

נמשיך הלאה למחולל חדשות הפועל פתח תקוה, כנראה החומסקיבוט האהוב עלי. העמוד הנהדר הזה, חלק מאתר אוהדים, מייצר חדשות אמינות למדי כמו: "שחקני הפועל פ"ת נדרשו לקצץ 70% משכרם. דני לוי כינס את שחקני הקבוצה באמצע הלילה ובישר להם כי שכרם יקוצץ באופן חד צדדי. "ניסינו להבין מה קרה", אמר שחקן בקבוצה, "אבל הוא קרא לנו חבורה של כפויי טובה והוסיף שאנחנו צריכים להגיד תודה שבכלל משלמים לנו"."
הערכה: מעולה. לא רק שהסיטואציות המובעות באתר מצחיקות גם עבור מי שאינם חובבי כדורגל, מחולל החדשות גם מאפשר לנו לחוש את התסכול העצום שהוא מנת חלקם של אוהדי הקבוצה שירדה מגדולתה. מהבחינה הטכנית מדובר במספר כתבות שמועלות בכל פעם, ובכל אחת יש כמה פרטים שמשתנים – מספיק בשביל לגרום לי ללחוץ על "עוד חדשות" שוב ושוב.

מפתח תקוה נעבור לעוד עיר שלא באמת קיימת עם העיר שחוברה לה יחדיו, מחולל השכונות הירושלמיות. עם כל רענון של האתר תקבלו שם של שכונה ירושלמית דמיונית המורכב משתי מילים: תל הזיתים. צמרת חיים. מעוז מנחם. מעלה שאננים. הר שמעון.
הערכה: האתר הזה עושה בדיוק דבר אחד והוא עושה אותו מצוין. מהבחינה הטכנית אין יותר מדי מה להגיד – היופי הוא בפשטות. זה מזכיר לי שידידתי מיכל הציעה לבנות מחולל שמות תחנות רכבת בחיפה ('חוף השמונה' וכן הלאה).

את החומסקיבוט המתוחכם ביותר שמרתי לסוף – מדובר בגיספנומטור המפורסם, שאף זכה לאיום בתביעה ממחבר הלהיטים המזרחיים יוסי גיספן שאותו הוא מחקה. שיר לדוגמה: "לא קלה. לחן: מסורתי.
כולם חושבים שאת מכשפה / ושאת לא מתחברת לצלילי המוסיקה /אבל אני אורח בליבך
אז תתני לי את החום שבליבך /ותראי לי שאת המלכה שלי
אמא אומרת שאת לא קלה / ושאת עושה לי בלאגנים מכל שטות / אבל ההוא שלמעלה / רק ההוא שלמעלה במרומים".
הערכה: אות ומופת לחומסקיבוטים באשר הם. לא ניתן לדעת מה המקור ומה החיקוי. מהבחינה הטכנית יש כאן יותר מכמה משפטים שמתחלפים ביניהם בצורה צפויה – באמת יפה.

ובונוס אחרון שמצאתי בסימניות, של מישהו שדווקא כן עובר מסך ועובר מיקרופון.

[ת' לליאור, הופ ואופיר]

Read Full Post »

חברתנו תמר נשאלה לגבי "כלי אוטומטי לחקירת שפה" והבלוג שמח להחזיר לה טובה ולבדוק את הנושא. מכרתה ר' ביקשה לדעת על מנוע שיכול לעבור על טקסט שהיא כתבה, להציע מילים שונות לאלה שהשתמשו בהן ואפילו לתת ניתוח פסיכולוגי על בסיס המילים שנכתבו. בגלל שלפני כמה חודשים נשאלתי שאלה דומה אסקור בקצרה את מה שעניתי אז, אוסיף כמה דברים שמצאתי בינתיים ואפנה את הבמה לקוראינו שיספרו בתגובות על מה שהם מכירים או השתמשו בו.

לפני שמתחילים כדאי אולי לומר את המובן מאליו, והוא שאין באמת תוכנית שיכולה לעשות את זה בצורה מושלמת משום שאין תוכנית שמסוגלת לחשוב ולהיות יצירתית, והשאלה אם אי פעם תהיה תוכנית כזו עודנה שאלה פתוחה (להבדיל משאלה סתומה). נקודה חשובה נוספת היא שרוב הכלים מפותחים עבור שפות משעממות כמו אנגלית, ובכלל לא בטוח שהם יוכלו לעבוד עם טקסטים בעברית (תודה לאורן על התזכורת הזו).

התחום הקרוב ביותר לעניין הזה בבלשנות חישובית נקרא sentiment analysis, ניתוח רגשות. כשחיפשתי כלים כאלה שנגישים לציבור הרחב – ואינם רק אבות-טיפוס של קבוצות מחקר שונות – מצאתי כמה שאת טיבם אינני מכיר. למשל, יש כלי לכריית מידע שנקרא RapidMiner של איזו חברה גרמנית וניתן להוריד אותו בחינם, אבל הוא עשוי להיות מסובך עבור חסרי רקע בתחום.
מוצר מבטיח נוסף הוא OpenAmplify, שגם בו לא השתמשתי.

סוציובלשנים רבים משתמשים בכלי פופולרי בשם Wordsmith Tools. הוא אמנם לא עושה SA אבל יש בו כלי קונקורדנציה יעיל ויכולת להפיק מילות מפתח. אפשר להוציא ממנו תובנות יפות, גם אם בסיסיות. למשל, מכרה שלי מצאה שבקורפוס עיתונות קנדית מסוים, המילה "דו-לשוניות" בצרפתית מופיעה יותר בהקשרים שליליים מאשר בהקשרים חיוביים, ובעיתונות באנגלית המגמה הפוכה.

כאן בארץ, משה קופל מבר-אילן עובד על דברים דומים וגם הוזכר בתגובות לפוסט הזה של טל (אחד משלושת הטובים שלו, לדעתי). אורן ואני מזכירים שם בתגובות את העבודה הנהדרת של ראדה מיכלצ'אה שעסקה בדיוק בניתוח פסיכולוגי לפי מילים בטקסט.

את הזווית הישראלית משלים הפוסט הזה של גנאדי למברסקי שסקר את חברות עיבוד השפה הפעילות בארץ.

זו סקירה חלקית, כמובן, הן מבחינת ההיקף (התוכנות שאני מכיר) והן מבחינת העומק (עד כמה אני מכיר אותן). קוראינו מוזמנים להשלים את החסר.

[ת' ליותם ולאורן]

Read Full Post »

כתבי השטח שלנו חורשים לאחרונה את הארץ לאורכה ולרוחבה, בעיקר לרוחבה, כדי ללמוד ממיטב כנסי הבלשנות שיש לקהילה הישראלית להציע.
יובל נכח לאחרונה בסמינר הבלשנות החישובית ISCOL וחלק עמנו מרשמיו הרבים ב טוויטר .
ומהיום ולמשך שאר השבוע אהיה אני באוניברסיטה העברית לכנס Roots ‎3 (או בשמו הרשמי: Approaches to the Lexicon‏) שמתמקד במורפולוגיה ובממשקיה עם התחביר. גם התרשמויותיי יצויצו; צריך רק ללחוץ כאן ולקרוא. אם אתם בסביבה אתם מוזמנים לבוא ולומר שלום. היום אקל עליכם את הזיהוי – אני לובש חולצה‎ ‎של קומיקס דינוזאורים .

ובינתיים, אחרי שנהניתי ממיטב פקקי ארצנו, הגעתי באיחור קל להרצאת הפתיחה של היידי הארלי מאונ' אריזונה, מבט מקיף ומאלף על השורש במובנו הבסיסי ביותר. יאללה בלגאן.

Posted by Wordmobi

Read Full Post »

החוג לבלשנות של אוניברסיטת תל-אביב (שם אני ממסטר לי להנאתי) פתח השנה סוויטת קורסים בנושאי בלשנות חישובית: בלשנות חישובית מתחילים + מתקדמים, קורס בשפות פורמליות (שניתן בעבר וחזר השנה) וסמינר. המרצים בקורסים הללו הם דר' רוני קציר ופרופ' פרד לנדמן.

התשע"ב הבאה עלינו לטובה מבשרת תוכנית לימודים חדשה בשם בלשנות חישובית, שמשלבת את הקורסים האלה עם מערך משופץ של המסלול הדו-חוגי הרגיל של בלשנות (פטור מחלק מהקורסים, הקדמת אחרים) ושילוב מערכת שעות מלא עם המסלול הדו-חוגי של מדעי המחשב. מומלץ למי שמתעניין בשפה ומחפש את הצד היישומי-מחשובי שלה.

לפרטים נוספים (מעבר להקישור לעיל), וגם למי שמתעניין בשאר התוכניות בהחוג (או בשאר החוגים בהאוניברסיטה, אבל זה שולי), אפשר להגיע להיום הפתוח בבניין גילמן ב-11/02/2011. כן כן, הפלינדרום שהוא יום השנה להקרנת הבכורה של "אסקימו לימון" בישראל.

[עדכון 19/1: הוד מתרגליותו עזר ראסין מוסר שהוא ישהה במהלך היום הפתוח בבניין שרייבר דווקא, ושם יוכל לתת מידע על המסלול]

Read Full Post »

עולם הבלשנות הבלוגיסטית כמרקחה: גוגל החליטו לעוף על פורמט גוגל-מגמות המוצלח, והביאו את אין-גראמים (NGrams). מי לא כתב על זה? בול העץ (ושוב), הכובע, דוד (תכתובת פרטית). וכאן מקלקליםתקציר מנהלים: חיפוש כל רצף של מילה עד חמש העולה על רוחכם, מתוך קורפוס של המוני המוני ספרים שיצאו במאתיים השנים האחרונות. אחד השימושים המעניינים הוא כמובן להשוות בין שינויי התדירות של מונחים שונים. גוגל כבר עשו את זה על סלבז, צנזורה ועוד.

אני, מרוצה ממעמדנו הרם כבלוג גיקי קליל וקריא, ביליתי לי כמה שעות בחברת הכלי החביב הזה (ועוד כמה שעות בחיפוש אחר קישור לכל מילה בפוסטחבר'ה, אתם חוזים בהיסטוריה). להלן ממצאי (הרחפת עכבר מעל התמונה תציג מקרא).

ראשית, מחווה ליהודה נוריאל:

ויהודה יהודה, גש הלום

וזה בצרפתית

ואם כבר צרפתית, אז זה בשביל החבר'ה ב"היפה והחנון":

סי וו פליי! כמו שאומר פיני

הלאה: מה קרה שם, במלחמת העולם השנייה? האם הבריטים הפסיקו להוציא ספרים?

אמרנו גיקיות בלשנית: חומסקי הוא טרנד חולף.

כאילו הם בחרו מקסימום של 5 מילים בשביל הדוגמה הזו

כמה אנשים מתחכמים יש שג'ף פולום מעוניין להרוג? האם ה"ציטוט" של צ'רצ'יל באמת לא היה בסביבה לפני שנות הארבעים? נראה שלא:

וכאן 5 מילים לא מספיקות, אז השתמשתי בשיטת השמיכה הקצרה

עכשיו ניתן למישהו חומר לדוקטורט:

קן של צרעות, מישהו?

מוזר, חשבתי שאת המספר גוגל כותבים googol. היתה למישהו סיבה לכתוב Google לפני 1998?

אולי טעות בזיהוי אותיות. או משו

וזה מוכוון-יישום. שימו לב כמה זה נקי, קצת מחשיד.

ולסיום, אכזבה לאור העובדה שעד לרגע סגירת הגליון לא ניתן היה לחפש בעברית, בניגוד לטענות של גוגל:

עברית זה כבר לא סקסי

(בון היבר לכולם, ושוב תודה לדוד)

Read Full Post »

אבל לא הפעם.

אמנם המבחנים נגמרו (די מזמן למען האמת), ואמנם הבטחתי, ואנחנו אפילו בשוונג של בלשניסמוס חישוביסמוס, ויאטל הקרוב נושף בעורפי, וחשבתי שאוכל להביא לכם השבוע את רשמיי מכנס החברה הישראלית לבלשנות חישובית שהתקיים ביוני.

אמאמא, מסתבר שאני סנילי באופן חסר תקנה, ואפילו מה שרשמתי לי בחוברת המפשטים לא מספיק לי כדי להיות מסוגל להסביר מה בדיוק הוצג, אז מוטב שאוותר. עם ציבורכם הסליחה, חרקירי בקרוב.

מה שכן, בזמן שחלף מאז הכנס הצטרף לשורותינו אחד המציגים המעניינים יותר מהכנס, טל לינזן. קריאה נרגשת, אם כן: טל, הלו, טל! ספר לנו על מחקרך בפוסט משלך!

לסיכום, הערה לעצמי: אם אני הולך לכנס, לסכם מהר, ולפרסם מהר. ואם יש מבחנים, לוותר. (ואם תהיתם למה בכלל פרסמתי משהו במקום לסמוך על זכרונכם הקצר, הרי זה כמובן כי לא יכולתי לתת לכותרת הנפלאה שהגיתי להיעלם).

Read Full Post »

היום בתוכנית: חידושים והמצאות! רצה הגורל ודווקא במהלך הימים הנוראים הייתי צריך לעבור על מחקרים שנעשו לאחרונה בבלשנות חישובית כדי לראות אם משהו קשור לפרוייקט שאני עובד עליו. בגלל שיום כיפור הוא זמן לחשבון נפש, החלטתי לספר בקצרה על כמה רעיונות יפים במיוחד שמומשו לאחרונה בצורה לא פחות יפה. סך הכל, גם כאן וגם באכסניות אחרות ירדנו מדי פעם על בלשנות חישובית והמרוץ אחר "שיפור של חצי אחוז בתוצאות", וחבל להתעלם מהעבודה הרצינית שנעשית שם על דברים שבאמת רלוונטים לבני אדם.
בתפריט: בלשנות חישובית בשירות הפרכת תיאוריות ספרותיות, תיעוד כל השפות בעולם, חלוקת מילה להברות ומציאת מידע בהסתמך על סמנטיקה תיאורטית.

  • מציאת רשתות חברתיות בסיפורת אנגלית של המאה ה-19 (כמובטח). אחד המאמרים האהובים בכנס ACL האחרון הוא של קת'לין מק'קיון ועמיתיה מאוניברסיטת קולומביה שבדקו תיאוריה ספרותית ומצאו שלא דובים ולא יער. בהסתמך על תיאוריה ספרותית של עיור ושל הקשרים בין הדמויות בעיר ובכפר, שמושפעת ישירות מהכרונוטופ של בכטין, מקובל לטעון (מקובל? לא יודע. יש אנשי-ספרות בקהל, אנא האירו את עיניי) שכשרומן מתרחש בכפר ישנם קשרים מועטים אך חזקים בין מספר קטן של דמויות; מנגד, ברומן עירוני ישנן הרבה דמויות אך קיימים מעט קשרים ביניהן.

    רשת חברתית לדוגמה מהמאמר של אלסון ואחרים (2010)

    טוב, נגיד שזו תיאוריה מבוססת. שתי השלכות שקשורות זו בזו ניתנות לבדיקה: הראשונה, שיש קשר הפוך בין כמות הדיאלוג ובין מספר הדמויות הפעילות בסיפור. השנייה, ש"הרשת החברתית" בין הדמויות תהיה מהודקת יותר אם העלילה מתרחשת בכפר (או באיזו אחוזה ציורית).
    את הרשת החברתית אפשר לדמות בעזרת רשת של דיאלוגים בין הדמויות וכך לתאר כך היכן הקשרים החזקים יותר, וכמובן שהיא נבנית אוטומטית לחלוטין בעזרת ניתוח אוטומטי של הטקסט והדיאלוגים, כך שאפשר לתאר בצורה די טובה את הקשרים בין הדמויות.
    ועכשיו השוס – לא דובים ולא יער. הקשרים בין הדמויות דומים למדי, לא משנה באיזה מרחב מדובר. מה שבאמת משפיע הוא נקודת המבט – האם יש לנו עסק עם דובר בגוף ראשון או בגוף שלישי.
    למה זה להיט: כי הנה דוגמה נהדרת לעיבוד ממוכן של טקסטים שמספק דרך אמינה להעריך תיאוריה ספרותית. אני הכי אוהב את הבלשנות החישובית שלי כשהיא רלוונטית לתחומים נוספים.
    למה זה לא יתפוס בחיים: כי כמו שאמר האל דאומה השלישי, למה התיאוריות האלה קיימות בכלל? כלום לא בדקו חוקרי הספרות יותר משלושה רומנים לפני שיצאו בהכרזות כאלה? אבל מעבר לזה, אני תוהה מה הסיכויים שחוקר ספרות יתייחס ברצינות למחקר כזה. הרי למען השם, יש שם גרפים ומספרים!

  • פרוייקט השפה האנושית: בונים קורפוס אוניברסלי של שפות העולם:
    סטיבן בירד, בלשן חישובי מדופלם, מודאג מזה תקופה מהיעלמות שפות בסכנת הכחדה. יחד עם סטיבן אבני הוא חשבו על רעיון כביר – קורפוס ענק, בעל מבנה מינימלי ואלגנטי, שיכיל כמות עצומה של חומר מכל שפות העולם. מעין מקבילה בלשנית לפרוייקט הגנום האנושי.
    המטרה היא לשמר את הידע הקיים ובו-בזמן לבנות תשתית להעמקתו. כאבן-בוחן ליכולת שלנו כבלשנים לטעון שהצלחנו "להבין" (ואולי עדיף "לתעד") שפה כמו שצריך משתמשים אבני ובירד באבן הרוזטה: אם אנחנו מצליחים לתרגם משפה נכחדת לאנגלית – או לשפה אחרת, שהרי הכל סובב סביב אנגלית בכל מקרה – סימן שהבנו אותה. לכן, הקורפוס מעוצב עם יישומים לתרגום מכונה כהישג נדרש.
    למה זה להיט: כי יש הרבה מאגרי מידע דומים (הפניות במאמר) אבל הם אינם מקיפים והמטרה שלהם לא מוגדרת מספיק. כי עם כמה שינויים, זה יוכל להיות שימושי מאוד גם עבור תיאורטיקנים ומתעדי שפות.
    למה זה לא יתפוס בחיים: כי זה לא כלי הכרחי עבור תיעוד שפה. כי רמת הדיוק בניתוח תהיה שטחית מדי עבור תיאורטיקנים. כי לבלשנים לא-חישוביים אין תמריץ של ממש לתרום מזמנם לפרוייקט הזה, וכי בלשנים חישוביים עשויים לחשוב שזה פרויקט יפה וראוי אבל עדיף שמישהו אחר יבזבז עליו את הזמן שלו, אני צריך עכשיו לסיים מאמר לקראת כנס ועוד לא הגעתי לשיפור של חצי אחוז.
  • על חלוקת פונמות להברות:
    חלוקת מילה להברות היא – אולי במפתיע – משימה לא טריוויאלית עבור פונולוגים ודוברים ילידים כאחד, בטח ובטח בשפה ממזרית כמו אנגלית (איך אומרים, des-troy? או אולי de-stroy?). קולין צ'רי ממיקרוסופט ושני קולגות שלו לקחו על עצמם לשפר את היכולות הקיימות בתחום.
    מה שיפה במאמר הזה הוא ההתבססות על תיאוריות פונולוגיות (עד שמסתבר שהן לא טובות מספיק, ואז משתמשים בלמידת מכונה במקומן). לראות דברים כמו Maximal Onset Principle והפניות למאמרים של פונולוגים במאמר בלשנות חישובית זה עניין מרענן כשלעצמו. אבל האם זה עוזר?
    החוקרים מימשו שלושה עקרונות פונולוגיים כדי לראות האם הם מצליחים לחלק מילים להברות כמו שצריך. בנוסף, הם בנו מערכת משלהם שמשתמשת בתכונות של הפונמה, ובעיקר אילו פונמות אחרות באו לפניה ואחריה, ולומדת באופן עצמאי על חשיבות התכונות הללו ממילים שמופיעות בטקסטים קיימים (לאנשי למידת המכונה שבינינו – הם השתמשו ביציר-הכלאיים הנהדר SVM-HMM). בסופו של עניין, המערכת שלהם עובדת יופי-טופי ומסוגלת לחלק מילים להברות בצורה מרשימה למדי.
    למה זה להיט: כי יש כאן פתרון חישובי לעניין שתיאורטיקנים מתקשים להסכים לגביו; וכי אפשר לראות שהרבה יותר קל לשחק עם משהו "טכני" כמו פונולוגיה מאשר עם משימות מסובכות ומופשטות יותר כמו אתגרים תחביריים וסמנטים.
    למה זה לא תופס: כי בסופו של דבר אנחנו נותרים עם תכונות שנקבעו שרירותית ומערכת למידת מכונה שלומדת מטקסט קיים, מה שיש תחת כל עץ רענן שעוסק בעיבוד שפה טבעית. וכי זה אמנם נחמד שאפשר לעשות את זה אבל זה לא מקדם את התאוריה: הייתי שמח לראות את סוג החוקים שהמערכת למדה ולעשות מהם לתיאוריה עצמאית, אבל אני חושד שהם מתבססים על זה שיש כמות פרמוטציות מוגבלת ל-22 26 אותיות באנגלית אז לא מאוד קשה ללמוד אותן ואת הסדר הפונמי המשתמע.
  • זיהוי צירופים שמניים גנריים:
    בסמנטיקה, ביטוי גנרי הוא ביטוי בסגנון "כלב הוא חיה בעלת ארבע רגלים". אבל מה לגבי כלב שהיה בתאונת דרכים, לא עלינו? האם אינו כלב יותר? ואם אנחנו אומרים ש"צרפתים אוכלים בשר סוס", מה לגבי הצרפתים הצמחונים? ואם אנחנו אומרים ש"עכברים מפריעים לבני האדם", האם זה באמת נכון? הרי הרוב המוחלט של עכברי העולם נסתר מאיתנו ולא נגלה לעינינו אף פעם.
    בסמינר לבלשנות חישובית באוניברסיטת היידלברג שיערו שמשפטים כאלה מכילים ידע רב על העולם ולכן כדאי למצוא דרך לזהות אותם באופן ממוכן. הם התרכזו לעת עתה בצירופים שמניים גנריים ("כלב הוא חיה בעלת ארבע רגליים") ולא במשפטים גנריים ("לפלוטו יש מרק ועצם").
    אחד הדברים הבעייתים בביטויים גנריים הוא שאין פתרון קסם: זה לא שמשפטים בהווה הם תמיד גנריים, וזה לא שמשפטים גנריים הם תמיד בהווה ("הם חיו באושר ועושר").

    כך נראית טבלת התוצאות של צמד בלשנים חישוביים גרמנים

    המערכת השתמשה בכשני תריסר תכונות של המשפט (האם הוא בהווה? האם שם העצם ביחיד או ברבים? ושאר תכונות סמנטיות ותחביריות) ואז עשתה חזרות מרובות עם צירופים שונים של תכונות כדי למצוא אילו הן החשובות ביותר. מהיכרות עם המחברים אני יודע שמדובר באנשים יסודיים למדי, ואכן הם מפרטים את כ-ל התוצאות שהמערכת שלהם השיגה בתצורותיה השונות. חלקן טובות, חלקן פחות, אם כי באופן כללי הם השיגו תוצאות מעודדות למדי, ונראה שבהחלט נעשה כאן צעד בכיוון הנכון.
    למה זה להיט: כי בדומה למאמר הקודם, יש כאן נסיון לתת פתרון חישובי למשהו שהתיאוריה הגיעה לסוג של קונצנזוס לגביו, אבל לא קונצנזוס שאפשר למכן עדיין באופן יעיל.
    למה זה לא תופס: כי בדומה למאמר הקודם, זה לא עוזר לתיאוריה בכלל. להגנתם ייאמר שזה לא אמור לעזור לתיאוריה – זה אמור לעזור ליכולת להפיק מידע מטקסט, ולפי הקריטריון הזה העבודה תישפט בהמשך הדרך.

אם ארבעת המחקרים האלה עשו לכם תיאבון, ודאי תשמחו לשמוע שבתוכניה של כנס EMNLP שייערך בחודש הבא כבר בולטים מספר מאמרים עם שמות מסקרנים. ביניהם ניתן למצוא את  "Poetic" Statistical Machine Translation: Rhyme and Meter מאת צוות תרגום המכונה של גוגל, את Modeling Organization in Student Essays ואת Improving Gender Classification of Blog Authors (לעשות מחקר כזה אצלנו זה קל; אנחנו עדיין מחכים לבלשנית שתרצה לתרום לנו).

David Elson, Nicholas Dames and Kathleen McKeown (2010). Extracting Social Networks from Literary Fiction. ACL 2010.
Nils Reiter and Anette Frank (2010). Identifying Generic Noun Phrases. ACL 2010.
Steven Abney and Steven Bird (2010). The Human Language Project: Building a Universal Corpus of the World’s Languages. ACL 2010.
Susan Bartlett, Grzegorz Kondrak and Colin Cherry (2009). On the Syllabification of Phonemes. NAACL 2009.

Read Full Post »

מילים רבות כבר נשפכו אודות שירות סריקת וחיפוש הספרים השימושי של גוגל, Google Books. גם בבלוג זה עשינו בו שימוש לא פעם, אך לפני מספר ימים הפנה הקורא עמית את תשומת לבי לתופעה מעניינת. הביטו-נא, למשל, בשם הספר הבא:

הספר "כנת דביד" מאת שבתי תיבת

שם הספר המקורי, כמובן, הוא "קנאת דוד – חיי דוד בן גוריון", ולסופר קוראים שבתי טבת. אך חלקים גדולים מהקטלוג של גוגל יובאו מקטלוגים של אוניברסיטאות דוברות אנגלית, שם, סביר להניח, השם בעברית תועתק לאנגלית באופן מסויים. לאלגוריתם של גוגל שמטפל בנתוני המסגרת של ספרים, מתברר, נוסף רכיב שמתעתק את שמות הספרים וסופרים בחזרה לעברית. באופן ברור, האלגוריתם הזה עדיין זקוק ללא מעט אימון בשביל לתפקד בצורה אמינה, ועל כך יעידו גם הסופרים תהודור הרזל, ש"י אגנון, אברהם ב. יהושוא ואסתהר סתרית-וורזל (קהל המגיבים מוזמן למצוא שיבושים מוצלחים במיוחד ולשתף אותנו בתגובות).

בעיות באלגוריתם שמנתח את נתוני המסגרת בגוגל ספרים אינן חדשות, וקיימות גם באנגלית. לאור ההסדרים שאליהם גוגל מנסה להגיע עם הוצאות הספרים, בנוגע לסריקת והצגת הספרים, נודעת חשיבות רבה למיון נכון של נתוני המסגרת שלהם, וזאת בהנחה הסבירה שאף אחד לא יסרוק בעתיד מחדש את כל הספרים וימיינם. בספינת האם Language Log עסקו בנושא רבות: הבלשן ג'פרי נונברג ערך רשימה מפורטת של תקלות בנושאים שונים: תארוך לא נכון (ספרים ששנת הפרסום שלהם היתה לפני שנת הלידה של המחבר), קטלוּג נושאי שגוי, ואף טעויות בשמות הספרים (הנה מצגת קצרה שמסכמת את הטענות). מהנדסי גוגל, יש לומר, היו קשובים לטענות. האם יש בכוחנו לגרום להם לטפל גם באלגוריתם התעתוק לעברית? ובכן, אינני יכול לחשוב על אפשרות פעולה משמעותית יותר מאשר קריאה נרגשת בבלוג "דגש קל".

Read Full Post »

חוקר התרגום איגנסיו גרסיה מאוניברסיטת מערב סידני הוא מאמין גדול בתרגום מכונה, והוא החליט לבדוק האם מערכות תרגום אוטומטיות יכולות לסייע למתרגמים בשר-ודם. במחקר שהתפרסם לא מזמן הוא נתן למספר סטודנטים לעבוד על טקסטים באנגלית ולתרגם אותם לסינית. עבור חצי מהטקסטים השתמשו המתרגמים בתרגום אוטומטי של גוגל כבסיס, והתוצאות היו – אולי במפתיע – טובות.

המשתתפים קיבלו ארבעה טקסטים, שניים בנושאי משפט ושניים בנושאי רפואה (יותר ברמת ויקיפדיה מאשר ברמת כתב עת מקצועי, אם לשפוט מהדוגמאות במאמר), עם גיוון מתבקש בסדר הצגת הטקסטים בין המשתתפים השונים. לא הותר שימוש במילונים, מרשתות ועזרים דומים. בשני טקסטים הופיע תרגום המכונה של גוגל בתור הטקסט המתורגם, ואותו שינו המתרגמים; בטקסטים האחרים, טקסט היעד היה זהה בתחילת העבודה לטקסט המקור. גרסיה ביקש לבדוק שני דברים: האם יש הבדל באיכות, והאם יש הבדל במהירות.

לגבי המהירות, 15 מתוך 28 הנבדקים עבדו מהר יותר עם עזרה של תרגום מכונה, כלומר בקושי יותר מחצי. גם בין המשתתפים ובין עצמם היה קשה לזהות נטיות: רבים מהסטודנטים עבדו מהר יותר עם תרגום מכונה על טקסט אחד אבל לאט יותר על טקסט אחר; וכמעט כולם עבדו לאט יותר על המטלה הראשונה, לא משנה מה היתה (תחושה שוודאי מוכרת למתרגמים רבים).

בעניין האיכות אפשר כבר לזהות מגמה: מתוך 56 תרגומים, 33 תרגומים מתרגום מכונה נוקדו על ידי בוחנים חיצוניים כטובים יותר. ציונים ממוצעים (מתוך 50) לתרגומים היו 33.8 עבור התרגום הסטנדרטי ו-36.4 עבור תרגום עם בסיס של תרגום מכונה (הציונים נעו בגדול בין 30 ל-40). שבעה משתתפים ניפקו תוצר טוב יותר עם בסיס של תרגום מכונה ושניים סיפקו תוצר גרוע יותר.

המשתתפים בניסוי רואיינו בתחילתו ובסופו לגבי העדפותיהם, וניתן היה להתרשם שהם חשבו שתרגום המכונה הוא רעיון טוב, במיוחד לאחר שניתנה להם הזדמנות להשתמש בו. בין הערות הסיום שלו, גרסיה גם מעלה את האפשרות שלחלק מהסטודנטים עשוי להיות ניסיון קודם בעריכת תרגומי מכונה, "בניגוד להמלצות המרצים שלהם". הבה נצא במחול ונרקוד את תרגום המכונה.

Ignacio Garcia (2010). Is machine translation ready yet? Target 22:1, 7–21.

Read Full Post »

טל ירקוני, הישראלי לפי שמו אם לא לפי מקום מגוריו, פרסם לאחרונה מאמר (שגרסה חופשית שלו נמצאת כאן) על הקשר בין תכונות האישיות של בלוגרים לבין המלים שהם בוחרים להשתמש בהן בכתיבתם. ירקוני שלח לכמה אלפי בלוגרים שאלוני אישיות, שבאמצעותם מיין את הנבדקים לפי תכונות כמו רגשנות, הרפתקנות וליברליות. בשלב השני הוא חיפש קשרים בין תכונות האישיות האלה לבין התדירות בבלוגים של כמה אלפי מלים שכיחות.

ואכן, התברר שהבלוגרים שהוגדרו כבעלי נטיות אמנותיות השתמשו יותר מהאחרים במלים כמו "יופי", "ירח" ו"מוזיקה", בעוד שהנוירוטיים נטו להשתמש במילים שקשורות לרגשות שליליים, כמו "נורא", "מדכא" ו"מלחיץ". זה אולי נשמע טריוויאלי, אבל מסתבר שאפשר ללמוד לא מעט על אישיות הכותב מהמלים שהוא נוטה להשתמש בהן. כמה מהקורלציות היו די משונות — למשל, התברר שבלוגרים בעלי מודעות עצמית יתרה השתמשו הרבה במילה sizes; אבל בבדיקה מדוקדקת יותר נמצא שרוב השימושים במילה sizes היו במובן של מידות בגדים, שאמנם יש להניח שמעסיקות במיוחד את בעלי המודעות העצמית המפותחת. ועדיין, קשה להאמין שיש הסבר משכנע לעובדה שאנשים "יעילים" השתמשו הרבה בשם "רוברטס" ובמילה "הוואי", ולעומת זאת בלוגרים מוחצנים השתמשו במילה "מיאמי". תופעות כאלה מעמידות בסימן שאלה את התקפות הסטטיסטית של חלק מהתוצאות, אבל זה נושא לבלוג אחר.

ירקוני מצא קשרים לא רק בין מבנה האישיות של הכותבים לשכיחות של מלים בכתיבתם, אלא גם לשכיחות של חלקי דיבר שונים: למשל, הבלוגרים שהוגדרו כפתוחים לחוויות חדשות השתמשו יותר מהאחרים במילות יחס (אל, עם, על) ובמיליות כמו a ו-the. זה כנראה לא קשור באופן ישיר למבנה האישיות, אלא למשלב הכתיבה, שבתורו מן הסתם דווקא מושפע מתכונות האישיות של הכותב. בכלל, ירקוני לא ניסה להתחשב במשלב, גורם שעשוי להסביר חלק מהקורלציות שנמצאו — למשל הנטייה של בלוגרים שמתאפיינים ב"שיתוף פעולה" להימנע מהמלים fuck ו-asshole עשויה אמנם לנבוע באופן ישיר מחביבותם, אבל גם מהעובדה שהם כותבים במשלב פורמלי יותר שלא מאפשר שימוש במלים כאלה.

גורם מסבך נוסף הוא שתכונות אישיות שונות עשויות מן הסתם להוביל אנשים לעיסוקים שונים, שגורמים להם לדבר על דברים שונים. כלומר, לא מדובר כאן בשימוש במלים שונות כדי לדבר על אותו דבר, מה שהיה מעיד על הבדל לשוני טהור, אלא על הבדלים באורח החיים של הדוברים ובתחומי העניין שלהם. למשל, העובדה שאנשים אינטליגנטיים מרבים להשתמש במילה "פילוסופיה" נובעת כמובן מהעובדה שאנשים כאלה נוטים יותר לעסוק בפילוסופיה, ולא מהעובדה שהם מתארים סיטואציות יומיומיות באמצעות המילה "פילוסופיה".

המחקר של ירקוני מצטרף לטרנד של שימוש בטקסטים מהאינטרנט במחקרים לשוניים. אלה טקסטים שקל מאוד לאסוף אותם ושמאפשרים ניתוחים סטטיסטיים בקנה מידה שלא היה אפשרי לפני כמה שנים (ירקוני מתבסס על 80 מיליון מלים. זה מלא). ובכלל, נחמד לראות שאנשים משתמשים בכלים של בלשנות קורפוס (בגדול, לספור מלים) כדי לענות על שאלות רחבות יותר במדעי החברה. החיסרון הוא כנראה שבלשני קורפוס ייאלצו מעכשיו לבדוק אם כותבי הטקסטים שהם חוקרים היו חברותיים, צנועים, מודעים לעצמם או חרדתיים.

Read Full Post »

ובכן, חברים ואויבים, אתמול אכן התקיים כנס החברה הישראלית לבלשנות חישובית. עבדכם הנאמן הקריב יום של חריש עמוק והגיע לאירוע החשוב, שהיה מעניין ביותר (ולעניות דעתי גם מוצלח כמותית – בערך 150 איש במושב השיא – וכל הכבוד למארגנים), אך אותם מבחנים ארורים לא יאפשרו לי להגיש לכם סיכום נרחב בשבועות הקרובים. בינתיים:

  • התרשמות שטחית: היה עודף קל של משפרי אלגוריתמים למיניהם ומוצאי יישומים חדשים על פני הצד הבלשני / התיאורטי של התחום, ובכל זאת האחרון יוצג בכבוד (ע"י טל לינזן מת"א שהסביר איך יישומים חישוביים עוזרים למחקר תיאורטי), ובשתי הרצאות הרגשתי אפילו גישה היברידית של בלשניזם וחישוביזם: האחת של רשף שילון מת"א (תרגום מעברית-לערבית, הוזכרה כבר בתגובה לפוסט הקודם שלנו על הכנס) והשנייה של עמרי אבנד מהעברית (שימוש במושג הפרוטוטיפיות מהעולם הקוגניטיבי כדי לתייג חלקי דיבר). יישר כוח.
  • פסגת הבלוגרים בשולי הכנס הניבה רעיון לפוסט פורץ דרך שלי, של אור"צ או משותף לשנינו, ונשאיר אתכם בעלטה בינתיים.
  • הבמה פתוחה לכל מי שהיה בכנס לשתף סיכומים, הערות ותובנות; ולכל מי שלא היה – לשאול ולהגיב (ולהכות על חטא, אהמ אהמ).

Read Full Post »

בעוד שבוע וחצי בדיוק ייערך ISCOL 2010 – הסמינר הישראלי לבלשנות חישובית. הפעם זוכה אוניברסיטת תל אביב לארח את הכנס, ועל העבודה השחורה מאחורי הקלעים אמונים נחום דרשוביץ, כפיר בר ורשף שילון.

תוכנית הכנס מגוונת למדי וכוללת בין היתר (ממבט חטוף) נושאים כמו הגיית שמות ממוכנת, תרגום מכונה מעברית לערבית, תיוג חלקי דיבר, הבנת טקסטים בצורות שונות וגם איזה מאמר על סרקזם. שווה.

עם קצת מזל, נספר למי שלא יזכה לנכוח איך היה. בלי קשר, אני גם מצפה בקוצר רוח לרשמיו של חנוך מרמרי מהכנס.

המשך…

Read Full Post »

קאפצ'ה

בדיחה פנימית לאנשי למידת מכונה: קאפצ'ה שנתקלתי בו לא מזמן.

(שרשראות מרקוב הן מודל מתמטי שמשמש לאומדן של הסתברויות שונות. משתמשים בהן גם כדי לזהות דואר-זבל בהסתמך על הסתברות ההופעה של רצף מילים כמו "ויאגרה רולקס עירום".)

Read Full Post »

[עדכון: אורן מבלה את הזמן בראיונות ועורך סיכום ביניים. המשך הסיפור כבר יתועד אצלו, אני מניח]

עמיתנו אורן צור חרג ממנהגו בשבוע שעבר והעיד על עיסתו; ליתר דיוק, העיסה שלו, של דמיטרי דוידוב ושל ארי רפופורט, מחקר מגניב למדי שהם ערכו על גילוי אוטומטי של סרקזם באמצעות האלגוריתם שֹשֹ"י (Semi-supervised Algorithm for Sarcastic Identification, שם נהדר: sassy באנגלית זה איפשהו בין "חצוף" ל"שנון"). עד כאן הכל טוב ויפה: רעיון ראוי, מחקר נחמד, ביצוע מוקפד, מאמר מהוקצע – כמקובל בענף.

סערה בענף

אבל אז, מעשה שטן, האינטרנט שם לב בהמוניו. סלאשדוט היה הראשון, כנראה, וגם במדע פופולרי התעניינו מאוד במחקר המקורי הזה. אחרי שהסיפור הגיע לבוינג-בוינג, גם דה-מרקר שמו לב והנה הדיווח שלהם בעברית. זה גם נתן לכל האתרים תירוץ לכתוב טקסטים מתחכמים כמו זה של cnet:

I'm just sooo happy to be sitting here reading through an eight-page PDF on algorithms. Seriously. Nothing in this world makes me happier than poring over phrases like "detailed results of the 5-fold cross validation of various components of the algorithm are summarized in Table 2."

על מה בעצם כל הרעש? על תוכנית שלומדת ביקורות גולשים מאמזון, מזהה באופן אוטומטי איך נראים משפטים סרקסטיים ובעזרת הידע החדש הזה מסוגלת למצוא משפטים סרקסטים באמזון ובטוויטר.

המחקר

המחקר מוצג בעצם בשני מאמרים. המאמר הראשון הוא אמזון ומתאר את המערכת בפרוטרוט (יש לו גם שם נחמד שצוחק על השם של הכנס, בדיחה שבגארדיאן בטלגרף לא הבינו). המאמר השני מיישם את המערכת גם על טוויטר, ואורן מספר עליו כך:

המאמר דחוס מאין כמוהו כדי להתאים לסד מכסת העמודים המוקצית. למרות זאת, המבוא, החלק על טוויטר והדיון על התוצאות (פרקונים 1,2 ו-5) קלים לקריאה גם למי שלא מבין במדעי המחשב ובעיבוד שפה. למעשה גם החלק האלגוריתמי הוא מעט טכני ומייגע אבל לא מסובך במיוחד. תהנו. בטח.

אורן מסביר יפה בבלוג שלו (וגם במאמרים, כמובן) בשביל מה זה טוב: יכולת להבין ביקורות גולשים, להבין טקסטים בכלל, ושאר דברים שימושיים שחברות ישלמו הרבה כסף עליהם. לטובת המפחדים מאלגוריתמים, נסכם כאן איך המערכת עובדת בקצרה.

המערכת לומדת לזהות, לפי ספירה של תדירויות מילים, איך נראים משפטים סרקסטיים כמו "חברה X כנראה לא Y על Z" ומה התפקיד של סימני פיסוק, וייצרו אוסף של מאפיינים טיפוסיים למשפט סרקסטי. כל משפט חדש שהמערכת רואה מושווה לרשימת המאפיינים ומקבל ניקוד לפי אלה שהופיעו בו. באמזון מצורף לכל ביקורת ציון בן 1-5 כוכבים, אז אפשר להשתמש גם בהם כדי ללמוד מתי יש ביקורת קטלנית שרק נראית כמו ביקורת טובה עם מילים כמו "מעולה" או "הכי".

התוצאות

איך יודעים כמה טוב אלגוריתם כזה עובד? לקחו 90 משפטים שזוהו אוטומטית כסרקסטים ו-90 משפטים שזוהו אוטומטית כלא-סרקסטים, כשבשתי הקבוצות מופיעות התייחסויות מפורשות לחברה או מוצר מסוימים. המשפטים הלא-סרקסטים באו מביקורות שליליות, כדי להפוך את העסק ליותר קשה. המשפטים האלה נבדקו על ידי אנשים שאינם קשורים לחוקרים ושהחליטו אם כל משפט הוא סרקסטי או לא. בסופו של דבר נתקבלו 180 משפטים עם שני סטים של ציונים: אלה ששש"י נתן להם, ואלה שבני אדם נתנו להם.

עכשיו צריך להגיד מילה על איך מודדים איכות של תוצאות בתחום שנקרא אחזור מידע; אם לא מעניין אתכם איך בדיוק מדדו את הביצוע, אתם יכולים לדלג לפסקה הבאה. ובכן, יש שני פרמטרים עיקריים: precision (נקרא לזה "דיוק") ו-recall (למיטב ידיעתי אין שם רשמי בעברית, אז אולי אפשר לקרוא לזה "להוחזר"). הרעיון הוא לבדוק כמה מטרות רלוונטיות נמצאו ע"י המערכת. ניתן דוגמה.
נגיד שהמערכת הסתכלה על 200 משפטים ואיתרה אוטומטית 50 מהם שלדעתה אמורים להיות סרקסטים, כך ש-150 אינם סרקסטים. עכשיו בודקים אם היא צדקה. קודם נבדוק את הדיוק (precision) שלה: כמה מתוך 50 המשפטים באמת סרקסטים? אם 40 מהם באמת סרקסטים ו-10 לא סרקסטים, יש למערכת דיוק של 80%. עקרונית, ניתן להשיג דיוק גבוה אם מגבילים את המערכת למצוא ביטויים כמו "עכשיו אני הולך לומר משהו סרקסטי, שימו לב!". אבל מה שמאזן את הדיוק הוא הלהוחזר (recall): בדוגמה שלנו, המערכת זיהתה ש-50 משפטים מתוך 200 הם סרקסטים. אבל אם בעצם 125 משפטים הם סרקסטים ו-75 אינם, זה אומר שהמערכת מצאה רק 50 מתוך 125 והלהוחזר שלה הוא 40%. אפשר להשיג להוחזר גבוה מאוד אם מחפשים ביטויים כללים מאוד: כמעט כל משפט יכלול את המילה "the" – אבל הרי חיפוש כזה יחזיר המון תוצאות לא רלוונטיות ויוריד את הדיוק. לרוב עורכים גם ממוצע משוקלל של השניים וקוראים לו F-measure.

חזרה למחקר. התוצאות היו, עבור אמזון: דיוק 77%, להוחזר 81%.
עבור טוויטר: דיוק 79%, להוחזר 86%.
אלה תוצאות טובות מאוד!

התוצאות מעניינות בין היתר משום שתהליך הלמידה נעשה מדוגמאות באמאזון, אבל האלגוריתם תיפקד מצוין גם על טוויטים. אחת הסיבות שהחוקרים נותנים היא שבגלל שטוויטים הם חסרי הקשר מטבעם, הם חייבים להיות ברורים יותר. בשביל שאר הסיבות תצטרכו לקרוא את המאמר(ים). כמובן שיש מקום לשיפור: צור/דוידוב/רפופורט מזכירים ששֹשֹ"י יתקשה להבחין בין "הספר היה מצוין עד שהגעתי לעמוד 2" ובין "הספר היה מצוין עד שהגעתי לעמוד 430", אבל מסבירים איך אפשר לעקוף את הבעיה הזו. כמובן שיש עוד הרבה פרטים שלא הזכרנו כאן – היתר במאמרים המלונקקים.

דוגמה לסרקזם

בשולי הדברים, יש לי עוד משהו אחד להגיד למר "TheMarker Online" שכתב את הידיעה הזו בדה-מרקר. כך כתב מר אונליין:

לפי [האתר] בואינג בואינג אחוז הדיוק של האלגוריתם עומד על 77%.

הם אפילו לא טרחו לבדוק דברים לבד! כן, בואו נצטט איזה אתר אינטרנט, כי לבדוק בעצמנו מה כתוב במאמר עצמו זה כ-ל  כ-ך  ק-ש-ה.

Read Full Post »

חנוך מרמרי מתמרמר במאמר עין השביעית (6/4) מכך ש(הוא חושש ש)מכונה עתידה להחליף אותו ואת קולגותיו העיתונאים בכתיבה העיתונאית.

תקראו, לפחות את הסעיפים הראשונים, ותחזרו. אני אמתין.

סיימתם? יופי.

קודם כל, מעניין להתבונן ברשימת השאלות שמרמרי מפנה למחשב שיחליף אותו. יש בה סמטוכה די גדולה של שאלות מתחומי הבינה המלאכותית ועיבוד השפה:

אני רחוק מלהבין בבניית אלגוריתמים, ובכל זאת אשמח להציג כמה שאלות לרובוטים שמבקשים לעשות עיתונות במקומנו, על אודות הטקסט הפשוט שלמעלה. מעין בחינה בהבנת הנקרא, שאפילו לא הייתי טורח לתת למי שהולך לכתוב עבורי או לערוך למעני טקסטים עיתונאיים די בסיסיים, ובתנאי שהוא אנושי וסיים תיכון.

המחשב מתבקש לענות על השאלות הקלות הבאות:

1. מי המום – הקופאי או החניון?

2. "קופאי החניון", "השוער הקשיש", "העובד המסור", "המועמד לפיטורין" – בכמה דמויות מדובר?

3. מה משמעות המשפט "תביאו לקופות אפילו קופים".

4. מי הם ה"פועלים נגד עצמם" – הפועלים המתקינים את האוטומט?

5. מה אפשר לגנוב מהקופה – בננה? מטבעות?

6. פרש את הפועל "לגנוב". מה רע בגנבה?

7. מה זה "תלה מבטו בשמיים". איך תולים מבט?

8. מכונה יכול לגנוב עודף? לשם מה? איך?

9. מי זה "אתם" ב"אתם עוד תתחננו"? מי זה "הם" ב"הם השתגעו"?

10. פרש את הצירוף "נמוג בקול דממה דקה"?

11. מכונת תשלום מגלגלת עצמה לפיצוציה ומבקשת מן המוכר לפרוט לה שטר – אפשרי? נחוץ? מיותר? טיפשי? מצחיק?

12. מה פירוש "לפרוט מאייה?". לאיזו מטרה הצירוף משמש בהקשר לטקסט הזה.

13. מה מרגיש קופאי החניון?

אני אמנם לא הסמכות הבלוגיסטית לבלשנות חישובית, אבל אני מקווה שאת ההבדלים העמוקים שבין שאלותיו המרירות אני מבין נכון:

  • שאלה 9 מבקשת פתרון אנאפורה. בעיה חשובה בעיבוד שפה, הנחשבת פתירה. אלגוריתם מוצלח אמור לענות על השאלה הזו את התשובה הנכונה ברוב מוחלט של המקרים.
  • שאלה 2 רוצה זיהוי/חילוץ ישויות, ובאופן ספציפי הצלבת ישויות. אמנם שאלה שלמחשבים היום יש בעיה איתה, אבל לא משהו שאמור לחלוף בלי תשומת-לב בכלל (ספציפית, המבנה המיודע של הביטויים אמור להדליק נורה אדומה).
  • שאלות 7 ו-10 הן לקסיקליות לחלוטין. מילון טוב אמור להיות גם עשיר בביטויים. שאלה 12 היא גם באותו סל – מאייה היא מילה שמתפרשת לרוב במובנה הכלכלי. אפשר למתוח עוד את היריעה ולשים שם גם את 3: המילה אפילו צריכה לעורר במנגנון הניתוח את מדרג העדיפויות של העובד המצוּטט – מעדיף קופים על רובוטים. ודרך אגב, את סימן השאלה המיותר מסוף 10 אפשר להעביר ל-3 המיותמת.
  • שאלה 4 היא תיוג חלקי דיבר קלאסי, שזה פחות או יותר בסיס הפירמידה של כל ענפי עיבוד השפה הטבעית. אינספור אלגוריתמים יעקפו את נסיון הבלבול של מרמרי מבלי למצמץ. אפילו בעברית.
  • שאלות 1, 5, 8, 11 נוגעות לידע על העולם ברמות כאלה ואחרות: 1, 8 ו-11 רק דורשות לדעת שהנושא של הפועל (להיות המום, לגנוב, ולבקש בהתאמה) אמור להיות אנושי, ומכאן אלגברה. 5 הוא ידע עולם מסוג אחר – "תכולה של קופה היא כסף פיזי" – מסוג הדברים שגם אלגוריתם אוטומטי יכול ללמוד בהנתן קורפוס גדול מספיק.
  • נשארנו עם 6 ו-13. רגש ומוסר. וואלה, התקלת את עולם הבינ"מ. למחשב אין את החום האנושי. כנראה גם קשה לו להיות דמגוג.

לסיכום, בתוך כך-וכך שנים רוב מוחלט של השאלות המרמריות אמור לקבל מענה מצוין. וכמעט כל מה שלא מקבל מענה טוב כיום מהווה פער מחקרי ותו לא.

מה שלא ברור לי הוא למה מרמרי רוצה שהמחשב יבין את מה שהוא כתב. הרי הפחד הוא שהמחשב יכתוב כתבות דומות, ומדובר בשני אתגרים שונים למדי, כאשר השני נחשב לקל באופן משמעותי מהראשון.

וכמה הרהורים נוספים בנושא:

  • כפי שהעיר ידידי המלומד א. קסטנר (2010, תכתובת אישית), אולי מחשב יכול היה לכתוב את המאמר של מרמרי אבל עם פואנטה.
  • לא נראה לי שאלגוריתם יתעצל למצוא את העובדות ההיסטוריות הנכונות.
  • קופי-פייסט מקומוניקטים או מידיעות הסוכנויות מחשבים כבר יודעים לבצע, ויותר טוב מבני תמותה.
  • את הבלוגר השנון לא יחליף שום מחשב(*). אבל את העיתונאי הנוסחתי אולי כן. מרמרי בעצמו מזכיר את רוב כתבות הספורט, ולאלה כנראה נוכל להוסיף את חדשות הבידור, את הרכילויות, חדשות החוץ, ולמען האמת גם את החדשות בעמודים הראשונים. ראבאק, אולי אפילו חלקים מעבודת העריכה יכולים לעבור אוטומציה באלגוריתם לומד שמבין אילו אלמנטים צריכים להיות באיזו מידת הבלטה ואילו נושאים מעניינים הכי הרבה אנשים.
  • עם מה נשארנו? עם עיתונות חוקרת, טורי עמדות וכתבות צבע (אחרי שכתבתי את ההתייחסות לשאלות לעיל אני כבר לא בטוח). בכל זאת לא מעט, לדעתי. ואדרבה, שעיתונאים אנושיים יתמקדו בחשיפות ולא בריצה אחרי מקורבים ומפורסמים. זה יעשה רק טוב.
  • לפעמים דווקא מחשב ללא רגש או חוש הומור מביא אותה ביציאות מוצלחות. אם אינני טועה, את שם המבצע עופרת יצוקה הגה ממוחו הקודח מחשב צה"לי.
  • מחשב שמבין טקסט דווקא יכול מאוד לסייע לעבודה העיתונאית. מנגנון כריית מידע מוצלח לדיסק-און-קי עם 2000 מסמכים מסווגים, מישהו?

המשך…

Read Full Post »

אז הנה משהו מגניב למדי, מכתבה של יאיר מור באתר גאדג'טי בחודש שעבר: תרגום שיחות בזמן אמת. אם נדלג על פני הצהרות תמוהות כגון "שירות התרגום של גוגל מתרגם מילים ולא משפטים" נוכל להתרכז במה שמור מביא לעינינו:

בסרטון מדברים בטלפון שני עובדים של מייקרוסופט, קיט (שהגרמנית שלו לא מי יודע מה) וזיידה (שהאנגלית שלו לא מי יודע כמה), ומנוע התרגום של מייקרוסופט מתרגם אותם אחד עבור השני ואף מוסיף חיווי בשביל שיוכלו לאתר טעויות בתרגום. אחחח, טכנולוגיה! (נתעלם מזה שהמשפט הראשון של זיידה מתורגם בצורה זוועתית למדי.)

זה כשלעצמו לא רעיון חדש מדי. סך הכל מדובר בשילוב של כמה דברים: הרי אנחנו יודעים להפוך דיבור לטקסט, אנחנו יודעים לתרגם טקסט משפה אחת לשפה שנייה, ואנחנו יודעים להפוך טקסט חזרה לדיבור. כל מה שצריך זה כמה מהנדסי תוכנה ממש מוצלחים שיחברו הכל ביחד בצורה טובה, וכאלה יש למייקרוסופט גם יש. חברת צח'ר נמצאת במשחק אף היא ומפתחת כבר זמן מה יישום לטלפון שמתרגם ערבית לאנגלית (וההיפך) והיא נהנית להפגין אותו בפעולה:

למען הסר ספק, גם גוגל לא טומנת את ידה הווירטואלית בצלחת הווירטואלית ואצלה לוקחים את התרגום המיידי צעד קדימה מבחינת משתמש הקצה:

[ת' לשי]

Read Full Post »

פיליפ רזניק ממרילנד מתאר בלאנגואג' לוג איך קהילת הבלשנות החישובית נתרמת למאמצי הסיוע בהאיטי. על הפרק: קורפוסים מקבילים של מונחים רפואיים, שיפורים מהירים למערכות תרגום מכונה, הכנסת תגיות חכמות לטוויטים כדי שאפשר יהיה לכרות מהם מידע בצורה יעילה ומהירה, ועוד. מרשים מאוד.

עדכון 25/1: גם צוות תרגום המכונה של מיקרוסופט מנסה לעזור.

[גם לא-בלשנים-חישוביים יכולים לעזור בדרכם הצנועה. למשל בתרומה ליוניצ"ף או לארגונים אחרים]

Read Full Post »

אם מחפשים בגוגל {איורים של ארנבים}, גוגל יודע להציג עמודים רלוונטים בהם מופיעה דווקא המילה ציורים ולא איורים. קסם. גוגל הסבירו לאחרונה איך הם עושים את זה: יש להם אלגוריתם פלאי שמחפש מילים נרדפות ויודע להתאים אותן להקשר. טוב, אז אולי זה לא מי יודע מה הסבר, אבל אם זה מעניין אתכם אפשר לקרוא את ההסבר הרשמי של סטיבן בייקר מגוגל כאן.

עכשיו, אם אתם מפלצת אימתנית כמו גוגל ויש לכם מערכת שמטפלת יפה במילים נרדפות, למה שלא תשתמשו בה ביישומים אחרים? גנאדי למברסקי מהבלוג עיבוד שפות טבעיות בישראל בדיוק כתב על תרגום מכונה, איך זה עובד, למה גוגל שולטת בתחום ומה נקודות ההשקה היוכלתיות לתעשייה. זה בשביל מי שההסברים-נעבעך שלנו לא הספיקו לו. אפשר בהחלט להניח שגוגל משתמשת במערכת המילים הנרדפות שלה כחלק ממערכת תרגום המכונה שלה. עוד רקע בפוסטים המלונקקים לעיל. רק הערה קטנה ללמברסקי וקוראיו: לראש צוות תרגום המכונה בגוגל קוראים פרנץ-יוזף אוך, ולא אוץ'.

[דרך גוגל בלוגוסקופד, בלוג על גוגל]

Read Full Post »

Older Posts »