היום בתוכנית: חידושים והמצאות! רצה הגורל ודווקא במהלך הימים הנוראים הייתי צריך לעבור על מחקרים שנעשו לאחרונה בבלשנות חישובית כדי לראות אם משהו קשור לפרוייקט שאני עובד עליו. בגלל שיום כיפור הוא זמן לחשבון נפש, החלטתי לספר בקצרה על כמה רעיונות יפים במיוחד שמומשו לאחרונה בצורה לא פחות יפה. סך הכל, גם כאן וגם באכסניות אחרות ירדנו מדי פעם על בלשנות חישובית והמרוץ אחר "שיפור של חצי אחוז בתוצאות", וחבל להתעלם מהעבודה הרצינית שנעשית שם על דברים שבאמת רלוונטים לבני אדם.
בתפריט: בלשנות חישובית בשירות הפרכת תיאוריות ספרותיות, תיעוד כל השפות בעולם, חלוקת מילה להברות ומציאת מידע בהסתמך על סמנטיקה תיאורטית.
- מציאת רשתות חברתיות בסיפורת אנגלית של המאה ה-19 (כמובטח). אחד המאמרים האהובים בכנס ACL האחרון הוא של קת'לין מק'קיון ועמיתיה מאוניברסיטת קולומביה שבדקו תיאוריה ספרותית ומצאו שלא דובים ולא יער. בהסתמך על תיאוריה ספרותית של עיור ושל הקשרים בין הדמויות בעיר ובכפר, שמושפעת ישירות מהכרונוטופ של בכטין, מקובל לטעון (מקובל? לא יודע. יש אנשי-ספרות בקהל, אנא האירו את עיניי) שכשרומן מתרחש בכפר ישנם קשרים מועטים אך חזקים בין מספר קטן של דמויות; מנגד, ברומן עירוני ישנן הרבה דמויות אך קיימים מעט קשרים ביניהן.
טוב, נגיד שזו תיאוריה מבוססת. שתי השלכות שקשורות זו בזו ניתנות לבדיקה: הראשונה, שיש קשר הפוך בין כמות הדיאלוג ובין מספר הדמויות הפעילות בסיפור. השנייה, ש"הרשת החברתית" בין הדמויות תהיה מהודקת יותר אם העלילה מתרחשת בכפר (או באיזו אחוזה ציורית).
את הרשת החברתית אפשר לדמות בעזרת רשת של דיאלוגים בין הדמויות וכך לתאר כך היכן הקשרים החזקים יותר, וכמובן שהיא נבנית אוטומטית לחלוטין בעזרת ניתוח אוטומטי של הטקסט והדיאלוגים, כך שאפשר לתאר בצורה די טובה את הקשרים בין הדמויות.
ועכשיו השוס – לא דובים ולא יער. הקשרים בין הדמויות דומים למדי, לא משנה באיזה מרחב מדובר. מה שבאמת משפיע הוא נקודת המבט – האם יש לנו עסק עם דובר בגוף ראשון או בגוף שלישי.
למה זה להיט: כי הנה דוגמה נהדרת לעיבוד ממוכן של טקסטים שמספק דרך אמינה להעריך תיאוריה ספרותית. אני הכי אוהב את הבלשנות החישובית שלי כשהיא רלוונטית לתחומים נוספים.
למה זה לא יתפוס בחיים: כי כמו שאמר האל דאומה השלישי, למה התיאוריות האלה קיימות בכלל? כלום לא בדקו חוקרי הספרות יותר משלושה רומנים לפני שיצאו בהכרזות כאלה? אבל מעבר לזה, אני תוהה מה הסיכויים שחוקר ספרות יתייחס ברצינות למחקר כזה. הרי למען השם, יש שם גרפים ומספרים! - פרוייקט השפה האנושית: בונים קורפוס אוניברסלי של שפות העולם:
סטיבן בירד, בלשן חישובי מדופלם, מודאג מזה תקופה מהיעלמות שפות בסכנת הכחדה. יחד עם סטיבן אבני הוא חשבו על רעיון כביר – קורפוס ענק, בעל מבנה מינימלי ואלגנטי, שיכיל כמות עצומה של חומר מכל שפות העולם. מעין מקבילה בלשנית לפרוייקט הגנום האנושי.
המטרה היא לשמר את הידע הקיים ובו-בזמן לבנות תשתית להעמקתו. כאבן-בוחן ליכולת שלנו כבלשנים לטעון שהצלחנו "להבין" (ואולי עדיף "לתעד") שפה כמו שצריך משתמשים אבני ובירד באבן הרוזטה: אם אנחנו מצליחים לתרגם משפה נכחדת לאנגלית – או לשפה אחרת, שהרי הכל סובב סביב אנגלית בכל מקרה – סימן שהבנו אותה. לכן, הקורפוס מעוצב עם יישומים לתרגום מכונה כהישג נדרש.
למה זה להיט: כי יש הרבה מאגרי מידע דומים (הפניות במאמר) אבל הם אינם מקיפים והמטרה שלהם לא מוגדרת מספיק. כי עם כמה שינויים, זה יוכל להיות שימושי מאוד גם עבור תיאורטיקנים ומתעדי שפות.
למה זה לא יתפוס בחיים: כי זה לא כלי הכרחי עבור תיעוד שפה. כי רמת הדיוק בניתוח תהיה שטחית מדי עבור תיאורטיקנים. כי לבלשנים לא-חישוביים אין תמריץ של ממש לתרום מזמנם לפרוייקט הזה, וכי בלשנים חישוביים עשויים לחשוב שזה פרויקט יפה וראוי אבל עדיף שמישהו אחר יבזבז עליו את הזמן שלו, אני צריך עכשיו לסיים מאמר לקראת כנס ועוד לא הגעתי לשיפור של חצי אחוז.
- על חלוקת פונמות להברות:
חלוקת מילה להברות היא – אולי במפתיע – משימה לא טריוויאלית עבור פונולוגים ודוברים ילידים כאחד, בטח ובטח בשפה ממזרית כמו אנגלית (איך אומרים, des-troy? או אולי de-stroy?). קולין צ'רי ממיקרוסופט ושני קולגות שלו לקחו על עצמם לשפר את היכולות הקיימות בתחום.
מה שיפה במאמר הזה הוא ההתבססות על תיאוריות פונולוגיות (עד שמסתבר שהן לא טובות מספיק, ואז משתמשים בלמידת מכונה במקומן). לראות דברים כמו Maximal Onset Principle והפניות למאמרים של פונולוגים במאמר בלשנות חישובית זה עניין מרענן כשלעצמו. אבל האם זה עוזר?
החוקרים מימשו שלושה עקרונות פונולוגיים כדי לראות האם הם מצליחים לחלק מילים להברות כמו שצריך. בנוסף, הם בנו מערכת משלהם שמשתמשת בתכונות של הפונמה, ובעיקר אילו פונמות אחרות באו לפניה ואחריה, ולומדת באופן עצמאי על חשיבות התכונות הללו ממילים שמופיעות בטקסטים קיימים (לאנשי למידת המכונה שבינינו – הם השתמשו ביציר-הכלאיים הנהדר SVM-HMM). בסופו של עניין, המערכת שלהם עובדת יופי-טופי ומסוגלת לחלק מילים להברות בצורה מרשימה למדי.
למה זה להיט: כי יש כאן פתרון חישובי לעניין שתיאורטיקנים מתקשים להסכים לגביו; וכי אפשר לראות שהרבה יותר קל לשחק עם משהו "טכני" כמו פונולוגיה מאשר עם משימות מסובכות ומופשטות יותר כמו אתגרים תחביריים וסמנטים.
למה זה לא תופס: כי בסופו של דבר אנחנו נותרים עם תכונות שנקבעו שרירותית ומערכת למידת מכונה שלומדת מטקסט קיים, מה שיש תחת כל עץ רענן שעוסק בעיבוד שפה טבעית. וכי זה אמנם נחמד שאפשר לעשות את זה אבל זה לא מקדם את התאוריה: הייתי שמח לראות את סוג החוקים שהמערכת למדה ולעשות מהם לתיאוריה עצמאית, אבל אני חושד שהם מתבססים על זה שיש כמות פרמוטציות מוגבלת ל-22 26 אותיות באנגלית אז לא מאוד קשה ללמוד אותן ואת הסדר הפונמי המשתמע.
- זיהוי צירופים שמניים גנריים:
בסמנטיקה, ביטוי גנרי הוא ביטוי בסגנון "כלב הוא חיה בעלת ארבע רגלים". אבל מה לגבי כלב שהיה בתאונת דרכים, לא עלינו? האם אינו כלב יותר? ואם אנחנו אומרים ש"צרפתים אוכלים בשר סוס", מה לגבי הצרפתים הצמחונים? ואם אנחנו אומרים ש"עכברים מפריעים לבני האדם", האם זה באמת נכון? הרי הרוב המוחלט של עכברי העולם נסתר מאיתנו ולא נגלה לעינינו אף פעם.
בסמינר לבלשנות חישובית באוניברסיטת היידלברג שיערו שמשפטים כאלה מכילים ידע רב על העולם ולכן כדאי למצוא דרך לזהות אותם באופן ממוכן. הם התרכזו לעת עתה בצירופים שמניים גנריים ("כלב הוא חיה בעלת ארבע רגליים") ולא במשפטים גנריים ("לפלוטו יש מרק ועצם").
אחד הדברים הבעייתים בביטויים גנריים הוא שאין פתרון קסם: זה לא שמשפטים בהווה הם תמיד גנריים, וזה לא שמשפטים גנריים הם תמיד בהווה ("הם חיו באושר ועושר").המערכת השתמשה בכשני תריסר תכונות של המשפט (האם הוא בהווה? האם שם העצם ביחיד או ברבים? ושאר תכונות סמנטיות ותחביריות) ואז עשתה חזרות מרובות עם צירופים שונים של תכונות כדי למצוא אילו הן החשובות ביותר. מהיכרות עם המחברים אני יודע שמדובר באנשים יסודיים למדי, ואכן הם מפרטים את כ-ל התוצאות שהמערכת שלהם השיגה בתצורותיה השונות. חלקן טובות, חלקן פחות, אם כי באופן כללי הם השיגו תוצאות מעודדות למדי, ונראה שבהחלט נעשה כאן צעד בכיוון הנכון.
למה זה להיט: כי בדומה למאמר הקודם, יש כאן נסיון לתת פתרון חישובי למשהו שהתיאוריה הגיעה לסוג של קונצנזוס לגביו, אבל לא קונצנזוס שאפשר למכן עדיין באופן יעיל.
למה זה לא תופס: כי בדומה למאמר הקודם, זה לא עוזר לתיאוריה בכלל. להגנתם ייאמר שזה לא אמור לעזור לתיאוריה – זה אמור לעזור ליכולת להפיק מידע מטקסט, ולפי הקריטריון הזה העבודה תישפט בהמשך הדרך.
אם ארבעת המחקרים האלה עשו לכם תיאבון, ודאי תשמחו לשמוע שבתוכניה של כנס EMNLP שייערך בחודש הבא כבר בולטים מספר מאמרים עם שמות מסקרנים. ביניהם ניתן למצוא את "Poetic" Statistical Machine Translation: Rhyme and Meter מאת צוות תרגום המכונה של גוגל, את Modeling Organization in Student Essays ואת Improving Gender Classification of Blog Authors (לעשות מחקר כזה אצלנו זה קל; אנחנו עדיין מחכים לבלשנית שתרצה לתרום לנו).



מעניין, תודה.
נחמד מאוד. התקטננות אחת: באנגלית יש 26 אותיות. אלא אם כן יש אילוץ שלא התייחסת אליו.
אחלה תזמון: 27.