Feeds:
פוסטים
תגובות

Archive for the ‘בלשנות חישובית’ Category

אבל לא הפעם.

אמנם המבחנים נגמרו (די מזמן למען האמת), ואמנם הבטחתי, ואנחנו אפילו בשוונג של בלשניסמוס חישוביסמוס, ויאטל הקרוב נושף בעורפי, וחשבתי שאוכל להביא לכם השבוע את רשמיי מכנס החברה הישראלית לבלשנות חישובית שהתקיים ביוני.

אמאמא, מסתבר שאני סנילי באופן חסר תקנה, ואפילו מה שרשמתי לי בחוברת המפשטים לא מספיק לי כדי להיות מסוגל להסביר מה בדיוק הוצג, אז מוטב שאוותר. עם ציבורכם הסליחה, חרקירי בקרוב.

מה שכן, בזמן שחלף מאז הכנס הצטרף לשורותינו אחד המציגים המעניינים יותר מהכנס, טל לינזן. קריאה נרגשת, אם כן: טל, הלו, טל! ספר לנו על מחקרך בפוסט משלך!

לסיכום, הערה לעצמי: אם אני הולך לכנס, לסכם מהר, ולפרסם מהר. ואם יש מבחנים, לוותר. (ואם תהיתם למה בכלל פרסמתי משהו במקום לסמוך על זכרונכם הקצר, הרי זה כמובן כי לא יכולתי לתת לכותרת הנפלאה שהגיתי להיעלם).

Read Full Post »

היום בתוכנית: חידושים והמצאות! רצה הגורל ודווקא במהלך הימים הנוראים הייתי צריך לעבור על מחקרים שנעשו לאחרונה בבלשנות חישובית כדי לראות אם משהו קשור לפרוייקט שאני עובד עליו. בגלל שיום כיפור הוא זמן לחשבון נפש, החלטתי לספר בקצרה על כמה רעיונות יפים במיוחד שמומשו לאחרונה בצורה לא פחות יפה. סך הכל, גם כאן וגם באכסניות אחרות ירדנו מדי פעם על בלשנות חישובית והמרוץ אחר "שיפור של חצי אחוז בתוצאות", וחבל להתעלם מהעבודה הרצינית שנעשית שם על דברים שבאמת רלוונטים לבני אדם.
בתפריט: בלשנות חישובית בשירות הפרכת תיאוריות ספרותיות, תיעוד כל השפות בעולם, חלוקת מילה להברות ומציאת מידע בהסתמך על סמנטיקה תיאורטית.

  • מציאת רשתות חברתיות בסיפורת אנגלית של המאה ה-19 (כמובטח). אחד המאמרים האהובים בכנס ACL האחרון הוא של קת'לין מק'קיון ועמיתיה מאוניברסיטת קולומביה שבדקו תיאוריה ספרותית ומצאו שלא דובים ולא יער. בהסתמך על תיאוריה ספרותית של עיור ושל הקשרים בין הדמויות בעיר ובכפר, שמושפעת ישירות מהכרונוטופ של בכטין, מקובל לטעון (מקובל? לא יודע. יש אנשי-ספרות בקהל, אנא האירו את עיניי) שכשרומן מתרחש בכפר ישנם קשרים מועטים אך חזקים בין מספר קטן של דמויות; מנגד, ברומן עירוני ישנן הרבה דמויות אך קיימים מעט קשרים ביניהן.

    רשת חברתית לדוגמה מהמאמר של אלסון ואחרים (2010)

    טוב, נגיד שזו תיאוריה מבוססת. שתי השלכות שקשורות זו בזו ניתנות לבדיקה: הראשונה, שיש קשר הפוך בין כמות הדיאלוג ובין מספר הדמויות הפעילות בסיפור. השנייה, ש"הרשת החברתית" בין הדמויות תהיה מהודקת יותר אם העלילה מתרחשת בכפר (או באיזו אחוזה ציורית).
    את הרשת החברתית אפשר לדמות בעזרת רשת של דיאלוגים בין הדמויות וכך לתאר כך היכן הקשרים החזקים יותר, וכמובן שהיא נבנית אוטומטית לחלוטין בעזרת ניתוח אוטומטי של הטקסט והדיאלוגים, כך שאפשר לתאר בצורה די טובה את הקשרים בין הדמויות.
    ועכשיו השוס – לא דובים ולא יער. הקשרים בין הדמויות דומים למדי, לא משנה באיזה מרחב מדובר. מה שבאמת משפיע הוא נקודת המבט – האם יש לנו עסק עם דובר בגוף ראשון או בגוף שלישי.
    למה זה להיט: כי הנה דוגמה נהדרת לעיבוד ממוכן של טקסטים שמספק דרך אמינה להעריך תיאוריה ספרותית. אני הכי אוהב את הבלשנות החישובית שלי כשהיא רלוונטית לתחומים נוספים.
    למה זה לא יתפוס בחיים: כי כמו שאמר האל דאומה השלישי, למה התיאוריות האלה קיימות בכלל? כלום לא בדקו חוקרי הספרות יותר משלושה רומנים לפני שיצאו בהכרזות כאלה? אבל מעבר לזה, אני תוהה מה הסיכויים שחוקר ספרות יתייחס ברצינות למחקר כזה. הרי למען השם, יש שם גרפים ומספרים!

  • פרוייקט השפה האנושית: בונים קורפוס אוניברסלי של שפות העולם:
    סטיבן בירד, בלשן חישובי מדופלם, מודאג מזה תקופה מהיעלמות שפות בסכנת הכחדה. יחד עם סטיבן אבני הוא חשבו על רעיון כביר – קורפוס ענק, בעל מבנה מינימלי ואלגנטי, שיכיל כמות עצומה של חומר מכל שפות העולם. מעין מקבילה בלשנית לפרוייקט הגנום האנושי.
    המטרה היא לשמר את הידע הקיים ובו-בזמן לבנות תשתית להעמקתו. כאבן-בוחן ליכולת שלנו כבלשנים לטעון שהצלחנו "להבין" (ואולי עדיף "לתעד") שפה כמו שצריך משתמשים אבני ובירד באבן הרוזטה: אם אנחנו מצליחים לתרגם משפה נכחדת לאנגלית – או לשפה אחרת, שהרי הכל סובב סביב אנגלית בכל מקרה – סימן שהבנו אותה. לכן, הקורפוס מעוצב עם יישומים לתרגום מכונה כהישג נדרש.
    למה זה להיט: כי יש הרבה מאגרי מידע דומים (הפניות במאמר) אבל הם אינם מקיפים והמטרה שלהם לא מוגדרת מספיק. כי עם כמה שינויים, זה יוכל להיות שימושי מאוד גם עבור תיאורטיקנים ומתעדי שפות.
    למה זה לא יתפוס בחיים: כי זה לא כלי הכרחי עבור תיעוד שפה. כי רמת הדיוק בניתוח תהיה שטחית מדי עבור תיאורטיקנים. כי לבלשנים לא-חישוביים אין תמריץ של ממש לתרום מזמנם לפרוייקט הזה, וכי בלשנים חישוביים עשויים לחשוב שזה פרויקט יפה וראוי אבל עדיף שמישהו אחר יבזבז עליו את הזמן שלו, אני צריך עכשיו לסיים מאמר לקראת כנס ועוד לא הגעתי לשיפור של חצי אחוז.
  • על חלוקת פונמות להברות:
    חלוקת מילה להברות היא – אולי במפתיע – משימה לא טריוויאלית עבור פונולוגים ודוברים ילידים כאחד, בטח ובטח בשפה ממזרית כמו אנגלית (איך אומרים, des-troy? או אולי de-stroy?). קולין צ'רי ממיקרוסופט ושני קולגות שלו לקחו על עצמם לשפר את היכולות הקיימות בתחום.
    מה שיפה במאמר הזה הוא ההתבססות על תיאוריות פונולוגיות (עד שמסתבר שהן לא טובות מספיק, ואז משתמשים בלמידת מכונה במקומן). לראות דברים כמו Maximal Onset Principle והפניות למאמרים של פונולוגים במאמר בלשנות חישובית זה עניין מרענן כשלעצמו. אבל האם זה עוזר?
    החוקרים מימשו שלושה עקרונות פונולוגיים כדי לראות האם הם מצליחים לחלק מילים להברות כמו שצריך. בנוסף, הם בנו מערכת משלהם שמשתמשת בתכונות של הפונמה, ובעיקר אילו פונמות אחרות באו לפניה ואחריה, ולומדת באופן עצמאי על חשיבות התכונות הללו ממילים שמופיעות בטקסטים קיימים (לאנשי למידת המכונה שבינינו – הם השתמשו ביציר-הכלאיים הנהדר SVM-HMM). בסופו של עניין, המערכת שלהם עובדת יופי-טופי ומסוגלת לחלק מילים להברות בצורה מרשימה למדי.
    למה זה להיט: כי יש כאן פתרון חישובי לעניין שתיאורטיקנים מתקשים להסכים לגביו; וכי אפשר לראות שהרבה יותר קל לשחק עם משהו "טכני" כמו פונולוגיה מאשר עם משימות מסובכות ומופשטות יותר כמו אתגרים תחביריים וסמנטים.
    למה זה לא תופס: כי בסופו של דבר אנחנו נותרים עם תכונות שנקבעו שרירותית ומערכת למידת מכונה שלומדת מטקסט קיים, מה שיש תחת כל עץ רענן שעוסק בעיבוד שפה טבעית. וכי זה אמנם נחמד שאפשר לעשות את זה אבל זה לא מקדם את התאוריה: הייתי שמח לראות את סוג החוקים שהמערכת למדה ולעשות מהם לתיאוריה עצמאית, אבל אני חושד שהם מתבססים על זה שיש כמות פרמוטציות מוגבלת ל-22 26 אותיות באנגלית אז לא מאוד קשה ללמוד אותן ואת הסדר הפונמי המשתמע.
  • זיהוי צירופים שמניים גנריים:
    בסמנטיקה, ביטוי גנרי הוא ביטוי בסגנון "כלב הוא חיה בעלת ארבע רגלים". אבל מה לגבי כלב שהיה בתאונת דרכים, לא עלינו? האם אינו כלב יותר? ואם אנחנו אומרים ש"צרפתים אוכלים בשר סוס", מה לגבי הצרפתים הצמחונים? ואם אנחנו אומרים ש"עכברים מפריעים לבני האדם", האם זה באמת נכון? הרי הרוב המוחלט של עכברי העולם נסתר מאיתנו ולא נגלה לעינינו אף פעם.
    בסמינר לבלשנות חישובית באוניברסיטת היידלברג שיערו שמשפטים כאלה מכילים ידע רב על העולם ולכן כדאי למצוא דרך לזהות אותם באופן ממוכן. הם התרכזו לעת עתה בצירופים שמניים גנריים ("כלב הוא חיה בעלת ארבע רגליים") ולא במשפטים גנריים ("לפלוטו יש מרק ועצם").
    אחד הדברים הבעייתים בביטויים גנריים הוא שאין פתרון קסם: זה לא שמשפטים בהווה הם תמיד גנריים, וזה לא שמשפטים גנריים הם תמיד בהווה ("הם חיו באושר ועושר").

    כך נראית טבלת התוצאות של צמד בלשנים חישוביים גרמנים

    המערכת השתמשה בכשני תריסר תכונות של המשפט (האם הוא בהווה? האם שם העצם ביחיד או ברבים? ושאר תכונות סמנטיות ותחביריות) ואז עשתה חזרות מרובות עם צירופים שונים של תכונות כדי למצוא אילו הן החשובות ביותר. מהיכרות עם המחברים אני יודע שמדובר באנשים יסודיים למדי, ואכן הם מפרטים את כ-ל התוצאות שהמערכת שלהם השיגה בתצורותיה השונות. חלקן טובות, חלקן פחות, אם כי באופן כללי הם השיגו תוצאות מעודדות למדי, ונראה שבהחלט נעשה כאן צעד בכיוון הנכון.
    למה זה להיט: כי בדומה למאמר הקודם, יש כאן נסיון לתת פתרון חישובי למשהו שהתיאוריה הגיעה לסוג של קונצנזוס לגביו, אבל לא קונצנזוס שאפשר למכן עדיין באופן יעיל.
    למה זה לא תופס: כי בדומה למאמר הקודם, זה לא עוזר לתיאוריה בכלל. להגנתם ייאמר שזה לא אמור לעזור לתיאוריה – זה אמור לעזור ליכולת להפיק מידע מטקסט, ולפי הקריטריון הזה העבודה תישפט בהמשך הדרך.

אם ארבעת המחקרים האלה עשו לכם תיאבון, ודאי תשמחו לשמוע שבתוכניה של כנס EMNLP שייערך בחודש הבא כבר בולטים מספר מאמרים עם שמות מסקרנים. ביניהם ניתן למצוא את  "Poetic" Statistical Machine Translation: Rhyme and Meter מאת צוות תרגום המכונה של גוגל, את Modeling Organization in Student Essays ואת Improving Gender Classification of Blog Authors (לעשות מחקר כזה אצלנו זה קל; אנחנו עדיין מחכים לבלשנית שתרצה לתרום לנו).

David Elson, Nicholas Dames and Kathleen McKeown (2010). Extracting Social Networks from Literary Fiction. ACL 2010.
Nils Reiter and Anette Frank (2010). Identifying Generic Noun Phrases. ACL 2010.
Steven Abney and Steven Bird (2010). The Human Language Project: Building a Universal Corpus of the World’s Languages. ACL 2010.
Susan Bartlett, Grzegorz Kondrak and Colin Cherry (2009). On the Syllabification of Phonemes. NAACL 2009.

Read Full Post »

מילים רבות כבר נשפכו אודות שירות סריקת וחיפוש הספרים השימושי של גוגל, Google Books. גם בבלוג זה עשינו בו שימוש לא פעם, אך לפני מספר ימים הפנה הקורא עמית את תשומת לבי לתופעה מעניינת. הביטו-נא, למשל, בשם הספר הבא:

הספר "כנת דביד" מאת שבתי תיבת

שם הספר המקורי, כמובן, הוא "קנאת דוד – חיי דוד בן גוריון", ולסופר קוראים שבתי טבת. אך חלקים גדולים מהקטלוג של גוגל יובאו מקטלוגים של אוניברסיטאות דוברות אנגלית, שם, סביר להניח, השם בעברית תועתק לאנגלית באופן מסויים. לאלגוריתם של גוגל שמטפל בנתוני המסגרת של ספרים, מתברר, נוסף רכיב שמתעתק את שמות הספרים וסופרים בחזרה לעברית. באופן ברור, האלגוריתם הזה עדיין זקוק ללא מעט אימון בשביל לתפקד בצורה אמינה, ועל כך יעידו גם הסופרים תהודור הרזל, ש"י אגנון, אברהם ב. יהושוא ואסתהר סתרית-וורזל (קהל המגיבים מוזמן למצוא שיבושים מוצלחים במיוחד ולשתף אותנו בתגובות).

בעיות באלגוריתם שמנתח את נתוני המסגרת בגוגל ספרים אינן חדשות, וקיימות גם באנגלית. לאור ההסדרים שאליהם גוגל מנסה להגיע עם הוצאות הספרים, בנוגע לסריקת והצגת הספרים, נודעת חשיבות רבה למיון נכון של נתוני המסגרת שלהם, וזאת בהנחה הסבירה שאף אחד לא יסרוק בעתיד מחדש את כל הספרים וימיינם. בספינת האם Language Log עסקו בנושא רבות: הבלשן ג'פרי נונברג ערך רשימה מפורטת של תקלות בנושאים שונים: תארוך לא נכון (ספרים ששנת הפרסום שלהם היתה לפני שנת הלידה של המחבר), קטלוּג נושאי שגוי, ואף טעויות בשמות הספרים (הנה מצגת קצרה שמסכמת את הטענות). מהנדסי גוגל, יש לומר, היו קשובים לטענות. האם יש בכוחנו לגרום להם לטפל גם באלגוריתם התעתוק לעברית? ובכן, אינני יכול לחשוב על אפשרות פעולה משמעותית יותר מאשר קריאה נרגשת בבלוג "דגש קל".

Read Full Post »

חוקר התרגום איגנסיו גרסיה מאוניברסיטת מערב סידני הוא מאמין גדול בתרגום מכונה, והוא החליט לבדוק האם מערכות תרגום אוטומטיות יכולות לסייע למתרגמים בשר-ודם. במחקר שהתפרסם לא מזמן הוא נתן למספר סטודנטים לעבוד על טקסטים באנגלית ולתרגם אותם לסינית. עבור חצי מהטקסטים השתמשו המתרגמים בתרגום אוטומטי של גוגל כבסיס, והתוצאות היו – אולי במפתיע – טובות.

המשתתפים קיבלו ארבעה טקסטים, שניים בנושאי משפט ושניים בנושאי רפואה (יותר ברמת ויקיפדיה מאשר ברמת כתב עת מקצועי, אם לשפוט מהדוגמאות במאמר), עם גיוון מתבקש בסדר הצגת הטקסטים בין המשתתפים השונים. לא הותר שימוש במילונים, מרשתות ועזרים דומים. בשני טקסטים הופיע תרגום המכונה של גוגל בתור הטקסט המתורגם, ואותו שינו המתרגמים; בטקסטים האחרים, טקסט היעד היה זהה בתחילת העבודה לטקסט המקור. גרסיה ביקש לבדוק שני דברים: האם יש הבדל באיכות, והאם יש הבדל במהירות.

לגבי המהירות, 15 מתוך 28 הנבדקים עבדו מהר יותר עם עזרה של תרגום מכונה, כלומר בקושי יותר מחצי. גם בין המשתתפים ובין עצמם היה קשה לזהות נטיות: רבים מהסטודנטים עבדו מהר יותר עם תרגום מכונה על טקסט אחד אבל לאט יותר על טקסט אחר; וכמעט כולם עבדו לאט יותר על המטלה הראשונה, לא משנה מה היתה (תחושה שוודאי מוכרת למתרגמים רבים).

בעניין האיכות אפשר כבר לזהות מגמה: מתוך 56 תרגומים, 33 תרגומים מתרגום מכונה נוקדו על ידי בוחנים חיצוניים כטובים יותר. ציונים ממוצעים (מתוך 50) לתרגומים היו 33.8 עבור התרגום הסטנדרטי ו-36.4 עבור תרגום עם בסיס של תרגום מכונה (הציונים נעו בגדול בין 30 ל-40). שבעה משתתפים ניפקו תוצר טוב יותר עם בסיס של תרגום מכונה ושניים סיפקו תוצר גרוע יותר.

המשתתפים בניסוי רואיינו בתחילתו ובסופו לגבי העדפותיהם, וניתן היה להתרשם שהם חשבו שתרגום המכונה הוא רעיון טוב, במיוחד לאחר שניתנה להם הזדמנות להשתמש בו. בין הערות הסיום שלו, גרסיה גם מעלה את האפשרות שלחלק מהסטודנטים עשוי להיות ניסיון קודם בעריכת תרגומי מכונה, "בניגוד להמלצות המרצים שלהם". הבה נצא במחול ונרקוד את תרגום המכונה.

Ignacio Garcia (2010). Is machine translation ready yet? Target 22:1, 7–21.

Read Full Post »

טל ירקוני, הישראלי לפי שמו אם לא לפי מקום מגוריו, פרסם לאחרונה מאמר (שגרסה חופשית שלו נמצאת כאן) על הקשר בין תכונות האישיות של בלוגרים לבין המלים שהם בוחרים להשתמש בהן בכתיבתם. ירקוני שלח לכמה אלפי בלוגרים שאלוני אישיות, שבאמצעותם מיין את הנבדקים לפי תכונות כמו רגשנות, הרפתקנות וליברליות. בשלב השני הוא חיפש קשרים בין תכונות האישיות האלה לבין התדירות בבלוגים של כמה אלפי מלים שכיחות.

ואכן, התברר שהבלוגרים שהוגדרו כבעלי נטיות אמנותיות השתמשו יותר מהאחרים במלים כמו "יופי", "ירח" ו"מוזיקה", בעוד שהנוירוטיים נטו להשתמש במילים שקשורות לרגשות שליליים, כמו "נורא", "מדכא" ו"מלחיץ". זה אולי נשמע טריוויאלי, אבל מסתבר שאפשר ללמוד לא מעט על אישיות הכותב מהמלים שהוא נוטה להשתמש בהן. כמה מהקורלציות היו די משונות — למשל, התברר שבלוגרים בעלי מודעות עצמית יתרה השתמשו הרבה במילה sizes; אבל בבדיקה מדוקדקת יותר נמצא שרוב השימושים במילה sizes היו במובן של מידות בגדים, שאמנם יש להניח שמעסיקות במיוחד את בעלי המודעות העצמית המפותחת. ועדיין, קשה להאמין שיש הסבר משכנע לעובדה שאנשים "יעילים" השתמשו הרבה בשם "רוברטס" ובמילה "הוואי", ולעומת זאת בלוגרים מוחצנים השתמשו במילה "מיאמי". תופעות כאלה מעמידות בסימן שאלה את התקפות הסטטיסטית של חלק מהתוצאות, אבל זה נושא לבלוג אחר.

ירקוני מצא קשרים לא רק בין מבנה האישיות של הכותבים לשכיחות של מלים בכתיבתם, אלא גם לשכיחות של חלקי דיבר שונים: למשל, הבלוגרים שהוגדרו כפתוחים לחוויות חדשות השתמשו יותר מהאחרים במילות יחס (אל, עם, על) ובמיליות כמו a ו-the. זה כנראה לא קשור באופן ישיר למבנה האישיות, אלא למשלב הכתיבה, שבתורו מן הסתם דווקא מושפע מתכונות האישיות של הכותב. בכלל, ירקוני לא ניסה להתחשב במשלב, גורם שעשוי להסביר חלק מהקורלציות שנמצאו — למשל הנטייה של בלוגרים שמתאפיינים ב"שיתוף פעולה" להימנע מהמלים fuck ו-asshole עשויה אמנם לנבוע באופן ישיר מחביבותם, אבל גם מהעובדה שהם כותבים במשלב פורמלי יותר שלא מאפשר שימוש במלים כאלה.

גורם מסבך נוסף הוא שתכונות אישיות שונות עשויות מן הסתם להוביל אנשים לעיסוקים שונים, שגורמים להם לדבר על דברים שונים. כלומר, לא מדובר כאן בשימוש במלים שונות כדי לדבר על אותו דבר, מה שהיה מעיד על הבדל לשוני טהור, אלא על הבדלים באורח החיים של הדוברים ובתחומי העניין שלהם. למשל, העובדה שאנשים אינטליגנטיים מרבים להשתמש במילה "פילוסופיה" נובעת כמובן מהעובדה שאנשים כאלה נוטים יותר לעסוק בפילוסופיה, ולא מהעובדה שהם מתארים סיטואציות יומיומיות באמצעות המילה "פילוסופיה".

המחקר של ירקוני מצטרף לטרנד של שימוש בטקסטים מהאינטרנט במחקרים לשוניים. אלה טקסטים שקל מאוד לאסוף אותם ושמאפשרים ניתוחים סטטיסטיים בקנה מידה שלא היה אפשרי לפני כמה שנים (ירקוני מתבסס על 80 מיליון מלים. זה מלא). ובכלל, נחמד לראות שאנשים משתמשים בכלים של בלשנות קורפוס (בגדול, לספור מלים) כדי לענות על שאלות רחבות יותר במדעי החברה. החיסרון הוא כנראה שבלשני קורפוס ייאלצו מעכשיו לבדוק אם כותבי הטקסטים שהם חוקרים היו חברותיים, צנועים, מודעים לעצמם או חרדתיים.

Read Full Post »

ובכן, חברים ואויבים, אתמול אכן התקיים כנס החברה הישראלית לבלשנות חישובית. עבדכם הנאמן הקריב יום של חריש עמוק והגיע לאירוע החשוב, שהיה מעניין ביותר (ולעניות דעתי גם מוצלח כמותית – בערך 150 איש במושב השיא – וכל הכבוד למארגנים), אך אותם מבחנים ארורים לא יאפשרו לי להגיש לכם סיכום נרחב בשבועות הקרובים. בינתיים:

  • התרשמות שטחית: היה עודף קל של משפרי אלגוריתמים למיניהם ומוצאי יישומים חדשים על פני הצד הבלשני / התיאורטי של התחום, ובכל זאת האחרון יוצג בכבוד (ע"י טל לינזן מת"א שהסביר איך יישומים חישוביים עוזרים למחקר תיאורטי), ובשתי הרצאות הרגשתי אפילו גישה היברידית של בלשניזם וחישוביזם: האחת של רשף שילון מת"א (תרגום מעברית-לערבית, הוזכרה כבר בתגובה לפוסט הקודם שלנו על הכנס) והשנייה של עמרי אבנד מהעברית (שימוש במושג הפרוטוטיפיות מהעולם הקוגניטיבי כדי לתייג חלקי דיבר). יישר כוח.
  • פסגת הבלוגרים בשולי הכנס הניבה רעיון לפוסט פורץ דרך שלי, של אור"צ או משותף לשנינו, ונשאיר אתכם בעלטה בינתיים.
  • הבמה פתוחה לכל מי שהיה בכנס לשתף סיכומים, הערות ותובנות; ולכל מי שלא היה – לשאול ולהגיב (ולהכות על חטא, אהמ אהמ).

Read Full Post »

בעוד שבוע וחצי בדיוק ייערך ISCOL 2010 – הסמינר הישראלי לבלשנות חישובית. הפעם זוכה אוניברסיטת תל אביב לארח את הכנס, ועל העבודה השחורה מאחורי הקלעים אמונים נחום דרשוביץ, כפיר בר ורשף שילון.

תוכנית הכנס מגוונת למדי וכוללת בין היתר (ממבט חטוף) נושאים כמו הגיית שמות ממוכנת, תרגום מכונה מעברית לערבית, תיוג חלקי דיבר, הבנת טקסטים בצורות שונות וגם איזה מאמר על סרקזם. שווה.

עם קצת מזל, נספר למי שלא יזכה לנכוח איך היה. בלי קשר, אני גם מצפה בקוצר רוח לרשמיו של חנוך מרמרי מהכנס.

המשך…

Read Full Post »

« Newer Posts - Older Posts »