Feeds:
רשומות
תגובות

Archive for ספטמבר, 2010

אבל לא הפעם.

אמנם המבחנים נגמרו (די מזמן למען האמת), ואמנם הבטחתי, ואנחנו אפילו בשוונג של בלשניסמוס חישוביסמוס, ויאטל הקרוב נושף בעורפי, וחשבתי שאוכל להביא לכם השבוע את רשמיי מכנס החברה הישראלית לבלשנות חישובית שהתקיים ביוני.

אמאמא, מסתבר שאני סנילי באופן חסר תקנה, ואפילו מה שרשמתי לי בחוברת המפשטים לא מספיק לי כדי להיות מסוגל להסביר מה בדיוק הוצג, אז מוטב שאוותר. עם ציבורכם הסליחה, חרקירי בקרוב.

מה שכן, בזמן שחלף מאז הכנס הצטרף לשורותינו אחד המציגים המעניינים יותר מהכנס, טל לינזן. קריאה נרגשת, אם כן: טל, הלו, טל! ספר לנו על מחקרך בפוסט משלך!

לסיכום, הערה לעצמי: אם אני הולך לכנס, לסכם מהר, ולפרסם מהר. ואם יש מבחנים, לוותר. (ואם תהיתם למה בכלל פרסמתי משהו במקום לסמוך על זכרונכם הקצר, הרי זה כמובן כי לא יכולתי לתת לכותרת הנפלאה שהגיתי להיעלם).

Read Full Post »

הקורא יודה רונן מדווח על יציאתו של הגליון הראשון של "בָּבֶל – כתב עת לתרגום מלשונות העולם", כתב עת אשר נועד להיות בית לתרגומים משפות שונות שהתרגומים מהן לעברית מעטים. כדבריו:

הגליון הראשון מכיל ארבעה תרגומים מצויינים (אמנם אני לא אובייקטיבי, אבל זו אכן דעתי…):

  • הראשון הוא מכתב שמראה שלהיות פולני להפליא אפשר גם בבבל של לפני אלפי שנים… (‘אף פעם לא כתבת לי מה שלומך’).
  • השני הוא סיפור-אגדה בלשון צ’חא, שיש בו מאפיינים משותפים עם האגדות שאנחנו מכירים ומאפיינים שונים.
  • השלישי הוא סיפור קצר מצויין מצויין, קשה לקריאה, מטורקית.
  • הרביעי הוא סיפור שנכתב באספרנטו, סיפור שמצד אחד פונה לאנושי-כללי שבכל אדם ומצד שני נטוע באירופה, ובכך הוא דומה לשפה שבה הוא נכתב, שאמנם נוצרה כשפה כלל־עולמית, אבל התכונות הלשוניות שלה (במיוחד באוצר המילים) הן די אירופוצנטריות.

ניתן לקרוא את כתב העת באינטרנט, או לרכוש עותק מודפס במחיר עלות.

Read Full Post »

היום בתוכנית: חידושים והמצאות! רצה הגורל ודווקא במהלך הימים הנוראים הייתי צריך לעבור על מחקרים שנעשו לאחרונה בבלשנות חישובית כדי לראות אם משהו קשור לפרוייקט שאני עובד עליו. בגלל שיום כיפור הוא זמן לחשבון נפש, החלטתי לספר בקצרה על כמה רעיונות יפים במיוחד שמומשו לאחרונה בצורה לא פחות יפה. סך הכל, גם כאן וגם באכסניות אחרות ירדנו מדי פעם על בלשנות חישובית והמרוץ אחר "שיפור של חצי אחוז בתוצאות", וחבל להתעלם מהעבודה הרצינית שנעשית שם על דברים שבאמת רלוונטים לבני אדם.
בתפריט: בלשנות חישובית בשירות הפרכת תיאוריות ספרותיות, תיעוד כל השפות בעולם, חלוקת מילה להברות ומציאת מידע בהסתמך על סמנטיקה תיאורטית.

  • מציאת רשתות חברתיות בסיפורת אנגלית של המאה ה-19 (כמובטח). אחד המאמרים האהובים בכנס ACL האחרון הוא של קת'לין מק'קיון ועמיתיה מאוניברסיטת קולומביה שבדקו תיאוריה ספרותית ומצאו שלא דובים ולא יער. בהסתמך על תיאוריה ספרותית של עיור ושל הקשרים בין הדמויות בעיר ובכפר, שמושפעת ישירות מהכרונוטופ של בכטין, מקובל לטעון (מקובל? לא יודע. יש אנשי-ספרות בקהל, אנא האירו את עיניי) שכשרומן מתרחש בכפר ישנם קשרים מועטים אך חזקים בין מספר קטן של דמויות; מנגד, ברומן עירוני ישנן הרבה דמויות אך קיימים מעט קשרים ביניהן.

    רשת חברתית לדוגמה מהמאמר של אלסון ואחרים (2010)

    טוב, נגיד שזו תיאוריה מבוססת. שתי השלכות שקשורות זו בזו ניתנות לבדיקה: הראשונה, שיש קשר הפוך בין כמות הדיאלוג ובין מספר הדמויות הפעילות בסיפור. השנייה, ש"הרשת החברתית" בין הדמויות תהיה מהודקת יותר אם העלילה מתרחשת בכפר (או באיזו אחוזה ציורית).
    את הרשת החברתית אפשר לדמות בעזרת רשת של דיאלוגים בין הדמויות וכך לתאר כך היכן הקשרים החזקים יותר, וכמובן שהיא נבנית אוטומטית לחלוטין בעזרת ניתוח אוטומטי של הטקסט והדיאלוגים, כך שאפשר לתאר בצורה די טובה את הקשרים בין הדמויות.
    ועכשיו השוס – לא דובים ולא יער. הקשרים בין הדמויות דומים למדי, לא משנה באיזה מרחב מדובר. מה שבאמת משפיע הוא נקודת המבט – האם יש לנו עסק עם דובר בגוף ראשון או בגוף שלישי.
    למה זה להיט: כי הנה דוגמה נהדרת לעיבוד ממוכן של טקסטים שמספק דרך אמינה להעריך תיאוריה ספרותית. אני הכי אוהב את הבלשנות החישובית שלי כשהיא רלוונטית לתחומים נוספים.
    למה זה לא יתפוס בחיים: כי כמו שאמר האל דאומה השלישי, למה התיאוריות האלה קיימות בכלל? כלום לא בדקו חוקרי הספרות יותר משלושה רומנים לפני שיצאו בהכרזות כאלה? אבל מעבר לזה, אני תוהה מה הסיכויים שחוקר ספרות יתייחס ברצינות למחקר כזה. הרי למען השם, יש שם גרפים ומספרים!

  • פרוייקט השפה האנושית: בונים קורפוס אוניברסלי של שפות העולם:
    סטיבן בירד, בלשן חישובי מדופלם, מודאג מזה תקופה מהיעלמות שפות בסכנת הכחדה. יחד עם סטיבן אבני הוא חשבו על רעיון כביר – קורפוס ענק, בעל מבנה מינימלי ואלגנטי, שיכיל כמות עצומה של חומר מכל שפות העולם. מעין מקבילה בלשנית לפרוייקט הגנום האנושי.
    המטרה היא לשמר את הידע הקיים ובו-בזמן לבנות תשתית להעמקתו. כאבן-בוחן ליכולת שלנו כבלשנים לטעון שהצלחנו "להבין" (ואולי עדיף "לתעד") שפה כמו שצריך משתמשים אבני ובירד באבן הרוזטה: אם אנחנו מצליחים לתרגם משפה נכחדת לאנגלית – או לשפה אחרת, שהרי הכל סובב סביב אנגלית בכל מקרה – סימן שהבנו אותה. לכן, הקורפוס מעוצב עם יישומים לתרגום מכונה כהישג נדרש.
    למה זה להיט: כי יש הרבה מאגרי מידע דומים (הפניות במאמר) אבל הם אינם מקיפים והמטרה שלהם לא מוגדרת מספיק. כי עם כמה שינויים, זה יוכל להיות שימושי מאוד גם עבור תיאורטיקנים ומתעדי שפות.
    למה זה לא יתפוס בחיים: כי זה לא כלי הכרחי עבור תיעוד שפה. כי רמת הדיוק בניתוח תהיה שטחית מדי עבור תיאורטיקנים. כי לבלשנים לא-חישוביים אין תמריץ של ממש לתרום מזמנם לפרוייקט הזה, וכי בלשנים חישוביים עשויים לחשוב שזה פרויקט יפה וראוי אבל עדיף שמישהו אחר יבזבז עליו את הזמן שלו, אני צריך עכשיו לסיים מאמר לקראת כנס ועוד לא הגעתי לשיפור של חצי אחוז.
  • על חלוקת פונמות להברות:
    חלוקת מילה להברות היא – אולי במפתיע – משימה לא טריוויאלית עבור פונולוגים ודוברים ילידים כאחד, בטח ובטח בשפה ממזרית כמו אנגלית (איך אומרים, des-troy? או אולי de-stroy?). קולין צ'רי ממיקרוסופט ושני קולגות שלו לקחו על עצמם לשפר את היכולות הקיימות בתחום.
    מה שיפה במאמר הזה הוא ההתבססות על תיאוריות פונולוגיות (עד שמסתבר שהן לא טובות מספיק, ואז משתמשים בלמידת מכונה במקומן). לראות דברים כמו Maximal Onset Principle והפניות למאמרים של פונולוגים במאמר בלשנות חישובית זה עניין מרענן כשלעצמו. אבל האם זה עוזר?
    החוקרים מימשו שלושה עקרונות פונולוגיים כדי לראות האם הם מצליחים לחלק מילים להברות כמו שצריך. בנוסף, הם בנו מערכת משלהם שמשתמשת בתכונות של הפונמה, ובעיקר אילו פונמות אחרות באו לפניה ואחריה, ולומדת באופן עצמאי על חשיבות התכונות הללו ממילים שמופיעות בטקסטים קיימים (לאנשי למידת המכונה שבינינו – הם השתמשו ביציר-הכלאיים הנהדר SVM-HMM). בסופו של עניין, המערכת שלהם עובדת יופי-טופי ומסוגלת לחלק מילים להברות בצורה מרשימה למדי.
    למה זה להיט: כי יש כאן פתרון חישובי לעניין שתיאורטיקנים מתקשים להסכים לגביו; וכי אפשר לראות שהרבה יותר קל לשחק עם משהו "טכני" כמו פונולוגיה מאשר עם משימות מסובכות ומופשטות יותר כמו אתגרים תחביריים וסמנטים.
    למה זה לא תופס: כי בסופו של דבר אנחנו נותרים עם תכונות שנקבעו שרירותית ומערכת למידת מכונה שלומדת מטקסט קיים, מה שיש תחת כל עץ רענן שעוסק בעיבוד שפה טבעית. וכי זה אמנם נחמד שאפשר לעשות את זה אבל זה לא מקדם את התאוריה: הייתי שמח לראות את סוג החוקים שהמערכת למדה ולעשות מהם לתיאוריה עצמאית, אבל אני חושד שהם מתבססים על זה שיש כמות פרמוטציות מוגבלת ל-22 26 אותיות באנגלית אז לא מאוד קשה ללמוד אותן ואת הסדר הפונמי המשתמע.
  • זיהוי צירופים שמניים גנריים:
    בסמנטיקה, ביטוי גנרי הוא ביטוי בסגנון "כלב הוא חיה בעלת ארבע רגלים". אבל מה לגבי כלב שהיה בתאונת דרכים, לא עלינו? האם אינו כלב יותר? ואם אנחנו אומרים ש"צרפתים אוכלים בשר סוס", מה לגבי הצרפתים הצמחונים? ואם אנחנו אומרים ש"עכברים מפריעים לבני האדם", האם זה באמת נכון? הרי הרוב המוחלט של עכברי העולם נסתר מאיתנו ולא נגלה לעינינו אף פעם.
    בסמינר לבלשנות חישובית באוניברסיטת היידלברג שיערו שמשפטים כאלה מכילים ידע רב על העולם ולכן כדאי למצוא דרך לזהות אותם באופן ממוכן. הם התרכזו לעת עתה בצירופים שמניים גנריים ("כלב הוא חיה בעלת ארבע רגליים") ולא במשפטים גנריים ("לפלוטו יש מרק ועצם").
    אחד הדברים הבעייתים בביטויים גנריים הוא שאין פתרון קסם: זה לא שמשפטים בהווה הם תמיד גנריים, וזה לא שמשפטים גנריים הם תמיד בהווה ("הם חיו באושר ועושר").

    כך נראית טבלת התוצאות של צמד בלשנים חישוביים גרמנים

    המערכת השתמשה בכשני תריסר תכונות של המשפט (האם הוא בהווה? האם שם העצם ביחיד או ברבים? ושאר תכונות סמנטיות ותחביריות) ואז עשתה חזרות מרובות עם צירופים שונים של תכונות כדי למצוא אילו הן החשובות ביותר. מהיכרות עם המחברים אני יודע שמדובר באנשים יסודיים למדי, ואכן הם מפרטים את כ-ל התוצאות שהמערכת שלהם השיגה בתצורותיה השונות. חלקן טובות, חלקן פחות, אם כי באופן כללי הם השיגו תוצאות מעודדות למדי, ונראה שבהחלט נעשה כאן צעד בכיוון הנכון.
    למה זה להיט: כי בדומה למאמר הקודם, יש כאן נסיון לתת פתרון חישובי למשהו שהתיאוריה הגיעה לסוג של קונצנזוס לגביו, אבל לא קונצנזוס שאפשר למכן עדיין באופן יעיל.
    למה זה לא תופס: כי בדומה למאמר הקודם, זה לא עוזר לתיאוריה בכלל. להגנתם ייאמר שזה לא אמור לעזור לתיאוריה – זה אמור לעזור ליכולת להפיק מידע מטקסט, ולפי הקריטריון הזה העבודה תישפט בהמשך הדרך.

אם ארבעת המחקרים האלה עשו לכם תיאבון, ודאי תשמחו לשמוע שבתוכניה של כנס EMNLP שייערך בחודש הבא כבר בולטים מספר מאמרים עם שמות מסקרנים. ביניהם ניתן למצוא את  "Poetic" Statistical Machine Translation: Rhyme and Meter מאת צוות תרגום המכונה של גוגל, את Modeling Organization in Student Essays ואת Improving Gender Classification of Blog Authors (לעשות מחקר כזה אצלנו זה קל; אנחנו עדיין מחכים לבלשנית שתרצה לתרום לנו).

David Elson, Nicholas Dames and Kathleen McKeown (2010). Extracting Social Networks from Literary Fiction. ACL 2010.
Nils Reiter and Anette Frank (2010). Identifying Generic Noun Phrases. ACL 2010.
Steven Abney and Steven Bird (2010). The Human Language Project: Building a Universal Corpus of the World’s Languages. ACL 2010.
Susan Bartlett, Grzegorz Kondrak and Colin Cherry (2009). On the Syllabification of Phonemes. NAACL 2009.

Read Full Post »

בבלוג "חדר 404", פירסם יהונתן זילבר מודעת דרושים מקורית:

ערוץ הטכנולוגיה והאינטרנט של ynet מחפש עיתונאית-לוחמת שגרה באינטרנט, ניזונה מטכנולוגיה, יודעת לספר סיפור, מריחה דם במים, מזהה שגיאות ניסוח לפני שהיא פותחת את קובץ הוורד, לא ישנה אף פעם, מבינה שהנאמר כאן מתייחס לשני המינים ומובא בלשון נקבה רק מאחר וכולנו סובלים מרגשי אשמה מגדריים, וזמינה לעבודה במשרה מלאה באופן קרוב למיידי.

שלחו את הצעת המועמדות שלכן, וכן את שגיאת הדקדוק שמצאתן בפסקה הקודמת, אלי.

ראיתי בעבר מודעות דרושים שכוללות חידות שונות, אבל זו הפעם הראשונה שאני נתקל באתגר מתחום העריכה הלשונית במודעה כזו. החידה, למען האמת, איננה בלתי אפשרית לפתרון, וסביר להניח שכל מי שמכיר מעט ספרי סגנון וקטנונולוגיה בעברית יוכל לזהות עד מהרה שני רכיבים "בעייתיים" בפסקה:

1. "מאחר ו"

אינספור מדריכי שימוש וסגנון כבר נתנו דעתם לצירוף הזה. אני מקשר לדף התוצאות בגוגל ולא לתוצאות עצמן, כיוון שפעמים רבות חיתוך הטקסט גורם לכך שהטקסט בשאילתת החיפוש אינו זה שמופיע במובאה מהספר. פועל יוצא מעט מבדר הוא ההתבוננות בגינויים החריפים שהצירוף זוכה להם לצד השימוש הנפוץ בו. את ההתייחסות הקדומה ביותר מצאתי בספר "לשון וסגנון", משנת 1959 (אם כי לא חיפשתי באופן אקטיבי מופעים קדומים יותר). גם מחיפוש בארכיון העיתונות היהודית ההיסטורית, קל להשתכנע שהביטוי הזה איתנו כבר עשרות שנים: במודעה מ-1955 מפרסם אגוד הנהלות העתונים היומיים בישראל גלוי דעת:

הועדה המקצועית שליד אגודת העתונאים הכריזה היום על שביתה כללית בעתון "ידיעות היום". אנו רואים בזה מעשה ללא תקדים, מאחר והוא נעשה למרות נכונותנו למשא מתן כולל על תנאי השכר בכל העיתונים, ולמרות ההתערבות של המחלקה ליחסי עבודה ליד משרד העבודה.

נו, טוב. מאחר ו(שיואו!)מי שקורא את הבלוג כבר מכיר את דעתנו, נעשה את זה במהירות, אבל במתינות ואורך רוח: מדוע להשקיע מאמצי סרק לאורך עשרות שנים ולהשחית מילים בנסיון לאכוף כלל בלתי הגיוני לחלוטין על ציבור שגם ככה אינו מציית לו ואינו מעוניין לציית לו? עד כאן דברי התביעה.

אבל בתוך עמי אני חי, ולו היה מבקש ממני מישהו להעיר לו הערות על טקסט שכתב, והייתי מבחין בו בצירוף  הפסול "מאחר ו", אני סבור שבקול נכאים וברוח שפופה הייתי מסב את תשומת לבו בעדינות הראויה לכך שישנם אנשים אשר עלולים להגיב בצורה לא נעימה. אם יאזור אומץ ויבחר לשאת את קול ההגיון מול ההמון המוסת, אתמוך בו; אבל למען האמת, הפתרון הקל הוא פשוט להחליף ל"מאחר ש". אני יודע, ברגע שכולנו ננהג ככה, הם ינצחו. אבל לפחות יהיו לנו בלוגים שבהם אפשר לכתוב איך שבא לנו, והעונש הכי גרוע על שגיאה הוא עשרה (אל תטרחו) תגובות שמתקנות אותך.

2. פסיק לפני ו' החיבור

הזמן שחלף קצת מקשה להגיד לומר בוודאות, אבל אני די משוכנע שבכיתה א' או באיזור למדתי את הכלל המושמץ לפיו אין משתמשים בפסיק לפני ו' החיבור. וגם אם לא, חיפוש פשוט מראה כי החוק האגדי אכן שריר וקיים בחוגים מסויימים. כאן, יש לומר, הקונצנזוס מתערער: אפילו דף עבודה ללימוד לשון שנמצא באתר סנונית מציג גירסה מרוככת של החוג, ומציג תנאים מסויימים שבהם יש לפסק, ותנאים אחרים שבהם לא. גם באנגלית, כמובן, אנשים תהו בקול מה לעשות עם הנושא הזה, והערך Serial comma בויקיפדיה מציג בפירוט ויקיפדי מה מדריכי סגנון שונים אומרים בנושא. אני באופן אישי סבור שהנושא מעניין מעט פחות מאיך סוגרים סוגריים עם אמוטיקון.

אז מה התשובה הנכונה?

על מנת לוודא, פניתי ליהונתן ושאלתי לאיזה מהתופעות הוא כיוון בפסקה שלו. תשובתו היתה שהמבחן היה כפול: הכוונה היתה למצוא אנשים מספיק רגישים שיעירו על ה-ו' ב"מאחר ו", ושלא יעירו על הפסיק.

אין לי עניין רב לעסוק בשאלה עד כמה הכישורים הללו רלוונטיים לכתב מחשבים ב-ynet. האינטואיציה אומרת שלא כל כך, אבל אני מניח שהעוסקים בגיוס עובדים מכירים את הדרישות הרבה יותר טוב ממני, וגם בכל מקרה ברור שזהו אינו קריטריון ההערכה היחיד, ואני מרשה לעצמי לנחש שגם לא העיקרי.

אבל גם אם הכותב לא ידע זאת, הוא יוכל למצוא את עצמו בחברה טובה. למשל, כתבי ynet מחשבים. למשל, בדוגמה הזו:

המחשבים נתונים בתוך מארז גומי נגד רטיבות ונפילות. הדגם הראשון של המחשב הנייד הופעל באמצעות מנואלה, אך מאחר ובדיקות גילו כי מדובר במקור כוח חלש למדי, כיום פועל המחשב עם סוללה נטענת המספיקה לכמה שעות עבודה.

ובעוד לא מעט דוגמאות אחרות שלא כל כך קשה למצוא. ככה שאפשר להיות רגועים. החידה של ynet היא כנראה בסך הכל תרגיל נחמד בבדיקת רגישות המועמדים לעבודה לענייני שפה ודקדוק, ולא מדיניות עריכה קפריזית וכוללת.

Read Full Post »

התעוררות היצר המיני

באחד הרחובות ההם, אותם כיסיתי מאוחר יותר במסעותיי הליליים שלא ידעו סוף, הפתיעה אותי בעיתה התעוררותו של החשק המיני בנסיבות יוצאות דופן. זה היה בראש השנה היהודית וההורים שלי ערכו מיני סידורים כדי להביא אותי לטקס דתי כלשהו […] לקראת החג הזה דאגו לי לקרוב-רחוק שהיה עליי לאסוף. אבל אולי היה הדבר ושכחתי את הכתובת, אולי היה הדבר ולא התמצאתי באיזור — מכל מקום, נהיה מאוחר יותר ויותר וכך גם השוטטות שלי נהיתה עקרה יותר ויותר. לסמוך על עצמי להגיע לבד לבית הכנסת לא בא בחשבון, משום שכרטיס הכניסה היה ברשות הפטרון שלי. האחראי העיקרי לעסק הביש הזה היה הסלידה מהאיש הכמעט ולא מוכר אליו הופניתי, כמו גם חשדנות אל מול הטקסים הדתיים שהבטיחו בלבול ותו לא. כך שטף אותי פתאום גל שוצף של פחד באמצע חוסר האונים שלי: "מאוחר מדי, פספסת את בית הכנסת", אבל בדיוק באותו הרגע, עוד לפני שהגל הזה נרגע, בא גל שני וחסר עכבות לחלוטין: "שדברים יסתדרו איך שהם רוצים, לי זה לא משנה". שני הגלים התנפצו באופן בלתי נמנע זה אל זה עם העונג הגדול הראשון, שבו חילול החג התמזג עם סירסורי הרחוב; רחוב אשר רמז לי כאן לראשונה על השירותים אותם יוכל לספק לַיצר המתעורר.

מתוך ילדות בברלין סמוך ל-1900 מאת וולטר בנימין. התרגום החפוז מגרמנית שלי, ממהדורת suhrkamp taschenbuch 2006. בעברית נדמה לי שהחיבורים האלה מופיעים בכרך המשוטט בתרגום דוד זינגר, הוצאת הקיבוץ המאוחד 1992. שנה טובה ועיד מבארכ.
[ת' לבועז]

Read Full Post »

דסק הלטינית של הבלוג לא היה פעיל במיוחד לאחרונה אבל כידוע, אימפריות נופלות לאט, והיום הוא שמח לשלוף מספר אנקדוטות מהספר עד אין-קץ (Ad Infinitum) של הבלשן ניקולס אוסטלר. אחד הפרקים הראשונים בספר עוסק בהשפעת השפה האטרוסקית על הלטינית, רגע לפני שהרומאים השתלטו על אגן הים התיכון כולו והפכו חלק נכבד מעולם לדובר לטינית. היום אספר לכם על השפעת האטרוסקית על הלטינית, ותסמכו עליי שיש סיבה שתתבהר בסוף.

דרך טובה להתרשם מהשפעת תרבות אחת על תרבות אחרת היא לפי מספר המילים שהאחרונה שואלת ממנה. כך למשל יש באנגלית שני שמות לחיות רבות: השם הגרמאני המקורי לחיה, ושם צרפתי לצורתה המבושלת והאכילה (השוו pork-pig, beef-cow, poultry-chicken, וכן הלאה); ומונחים אנגליים רבים בתחום הספנות הגיעו במקור מדנית. לפי אוסטלר, ניתן להתרשם מהקידמה האטרוסקית – שבאה לידי ביטוי באמנות המפותחת שלהם – גם לפי המילים שלטינית אימצה. אלו היו בעיקר שמות עצם שתיארו את מנעמי החיים מהם נהנו האטרוסקים או את הטכנולוגיה המפותחת שלהם, וכדאי לזכור שאין קשר משפחתי בין אטרוסקית ולטינית. רבות מהמילים תהיינה מוכרות לדוברי שפות אירופאיות כאלה ואחרות (חלקן מקורו ביוונית). אם כן, כך נהגו הרומאים בהשפעת האטרוסקים (עמ' 36-40 ונספח ב'):

הם שייטו (gubernāre) והטילו עוגן (ancora), חגגו את נצחונותיהם (triumphāre) בעזרת תקיעה בחצוצרה (tuba) וכישפו (fascināre) את כל מי שפגשו. בבתיהם היו מבואות (atrium), עמודים (columna), חלונות (fenestra), ארונות (cella), צריחים (turra) וביבי שופכין (cisterna). כדי להאיר את דרכם היו משתמשים במנורה (lanterna) וכך היו מגיעים בבטחה לחנות או למסבאה (taberna).
חוש האופנה המשובח שלהם הוביל אותם לחבוש כובעים (cappa) ולהדק חגורות (balteus). הם אהבו ללבוש סגול (purpurissum), צבע הוורד (rosa). גם המטבח שלהם (culīna) היה תאווה לשפתיים, במיוחד הגבינה (caseus), כפי שיודע כל מי שביקר בטוסקנה.
בזמנם הפנוי הם העלו הצגות בזירת חול (harēna) בכיכובם של שחקנים (histriōnes) שדיקלמו מונולוגים (sermōnes), אפילו בסתיו (autumnus) הקריר.
על כל זה הם יכלו לספר במכתביהם (elementum), ובלבד שנתנו להם כותרת (titulus).

מספיק אטימולוגיות אטרוסקיות להיום. כידוע לכולנו, השפה העברית סובלת קשות מהשפעת האנגלית: מילים שאולות רבות מגיעות מאנגלית למרות שיש מקבילות עבריות ראויות, מבנים תחביריים משתנים ללא סיבה, העילגות משתלטת על חיינו, ילדים לא יודעים איך לכתוב, בלה בלה בלה בלה בלה. בלה בלה. מדי פעם יצא לנו להיאנח מול הצהרות מעייפות כאלה ואחרות ולנסות להסביר בסבלנות, אבל כמובן שזה לא עבד. אז הפעם אנסה מכיוון הפוך.

לאחרונה שמתי לב לטרנד: קטנונולוגים שאומרים "זה לא שאני טהרן, ברור לי ששפה משתנה תדיר, אבל כשאנשים אומרים X זה ממש מפריע לי כי זה לא נכון". מה שמשונה הוא שלקטנונולוגים לא אכפת שצרפתית, איטלקית, ספרדית ושאר שפות משעממות הן שיבושים של לטינית. לא יודע למה – כנראה שאם אמרו לך שצרפתית היא שפה מכובדת ואצילית, לא אכפת לך שהיא בעצם ערימה של שיבושי הגייה קשים של לטינית שמסתכמים בכך שמתעלמים מההברה האחרונה בכל מילה מקורית. בעיני הקטנונולוגים, התהליך שעבר על איטלקית בדרכה מלטינית לאיטלקית מודרנית הוא בסדר, אבל שיבושים שמתקבעים בעברית הם אסורים בתכלית האיסור. גם לי מפריע כשאנשים אומרים "אני ירשום" במקום אני "ארשום", אבל ברור לי במה מדובר: במשלב לשוני מסוים שעם הזמן יהפוך לנורמה. עוד כמה עשורים, לאף אחד כבר לא יהיה אכפת.

אני לא יודע אם היו קטנונולוגים רומאים שהתלוננו על כל המילים שבני עמם ייבאו מאטרוסקית כשהאחרונה היתה התרבות הגבוהה, לפני שהלטינית הפיצה את אוצר המילים שלה עצמה ברחבי אירופה וצפון אפריקה. אולי הם הבינו מה שאנחנו לא רוצים להבין: כל שפה שואלת מילים משפות אחרות איך ומתי שבא לה, וכל שפה משתנה איך ומתי שבא לה.

עד כאן התקוממותי הדו-שבועית נגד הקטנונולוגים. בקרוב, כמובטח, נספר לכם איך השפה האנגלית הגיעה למצב בו היא נמצאת היום. רק אצלנו, בדגש אטרוסקי!

Nicholas Ostler (2007). Ad Infinitum: A Biography of Latin and the World it Created. London: Harper Press. 382pp+xvii.

Read Full Post »

מילים רבות כבר נשפכו אודות שירות סריקת וחיפוש הספרים השימושי של גוגל, Google Books. גם בבלוג זה עשינו בו שימוש לא פעם, אך לפני מספר ימים הפנה הקורא עמית את תשומת לבי לתופעה מעניינת. הביטו-נא, למשל, בשם הספר הבא:

הספר "כנת דביד" מאת שבתי תיבת

שם הספר המקורי, כמובן, הוא "קנאת דוד – חיי דוד בן גוריון", ולסופר קוראים שבתי טבת. אך חלקים גדולים מהקטלוג של גוגל יובאו מקטלוגים של אוניברסיטאות דוברות אנגלית, שם, סביר להניח, השם בעברית תועתק לאנגלית באופן מסויים. לאלגוריתם של גוגל שמטפל בנתוני המסגרת של ספרים, מתברר, נוסף רכיב שמתעתק את שמות הספרים וסופרים בחזרה לעברית. באופן ברור, האלגוריתם הזה עדיין זקוק ללא מעט אימון בשביל לתפקד בצורה אמינה, ועל כך יעידו גם הסופרים תהודור הרזל, ש"י אגנון, אברהם ב. יהושוא ואסתהר סתרית-וורזל (קהל המגיבים מוזמן למצוא שיבושים מוצלחים במיוחד ולשתף אותנו בתגובות).

בעיות באלגוריתם שמנתח את נתוני המסגרת בגוגל ספרים אינן חדשות, וקיימות גם באנגלית. לאור ההסדרים שאליהם גוגל מנסה להגיע עם הוצאות הספרים, בנוגע לסריקת והצגת הספרים, נודעת חשיבות רבה למיון נכון של נתוני המסגרת שלהם, וזאת בהנחה הסבירה שאף אחד לא יסרוק בעתיד מחדש את כל הספרים וימיינם. בספינת האם Language Log עסקו בנושא רבות: הבלשן ג'פרי נונברג ערך רשימה מפורטת של תקלות בנושאים שונים: תארוך לא נכון (ספרים ששנת הפרסום שלהם היתה לפני שנת הלידה של המחבר), קטלוּג נושאי שגוי, ואף טעויות בשמות הספרים (הנה מצגת קצרה שמסכמת את הטענות). מהנדסי גוגל, יש לומר, היו קשובים לטענות. האם יש בכוחנו לגרום להם לטפל גם באלגוריתם התעתוק לעברית? ובכן, אינני יכול לחשוב על אפשרות פעולה משמעותית יותר מאשר קריאה נרגשת בבלוג "דגש קל".

Read Full Post »

Older Posts »