Feeds:
פוסטים
תגובות

Archive for the ‘מהנעשה בעירנו’ Category

זוכרים שהיתה מגפת קורונה? דגש קל, כאן בשביל לעורר מחדש את תחושת הכיף.

לאורך המגפה ליווה אותנו הביטוי המיופמז-משהו ״חולה מאומת.ת״, שהתקצר ברבות הימים לפשוט ״מאומת.ת״. לכאורה, לפי התפיסה האפיסטמית שלי לפחות, מה שקורה זה דבר כזה: בת אנוש חושדת מסיבה כלשהי שהיא נשאית של נגיף הקוביד-י״ט, ואם נמצאה חיובית בבדיקה מהזן החביב עליה מצבה משתנה והחשד אומת. מעתה ואילך היא חולה/נשאית מאומתת.

אלא שאתםן קוראותים כרגע פוסט בבלוג הבלשנות המוביל בישראל דגש קל, ולכן נהיר לכןם שמשהו חרג מהתפיסה האפיסטמית שלי. ואמנם, שופופו את הפסקה להלן בהכתבה מתוך מעריב מספטמבר 2020 (לא, לא כאן נתקלתי בזה במקור, אלא ״איפשהו״ ומזמן כבר שכחתי איפה):

ואם ביום שישי נודע לי?

אלדד שביט מצוטט כאומר ״ביום חמישי לא ידעתי שאני מאומת״. בעיניי משפט כזה לא ייתכן, כי אם ביום חמישי הוא לא ידע אזי ביום חמישי הוא לא היה מאומת (יש כאן אולי פתח להתפלספות במקרה שבחמישי הבדיקה כבר התבצעה ואולי איזשהו גורם בשרשרת הטיפול בדגימה המזוהמת כבר ידע את העניין וסתם לא הודיע לחולה עצמו עדיין, אבל נניח לה כי גם מאנשים שטרם נבדקו בתאריך המוזכר כבר שמעתי את זה). מה שקרה כאן די ברור וכבר נתקלנו בו רבות הסמנטיקה הבסיסית של השורש א-מ-ת נגזלה מהמילה ״מאומת.ת״, שקיבלה חיים משלה כפחות-או-יותר מילה נרדפת ל״נשא.ית״. לא סטטוס הידע שלנו אודות הנגיף הוא החשוב כאן, אלא עצם הימצאותו בגופנו.

ונשאיר את קוראינו עם הציטוט הלא-בלתי-קשור-לחלוטין של מוסא אלפרון משלהי שנות ה-90: ״כבר 12 שנה שאין לי עבר פלילי״.

Read Full Post »

שלום! אנחנו "דגש קל", בלוג העוסק בענייני שפה. מאז ינואר 2020 לא יצא לנו לפרסם רשומה, ומאז מרס 2020 *מחווה בנפנופי ידיים סביב*, אך עתה בשלה העת והגיע השיימינג העצמי עד נפש, לכן אוריד מעל לבי את שהיה לי לכתוב כבר בראשית תקופת המגפה ואולי ייפרץ הסכר להמשך פוסטיאדה כימינו כקדם.

התופעה הסוג-של-לשונית הראשונה שהטרידה אותי ברמת פוסט-לדגש היתה קלישאה שהחלה לפשות, מעין סנובון או תבנית או אלוהים יודע מה, מהצורה X בימי קורונה. בא לי להגיד שהמופעים הראשונים השמו במקום המשתנה את המילה "אהבה", כי זו הווריאציה הברורה ביותר על הספר "אהבה בימי כולרה" למארקס, אבל קשה לבדוק דבר כזה.

אני כן יודע שהתבנית התפשטה בקצב מסחרר: כבר באפריל 2020 הסתובב סרט בזה השם. מאידך גיסא, נראה שהיא נמאסה די מהר. לפי התרשים להלן, הנוגע לגרסה העברית שלה, העם בציון התעשת תוך כחודשיים.

גוגל טרנדז של הדו-תמנית "בימי קורונה"

מעניין אותי לדעת אם החצי-קירבה הפונטית של המילה קורונה לכולרה שיחקה פה תפקיד. האם היינו חוטפים גל של "הוראה בימי סארס"? "השקעות בימי אבולה"? "וולנס בימי צהבת נגיפית"? יש דרך מדעית אמינה לבדוק, אבל בואו נוותר עליה בשלב זה.

הערה מנהלתית: אם עוד יש לנו קוראים, אפשר להגיב עם הצעת נושאים לפוסטים בימי פוסט-קורונה, לשלוח בהמייל, להתנדב לרשומת אורח, וככל הימינו-כקדמים כקדם.

Read Full Post »

מזה מספר חודשים שאחת הפרשות הבולטות בתקשורת הישראלית היא פרשת האונס (או החשד לאונס) בעיר איה נאפה שבקפריסין. מה שכמעט ולא היה חלק מהשיח הציבורי סביב הפרשה הוא עדות בלשנית שהוגשה לאחרונה במסגרת המשפט שהתנהל נגד הצעירה, משפט שזה עתה הסתיים עם הרשעה ועונש מאסר על תנאי. אם לקצר את עיקרי הפרשה, מדובר באירוע מהקיץ האחרון בו צעירה מבריטניה קיימה יחסי מין עם קבוצה של צעירים ישראלים במהלך חופשת קיץ בקפריסין. השאלה הקריטית היא האם יחסי המין היו בהסכמה או לא. הצעירה טענה שמדובר באונס אך אחר כך הואשמה שטפלה על הצעירים האשמת שווא. היא הגישה כתב הודאה והפכה לנאשמת. השופט הקפריסאי פסק לפני ימים ספורים כי אכן מדובר בהאשמת שווא והרשיע את המתלוננת. עוד פרטים ניתן למצוא למשל בערך בוויקיפדיה ובמראי המקום הרבים שם.

ברשומה הזו אני רוצה לסכם את הדו"ח הבלשני שהגיש עד מומחה מטעם ההגנה (על הצעירה), ד"ר אנדראה ניני מאוניברסיטת מנצ'סטר. סלע המחלוקת בהודאתה לכאורה של הנאשמת נמצא בשאלה האם היא הודתה בהגשת תלונת שווא מרצונה החופשי או שנוסח ההודאה הוכתב לה על ידי המשטרה הקפריסאית, כפי שהנאשמת טוענת כעת. ד"ר ניני, מומחה לבלשנות משפטית (פורנזית), קיבל לידיו את כתב ההודאה והתבקש לקבוע האם סביר שהוא נכתב על ידי מישהי עם פרופיל כמו זה של הנאשמת: בריטית בת 19 שעומדת להתחיל את לימודיה באוניברסיטה. השורה התחתונה של הדו"ח היא לא: לא סביר שהנאשמת ניסחה את ההודאה בעצמה.

עם כל הסיקור הנרחב בתקשורת הישראלית, אני לא זוכר שראיתי אזכור של העדות הזו באף כתבה בעברית מלבד בכתבה הזו בוואלה!, ונכון לזמן עליית הרשומה הזו גם אין אזכור לעדות בערך על הפרשה בוויקיפדיה. לכן ביקשתי מניני את הדו"ח וקיבלתי את רשותו לסכם את הממצאים כאן בעברית (מיותר לציין כי ניני עצמו לא נושא באחריות לרשומה הזו). כמה כתבות באנגלית המכילות את עיקרי הניתוח הבלשני ניתן למצוא כאן, כאן וכאן, וקטע מראיון טלוויזיוני כאן.

שיטה

נתחיל עם הטקסט עצמו. מדובר בפסקה העיקרית מכתב הודאה קצר מאוד, שזה נוסחה:

The report I did on the 17th of July 2019 that I was raped at ayia napa was not the truth. The truth is that I wasnt raped and everything that happened in that appartment was with my consent. The reason I made the statement with the fake report is because I did not know they were recording & humiliating me that night I discovered them recording me doing sexual intercourse and I felt embarrassed so I want to appologise, say I made a mistake.

ישנם לא מעט חלקים בפסקה הזו שצורמים לעין או לאוזן, למשל אי-השימוש בסימני פיסוק או שגיאות כתיב דוגמת appartment או appologise. עושה רושם שכתבתו של יואב איתיאל בוואלה! ניסתה לתרגם את כתב ההודאה מאנגלית מסורבלת לעברית מסורבלת:

"הדוח שעשיתי ב -17 ביולי 2019 שנאנסתי באיה נאפה לא היה האמת. האמת היא שלא נאנסתי וכל מה שקרה בדירה הזו היה בהסכמתי", נכתב בהצהרה שחתמה הצעירה בתחנת המשטרה. "הסיבה שנתתי הצהרה עם דיווח פייק נובע מכיוון שלא ידעתי שהם מקליטים ומשפילים אותי באותו הלילה גיליתי שהם מקליטים אותי עושה משגל מיני והרגשתי נבוכה כפי שאני רוצה להתנצל, ואני אומרת שעשיתי טעות".

הרשומה הזו מתמקדת במחקר של ד"ר ניני כפי שהוגש לבית המשפט. ניני נתבקש לחוות דעתו ולקבוע – במידת הניתן – האם הנאשמת חיברה את כתב ההודאה בעצמה או שהנוסח הוכתב לה על ידי מישהו שאינו דובר ילידי. בשביל לענות על השאלה הזו הוא זיהה חמישה מבנים תחביריים או צירופים יוצאי דופן וניסה לשער מהי הסבירות שדובר ילידי ישתמש בהם. על מנת לאמוד את הסבירות הזו הוא נקט בשיטה נפוצה למדי והיא בדיקת שכיחויות באוספי טקסט גדולים מאוד (קורפוסים) שמאפשרים חיפושים כלליים מאוד. כך למשל, אפשר לספור ולמצוא שהמילה כלב מופיעה הרבה יותר באוסף טקסט בעברית מאשר המילה קאק. עובדה זו מרשה לנו להניח שאם מישהו השתמש במילה קאק הרבה, הם כנראה מומחים לתחום או עוסקים בזואולוגיה. בימינו אפשר גם לבדוק מבנים תחביריים מורכבים יותר. למשל, אפשר לבדוק באמצעות פקודה אחת את כל הטיות הפועל כתב בצירוף כמו כתבתי/כתבת/כתבנו/אכתוב/… את המספר ולהשוות אותן להטיות הפועל רשםרשמתי/רשמת/רשמנו/ארשום… את המספר. כך אפשר לראות האם אנשים משתמשים בשורש כ.ת.ב או בשורש ר.ש.מ יותר, והאם חל שינוי לאורך זמן.

בחזרה למקרה שלפנינו, בכל אחד מהקורפוסים שבהם השתמש ניני היו 8.5 מיליארד מילים בממוצע, והם כיסו סוגות ספרותיות שונות (עיתונות, פרוזה, טקסטים משפטיים) כמו גם מקורות גיאוגרפיים שונים (דוברים אמריקאים או בריטים).

אלה חמשת המבנים התחביריים שניני בדק, עם תרגום חופשי שלי. אותיות גדולות מורות על כך שכל ההטיות השונות של המילה נבדקו, כך ש-REPORT מכיל גם את צורת היחיד report וגם את צורת הרבים reports.

  1. DO REPORT – לעשות דו"ח
  2. BE not the truth – לא האמת
  3. apartment – דירה
  4. DISCOVER NOUN VERB-ing – לגלות שם-עצם עושה פועל מסוים
  5. DO sexual intercourse – לעשות יחסי מין

בואו נראה מה היו הממצאים עבור כל צירוף ברשימה. בכל אחד מהמקרים הגיע ניני לאותה המסקנה: הסבירות גבוהה יותר שמדובר בניסוח של דובר לא-ילידי מאשר של הנאשמת עצמה.

ממצאים

לעשות דו"ח

באנגלית טבעית אומרים write a report או make a report, ולא do a report כמו בכתב ההודאה. כשמשווים בין הגירסה עם do והגירסה עם make, עולה כי הגירסה עם make נפוצה פי 3. במילים אחרות, אם דובר צריך לבחור אחת מהשתיים, הוא יבחר בגירסה עם make בערך 75% מהזמן.

בנוסף, בקורפוס המשפטי הגירסה עם do לא מופיעה בכלל. ניני מציין גם שבגלל טבע החיפוש הטקסטואלי, מחרוזת החיפוש עבור DO REPORT מצאה גם צירופים שאינם קשורים כמו בשאלה does the report say, כך שהשכיחות האמיתית של הגירסה עם do נמוכה עוד פחות ממה שהעלה החיפוש הראשוני.

לא האמת

באנגלית טבעית אומרים not true, ולא not the truth כמו בכתב ההודאה. כשמשווים בין שתי הגירסאות ניתן למצוא העדפה גורפת לגירסה לה קראתי "טבעית": בערך 98% מהזמן. זוהי גם הגירסה היחידה שמופיעה בקורפוס המשפטי.

דירה

המילה apartment אופיינית יותר לאנגלית אמריקאית, ואילו באנגלית בריטית נהוג לומר flat. כאן ההבדל בין הקורפוסים השונים מכיל את התימוכין: בקורפוסים הבריטים המילה flat שכיחה מעט יותר (בערך 60% מהזמן), ואילו בקורפוסים האמריקאים כמעט ולא משתמשים בה (רק 15% מהזמן אל מול 85% עבור apartment).

שאלתי את ד"ר ניני האם הסיפור כאן לא יותר מסובך, משום שבקפריסין נהוג ללמד אנגלית בריטית. הוא מסכים עם הקביעה שהמאפיין הזה פחות חד-משמעי מאשר האחרים שהוא בדק, אבל הסביר שלמען העקביות הוא רצה לבחון את כל המאפיינים שאינם טיפוסיים לכותב עם רקע לשוני כמו זה של הנאשמת. אני חושב שהשימוש הנרחב יחסית בצירוף apartment hotel (מלון דירות) בעיר נופש כמו איה נאפה עשוי להשפיע יותר על מי שגר שם מאשר על מי שרגילה לומר flat כל חייה, אבל כאמור, כאן ההבדלים בולטים מעט פחות.

לגלות

הצירוף הזה מסובך מעט יותר. הנה שוב החלק הרלוונטי מכתב ההודאה (עם הדגשה שלי):

The reason I made the statement with the fake report is because I did not know they were recording & humiliating me that night I discovered them recording me doing sexual intercourse and I felt embarrassed

אני מוכרח להודות שהתקשיתי להבין מה הייתה הכוונה עד שקראתי את הדו"ח של ניני. אם לנסח מחדש, כתב ההודאה היה אמור להגיד משהו כמו "גיליתי שהם הקליטו אותי", או בתרגום שלי בחזרה לאנגלית:

The reason I made the statement with the fake report is because I did not know they were recording & humiliating me that night. I discovered that they recorded me doing sexual intercourse and I felt embarrassed.

הקריאה הזו אופיינית לצירוף discover that ולא לצירוף הראשון. את הצירוף הראשון, שהופיע בכתב ההודאה, ניתן אולי לתרגם "גיליתי אותם מקליטים אותי". אך לא זו הייתה אמורה להיות הכוונה. אי ההבחנה בין שתי הצורות אינו אופייני לדובר ילידי של אנגלית.

לעשות יחסי מין

באנגלית טבעית אומרים have sexual intercourse, ולא do sexual intercourse כמו בכתב ההודאה. כשמשווים בין שתי הגירסאות ניתן למצוא העדפה גורפת לגירסה לה קראתי "טבעית": זוהי הגירסה שמופיעה מעל 99% מהזמן. זוהי גם הגירסה היחידה שמופיעה בקורפוס המשפטי.

סיכום

בכל אחד מחמשת המבנים התחביריים ניתן להראות שהנוסח לא מתאים לדוברת ילידית של אנגלית בריטית. הממצאים האלה עולים בקנה אחד עם הטענה לפיה נוסח ההודאה הוכתב לנאשמת ולא הגיע מיוזמתה. ניני המליץ בסוף הדו"ח לאסוף תכתובות נוספות באנגלית, הן של הנאשמת והן של השוטר שחקר אותה, על מנת לערוך השוואות מובהקות יותר בין כתב ההודאה לבין סגנון הכתיבה של השניים. המלצה זו לא אומצה. איזה משקל יש לתת לדו"ח כזה – זו כבר שאלה עבור מערכת המשפט, לא עבור בלשנים. השופט בתיק לא השתכנע מהדו"ח (וגם לא מהדו"ח הפסיכולוגי שהוגש), לא ציטט הסברים אלטרנטיביים לממצאים ופסק נגד הצעירה.

Read Full Post »

שנת 2017 נחתמה והאגודה האמריקנית לבלשנות (ה-LSA) בחרה כמו בכל שנה את המאמר הטוב ביותר שהתפרסם בכתב העת שלה, Language. זו הזדמנות להיזכר בכך שבשנה שעברה הבחירה היתה קלה במיוחד: מאמרם של ג'ון ריקפורד ושריז קינג על דעה קדומה וגזענות ביחס התקשורתי והמשפטי לרייצ'ל ז'נטל, העדה המרכזית במה שמכונה משפט טרייבון מרטין (אבל למעשה היה מדינת פלורידה נגד ג'ורג' צימרמן). המשפט עצמו, אם יש צורך להזכיר, נגע לאירוע ב-2012 שבו ג'ורג' צימרמן (לבן-היספני) ירה בצעיר שחור לא-חמוש, טרייבון מרטין, באחד האירועים הזכורים יותר מקרב אירועי הירי של השנים האחרונות נגד שחורים בארה"ב.

המאמר עצמו הוא מופת של עבודה סוציובלשנית: הוא משלב תיאור מדעי מדויק עם היבטים חברתיים ומשפטיים, מנסה לא לשפוט את מי שלא זכה לחינוך בלשני מעמיק אבל שופך קיתונות של ביקורת כשמגיע. והמאמר חשוב. אני מביא כאן את עיקרי המאמר שמבוסס על נאומו של ריקפורד בכינוס השנתי של האגודה האמריקנית לבלשנות לפני שנתיים. את הנאום עצמו אפשר לראות (באיכות בינונית) כאן ואפשר גם לקרוא רשומה באנגלית שמביאה את קיצור העניינים כאן. בסוף אני חוזר בקצרה להעלות כמה שאלות לגבי תרחישים דומים בארץ, ואשמח לתגובות בעניין.

להגים בבית המשפט

הרעיון המרכזי שחוזר במאמר הוא שאף אחד לא התייחס לז'נטל ברצינות (במיוחד לא חבר המושבעים) בגלל שהם סלדו מהצורה שהיא מדברת: היא דוברת את הלהג העיקרי בו מדברת הקהילה השחורה בארה"ב, African American Vernacular English, דהיינו הניב האנגלי של אפריקנים אמריקנים או בקיצור AAVE. אבל את המאמר ריקפורד וקינג פותחים דווקא עם כמה דוגמאות מהיחס למיעוטים דוברי אנגלית בתיקים שהתנהלו במדינות אחרות, כולל עדים אבוריג'ינים באוסטרליה ועדים מרקע ג'מייקני בבריטניה. למשל, במקרה אחד הצורה שבה עד אמר את המילה ground 'קרקע' נשמעה לקלדן בתור gun 'רובה'. חשוב להזכיר כאן שאמנם מערכת המשפט בארה"ב מכבדת שפות שונות ומתעלמת מ"להגים" כמו AAVE, אבל אנחנו יודעים שההבדל בין שפה ודיאלקט הוא מלאכותי-פוליטי: שפה היא פשוט דיאלקט עם מספיק כוח כדי להיחשב לדרך "הנכונה" שבה מדברים.

האנקדוטות מעניינות ומבהירות את הנקודה אבל חשוב לציין אלה רק המקרים שהתגלגלו לספרות המקצועית. קל לנחש שמקרים רבים נוספים לעולם לא זכו לחשיפה הראויה להם. עוד נקודה מעניינת שמגיעה בסוף סעיף 2 של המאמר היא שהממשל האמריקני גייס מתורגמני AAVE במסגרת מבצע אכיפת סמים בדרום-מזרח ארה"ב ב-2010, אבל לא ממהר לגייס מתורגמנים עבור נאשמים בבית המשפט. בהקשר הזה המאמר מצטט את הסוציובלשן וולט וולפרם, שמזכיר כי האחריות לתקשורת ברורה נופלת איכשהו תמיד על המיעוט הלשוני/חברתי/פוליטי.

עדותה של ז'נטל

נחזור למשפט עצמו. תוכן העדות של ז'נטל מוכר לנו בינתיים ועיקרי הדברים מצביעים על אשמתו של צימרמן (לכאורה, בטח לכאורה): מרטין רץ הרחק מצימרמן ולא לכיוונו; הוא לא היה חמוש; הוא פחד ולא ידע למה עוקבים אחריו. מה שעוד מוכר, למרבה הצער, הוא התגובה הציבורית הארסית לעדות שלה. לא לתוכן, כמובן, אלא לצורה שבה היא דיברה. מבין כל העלבונות שהוטחו בז'נטל, הבולטים ביותר בהקשר הנוכחי הם אלה שקראו לה אידיוטית אשפתות גמגמנית. מה שעולה מהתגובות האלה, ונמצא באופן מפורש בכמה מהן, הוא שז'נטל כביכול מדברת אנגלית "שבורה": היא עושה "טעויות", היא "שוגה" שוב ושוב. הטיפול של ריקפורד וקינג בעניין הזה הוא טיפוסי עד כדי שיעמום עבור כל מי שלמד קורס בבלשנות: הם יושבים ומנתחים את הפונולוגיה, המורפולוגיה, התחביר והלקסיקון של ז'נטל במהלך העדות שלה (סעיף 3 במאמר). הם מסתמכים על ספרות מקצועית בת עשורים, מודדים תנועות והברות, מסרטטים גרפים ומנתחים את הפעלים והלוואים, בדיוק כמו שבלשנים עושים עם כל שפה אחרת. הדוגמאות רבות ולא אחזור עליהן כאן. התוצאה היא מערכת חוקים מורכבת למדי אבל עקבית להפליא, בדיוק כמו שמערכת השורשים והבניינים בעברית או מערכת פעלי העזר והזמנים באנגלית עקביות עד כדי שעמום. כמו שהמחברים מציינים לאורך המאמר, זו מסקנה מובנת מאליה עבור בלשנים אבל לא בהכרח עבור הציבור הרחב.

הקטע בעדות שבאמת העביר את חבר המושבעים על דעתו הוא כשז'נטל ציטטה את מרטין, שבתורו התייחס לצימרמן בתור nigga ו-creepy-ass cracka. אל מול הזעזוע הקדוש של חבר המושבעים הלבן, המחברים מסבירים בנינוחות שהמילה הראשונה כבר מזמן תועדה ככינוי לכל גבר שהוא, בלי קשר לגזע או צבע עור, ושז'נטל עצמה הסבירה את השימוש הזה באופן מפורש. הצירוף השני גם לא הרעיד את אמות הסיפים הבלשניות: creepy, משום שמרטין פחד. הסיומת ass משמשת להדגשה, ורבות נכתב בשנים האחרונות על התחביר שלה. ולבסוף cracka, אכן בתור מילת גנאי ללבנים. השילוב ביניהן גרם למצב פרדוקסלי שבו גזענות יוחסה למרטין, ולא למי שרדף אחריו וירה בו.

בסעיף 4 של המאמר מתועדות שלל דרכים שבהן חבר המושבעים התעלם מעדותה של ז'נטל או התייאש מלנסות ולהבין אותה. ההקשר המדעי המובא כאן הוא מחקרים על אי-יכולתם של אמריקנים לבנים להבין AAVE, נושא שתועד וכומת ממספר היבטים. כדי לחתום את החלק הזה, המאמר מזכיר את הספרות המקצועית שמדברת על דעות קדומות אותן אנחנו מבססים כלפי מיעוטים על סמך המבטא או הלהג שלהם, כש'אנחנו' כאן מתייחס הן למורים לבנים בבתי ספר בארה"ב והן לאנשי הנמבה והקלבארי בניז'ר.

סיכום

בשלב זה של הדיון ברור למדי שעדותה של ז'נטל לא נלקחה ברצינות. אם הייתה נלקחת ברצינות, אולי גזר הדין היה שונה בתכלית (צימרמן זוכה). בעמודים האחרונים של המאמר מנסים ריקפורד וקינג לבודד מספר המלצות להמשך. בין היתר הם חוזרים לטענה הפסולה לפי ז'נטל היא אנאלפבתית ומציבים אותה בהקשר של מחקרים רבים על הדרך הטובה ביותר ללמד מיעוטים ואכלוסיות נחלשות (גירסת בזק: אין שום מניעה ללמד מיעוטים בשפה שלהם או בלהג שלהם, ודווקא יש בזה מספר יתרונות). כמו כן, הם מעודדים את הקהילה הבלשנית עצמה לגלות יותר אחריות כלפי שפות מיעוטים וכיצד הן נתפסות (או במילים אחרות, stay woke).

שאלה אחת שעלתה אצלי לקראת סיום נוגעת לגבי המצב בארץ, וכאן אני מודה שאני לא מכיר את הספרות בנושא. אם נאשמת או עדה בבית המשפט אומרת "שני שקל" או "לשים סוודר", האם סביר יותר שנתייחס אליה בזלזול? או לגבי מבטא: אני יכול לשער שהגייה מזרחית עשוייה להיתפס כיוקרתית פחות מהגייה אשכנזית, אבל מצד שני אנחנו גם יודעים שהגייה מזרחית נתפסת פעמים רבות כאותנטית יותר. ומה לגבי נאשמים ערבים ורוסים שהעברית שלהם אמנם ילידית אבל עם מבטא? וכמובן, המצב ודאי גרוע יותר בקרב נאשמים שעברית אינה שפת האם שלהם ועושים טעויות של ממש, כאלה שנובעות מאי-שליטה בשפה. אנחנו הרי יודעים שאפילו שפות שחיו בקרבנו במשך מאות שנית, כמו ערבית, נתפשות היום כשיקוץ. אתפלא אם המרכיבים האלה לא גורמים לעיוות הדין.

John R. Rickford and Sharese King (2016). Language and Linguistics on Trial: Hearing Rachel Jeantel (and Other Vernacular Speakers) in the Courtroom and Beyond. Language 92(4):948-988.

Read Full Post »

שטף תשדירי התעמולה תפס אותי לא מוכן השנה, ואני מודה שהתקשיתי לעמוד בקצב הדאחקות של ביבי ושות'. אבל שני סרטונים של הרשימה המשותפת מעלים על ראש שמחתנו את תופעת הדיגלוסיה: ההפרדה בין שפה תקנית לשפה מדוברת.

בסרטון החביב הבא מגיעים מנהיגי שלל מפלגות בזה אחר זה ומציקים למשפחה הממוצעת באמצע ארוחת השבת, עד שמגיע אימן עודה מהרשימה המשותפת ועושה סדר. כשאב המשפחה מציע לו כיסא, עודה משיב: "תביא חמישה עשר כיסאות" (חמישה עשר מנדטים). אבל מי אומר "חמישה עשר" בימינו? עודה אומר.

זה לא מקרה שדווקא הערבי, "האחר", מדייק בהתאמה במין ובמספר. רבות כבר נאמר בנושא, במיוחד בהתייחס לשפתו של זוהיר בהלול, ולא איכנס לעניין כאן. באופן כללי נראה שמדובר בשילוב בין החובה שחלה על תלמיד ערבי להצטיין במיוחד בשביל להגיע להישגים כלשהם בחברה היהודית, עם איזושהי התרסה שדווקא מי שמגיע מבחוץ מדבר עברית מדויקת יותר מהיהודי. אפשר להתחיל למשל עם הראיון הקצר הזה עם בהלול (שלא נכנס לפן הפוליטי-החברתי).

בסרטון נוסף של הרשימה המשותפת אנחנו עוברים לערבית וזוכים לראות הפרד קלאסית בין עברית מדוברת לערבית ספרותית:

מה שמשך אותי במיוחד הוא העובדה שהדרדסים משוחחים בערבית מדוברת מקומית, בעוד ליברמן ובנט מדברים בערבית ספרותית (ונדמה לי שהמבטא של בנט "משוכנז" מעט). בדקתי בכמה סרטונים מדובבים לערבית של הדרדסים באינטרנט, וזו לא הפרדה שקיימת במקור בין הדרדסים וגרגמל: בטלוויזיה כולם מדברים בספרותית. מצד אחד, אני מניח שהדרדסים אמורים להישמע אותנטיים יותר ואילו ליברמן ובנט ממסדיים ומנוכרים. מצד שני, אני לא חושב שבת דמותה של יונית לוי אמורה לעורר אנטגוניזם מיוחד.

ואם הדיגלוסיה היא הדבק שמחבר בינינו, דיינו.

[ת' לשי. ועכשיו יאללה להצביע]

Read Full Post »

סערה זוטא התחוללה לאחרונה בבית היהודי בשולי הנסיון לצרף את אלי אוחנה לרשימה. ח"כ זבולון כלפה, אחד מאנשי מפלגת תקומה שרצה במסגרת הבית היהודי, התפטר מהמפלגה על רקע שריונו של אוחנה. כלפה שלח מכתב התפטרות ליו"ר המפלגה, ח"כ אורי אריאל, והמכתב צוטט בצורה כזו או אחרת בכלי התקשורת.

למה אני אומר "כזו או אחרת"? כי נפלו כמה שגיאות מעניינות במכתב כפי שצוטט, ואי אפשר בדיוק לדעת אם השגיאות במקור אצל כלפה או אצל התשקורת. בין היתר מצוטט ח"כ כלפה בתור מי שאמר ש:

(1) אני חושב שמישהו איבד את המצפן
(2) טוב לעשות גירושים לפני שיש ילדים
(3) זה לא רק גשם שיורד אלינו, זו יריקה
(4) אי אפשר לומר שכלום קרה

בהארץ ובהבהחדרי חרדים אפשר למצוא את כל הארבעה, אבל חדרי חרדים תיקנו את "גירושים" ב-(2) ל-"גירושין". בכיפה ובכיכר השבת גם אפשר למצוא את כל הארבעה אבל בלי הפסיק ב-(3). בחרדים10, להבדיל, מצטטים מכתב שונה בגוף הכתבה אבל כן מצטטים את (3) בכותרת המשנה.

נניח שלפחות חלק מהשגיאות הופיעו במכתב המקורי, אבל יכול גם להיות שאתרי התקשורת לא הקפידו על ציטוט מדויק של המכתב. בואו נחזור לדוגמאות (1)-(4) ונראה מה קורה בהן.

(1) איבד את המצפן: כמעט עירוב ביטויים. הביטוי המקובל הוא איבד את הצפון, אבל מי שמנהיג אמור לנווט בעזרת מצפן. ישנו גם מצפן מוסרי, שאילה אפשרית מאנגלית.

(2) גירושים / גירושין: שתי הצורות תקינות. הוועדה למונחי דמוגרפיה של האקדמיה ללשון העדיפה את הסיומת העבריתים על פני הסיומת הארמית –ין, אך שתיהן תקפות (רק איך אומרים דמוגרפיה בעברית?).

(3) הגשם יורד עלינו ממעל, לא אלינו. אין לי הסבר לבחירה ב-(3). זו יכולה להיות שגיאת כתיב (עם אל"ף במקום עי"ן) וזו יכולה להיות בחירה במילת יחס לא נכונה.

(4) גם כלום קרה זה מוזר. הרי בעברית יש שלילה כפולה וצריך לומר "כלום לא קרה". אולי אפשר להבין את (4) יותר בקלות אם מדגישים את "כלום": אי אפשר לומר שכלום קרה, הרי משהו קרה.

שיהיה ברור, כבלשן אני לא מחפש ללעוג לשגיאות של ח"כ כלפה. אני יותר סקרן לדעת מה הגורם לשגיאה, כי השגיאות של היום הם הדקדוק של מחר. באותה מידה מסקרן גם לדעת האם השגיאות הן באמת שלו או של אמצעי התקשורת השונים: למה להוסיף או להוריד פסיק? למה לשנות את "גירושים" ל-"גירושין"? ובאיזה מקרים מותר להחריג את הציטוט מהמבע המקורי?

[ת' לאורה]

Read Full Post »

אני מאוד אוהב את עונת הבחירות, גם כי לכמה חודשים כולם מתעניינים בפוליטיקה וגם כי יש תשדירי בחירות. ואיפה שיש תשדירי בחירות יש שימושים יצירתיים בשפה.

את יריית הפתיחה לסיקור שלנו נותן נפתלי בנט עם תשדיר נגד פרופ' יוסי יונה, מועמד ברשימת ההעבודה/ההתנועה/ההמחנה הציוני/אמת. בואו נניח שאין כאן הסתה של ממש אלא סתם תשדיר בחירות בטעם רע ונראה מה ניסו בבית היהודי לעשות.

הסרטון נקרא "يوسي يونا هو شقيق", או פונטית "יוסי יונה הו שַׁקִיק". מה זה שקיק? בגדול המשמעות היא 'אח', אבל תיכף נחזור לזה. בואו נבחן את הטקסט קודם. הנה הוא לנוחיותכם:

אין היבדל בין יום השואה היאהודי ליום הנכבה הפלסטיני
כול הכבוד לחיילים הציונים המיסרבים לישרת בשטחים הכבושים
אני מיתפלל ליפינוי נוסף שילכם מיבתייכם
כול עוד יהייה כיבוש, יהייה טרור
טלי פחימה היא פיעילת שלום אמיצה

הסרטון רומז לסרטוני תעמולה של החמאס, על עבריתם הקלוקלת. איך ניסו בבית היהודי לחקות עברית קלוקלת? תתרשמו בעצמכם: אין שום שגיאות בטקסט הזה. למשל, יש התאמה נכונה בין נושא לנשוא. הסיבה שהעברית מדויקת היא כנראה כי אלה אמורים להיות ציטוטים ישירים מפי פרופ' יונה עצמו. מה כן יש? נראה שקופירייטרי הבית של הבית לקחו שק מלא באות יו"ד (או אולי שקיק?) ופיזרו בנדיבות מעל הטקסט: היבדל, המיסרבים, ליפינוי, פיעילת, וכן הלאה. האם אנשים שערבית שפת אמם ושמדברים עברית כשפה שנייה לצרכי תעמולה מוסיפים חיריק בכל מקום? או מאריכים צירה? אני חושב שהתשובה שלילית, אבל נותיר את זה כתרגיל בבלשנות קורפוס לקוראים הסקרנים.

הלאה: לא סתם הוספנו אמות קריאה כאן. אמנם יש היאהודי, אבל אין הנאכבה או טאלי פאחימה. אני חושב שזה בגלל שעורכי התשדיר לא רצו שחס וחלילה נפספס איזו נקודה. הקורא הממוצע יכול להבין מה זה יאהודי, בין היתר כי בערבית יש פתח ביו"ד: "יַהוּדי". אבל אם נכתוב נאכבה או טאלי, מילים שתדירות הופעתן נמוכה יותר, יכול להיות שהמסר יתפספס. וזה כמובן יהיה חבל.

נחזור עכשיו לכותרת: את המילה شقيق "שׁקיק" בהחלט אפשר לתרגם 'אח', והכוונה היא להנגיד בין "נפתלי בנט הוא אח" ובין "יוסי יונה הוא אח (של החמאסניקים)". אבל יש כאן כשל בתרגום: בעוד המילה أخ "אח" משמעה אח ביולוגי או רוחני כמו אצל 'האחים המוסלמים', שקיק משמעה כמעט תמיד אח ביולוגי. מטעמי דדליין לא הספקתי לבדוק עם דובר ילידי, אבל כפי שמסביר המילון הערבי של ווהר (אני מתרגם מאנגלית), "שקיק" משמעו "אח 'שלם' [בניגוד לאח למחצה – א"ק], אח הן מצד האם והן מצד האם; (כתיאור) אחי-, אחות-". יש כמובן יוצאים מהכלל: "الدول العربية [מדינות ערב – א"ק] מדינות-אחיות (בעיקר בהתייחס למדינות ערב).

המילה "שקיק" מביעה את ההיפך ממה שהמילה "אח" מביעה בהקשר הזה, שהרי אח ביולוגי יכול להחזיק בדעות מנוגדות לאלה שלך, אבל אח רוחני הוא בעל דעות דומות. למה בכל זאת הלכו בסרטון על "שקיק" ולא על "אח"? אולי כדי לא לבלבל את הצופים המסכנים (שוב): אם גם יוסי יוני זה "אח", וגם נפתלי בנט זה "אח", איך נדע למי להצביע?

על כל פנים, בלי קשר למי נצביע, אני מתרגש לקראת הבחירות הקרובות. נזכיר כאן שאתם מוזמנים לשלוח לנו ציטוטים וסרטונים שיש בהם קוריוז לשוני בשולי מערכת הבחירות, ובתמורה נשריין אתכם במקום לא-ריאלי.

Read Full Post »

באזור הדמדומים שבין תל-אביב לגבעתיים נתקלתי בפוסטר הבא:

wpid-20150105_102011-1.jpg

שומר נפשו יו!

נתקלתי ונאלמתי דום, משום שלא הבנתי מה הקשר בין השאלה לתשובות. למעשה, לא הבנתי האם ועד כמה דיסקונט גנבים. אסביר.

הכרזה מכריזה: "סקר לציבור הרחב יקבע האם דיסקונט גנבים?" ומבקשת "סמן X לתשובה הנכונה". עקרונית סימן השאלה מיותר, שהרי מדובר בציטוט עקיף, אבל לא נורא. מה שחשוב הוא שעל פניו, יש לנו עסק עם שאלת כן/לא: או שדיסקונט גנבים, או שדיסקונט לא גנבים (יש טיעונים לכאן ולכאן, ומכיוון שאנחנו בלוג הבלשנות דגש קל ולא בלוג הבנקאות כסף קל לא ניכנס אליהם).

אלא שהתשובות האפשריות הן:

(1) הרבה מאוד גנבים
(2) המון גנבים
(3) רק גנבים
(4) כל התשובות נכונות

בואו נראה מה בעצם אומרות התשובות האלה. (3)-(1) הן קביעות לגבי כמות הגנבים מתוך עובדי בנק דיסקונט וכולן מעלות את השאלה הבאה — מה אחוז הגנבים מתוך כלל עובדי בנק דיסקונט כך שהתשובה תהיה נכונה? למשל, ניתן להניח שאם 20% מעובדי הבנק הם גנבים, זה אחוז שערורייתי. במקרה כזה גם (1) וגם (2) נכונות. למעשה, לא ברור מתי יש הבדל בין (1) ל-(2): מה בעצם ההבדל בין הרבה מאוד ל-המון? רק עניין של משלב?

את (3) קל יותר לכמת: 100% מהעובדים צריכים להיות גנבים כדי ש-(3) תהיה נכונה. ברגע שעובד אחד אינו גנב, אי אפשר לומר שבדיסקונט עובדים רק גנבים.

תשובה (4) אפשרית ומהווה דוגמה למה שנקרא אימפליקטורה סקלארית: אני יכול לומר שבדיסקונט יש הרבה מאוד או המון גנבים, בהתאם לתשובות (2)-(1) — ואז תחשבו שיש אולי 20% או 60% — אבל להמשיך ולומר "בעצם, כולם שם גנבים" בהתאם לתשובה (3). לא ממש סתרתי את עצמי: כשאמרתי שיש "הרבה" גנבים (20%) השתמע שאין מספיק בשביל "רק" (100%), אבל המשכתי על הסקאלה עד שהגעתי ל-100% של "רק".

עד כאן הכל טוב ויפה, הבנו מה ההבדלים בין התשובות השונות ואפשר לעצור כאן. אבל לי עלתה מחשבה אחרת: שאנחנו בכלל לא מדברים על כמות כאן, אלא על אופן או מידה. במילים אחרות, השאלה היא לא "כמה מעובדי בנק דיסקונט הם גנבים", אלא "אנחנו יודעים שהבנק הוא ישות גנבה, עכשיו בואו ניתן לגנבוּת שלהם ציון". הפירוש הזה מתאים יותר לשאלה המקורית בכרזה, ופרגמטית נראה לי שזו היתה הכוונה. הבעיה היא שזו תחושת בטן שקשה למצוא לה סימוכין. דמיינו שהשאלה היתה "האם דיסקונט הגונים?" והתשובות האפשריות היו:

(5) מאוד הגונים
(6) נורא הגונים
(7) הכי הגונים
(8) כל התשובות נכונות

תשובות כאלה אפשריות מפני ש-הגון הוא שם תואר (או שם עצם, תלוי) שאפשר להגביר באמצעות תארי פועל כמו מאוד, נורא, ממש, קצת וכן הלאה. אם ננתח כך את "גנבים" ניאלץ לומר שני דברים. ראשית, ש-גנב הוא שם תואר במקרה הזה, ושנית, ש-הרבה מאוד, המון ו-רק יכולים לשמש כתארי פועל. מתחשק לומר שהראשון לא נכון והשני לא יהיה, אבל בואו נראה.

לא יהיה בעייתי מדי לפרש את גנב בתור תכונת אופי, להבדיל ממקצוע. השאלה היא אם יש סקאלה של גנבוּת. שוב, תחושת הבטן שלי היא שכן אבל לא מצאתי דוגמאות טובות ברשת. לגבי הנקודה השנייה, גם הרבה מאוד וגם המון אפשריים כלוואי לשמות תואר בעברית עכשווית. ההדגשות שלי:
"עצוב וזהו. הרבה מאוד עצוב, בלי עצות, בלי השגות, בלי "אבל מה עם…?". ככה. זה מה יש." [מקור]
"ראיתי אתמול את ההקרנה (לנשים, אצלנו הגבילו כניסה מגיל 18). מטלטל, עוצמתי, מרגש (והמון המון עצוב), ובעיקר יוצק אמונה בכמויות." [מקור]

חיפשתי בינתיים רק עם התואר עצוב ויהיה מעניין לראות אם התופעה מתפשטת לתארים אחרים (עוד על שילובים מפתיעים בין שמות ולוואים כאן וכאן). השורה התחתונה היא שאפשר לדעתי לומר על אדם מסוים שהוא לא סתם גנב, הוא המון גנב או הרבה מאוד גנב או קצת גנב. אני חושד שזה הרעיון שניסוי להעביר בכרזה, אבל בגלל שעדיין מדובר בשימוש לא נפוץ בשפה, קשה לי להגן על הניתוח הזה כרגע.

אז מה המסקנה מכל הדיון הזה לגבי סקאלות ותארים? הכרזה מכמתת גנבים או מאייכת גנבוּת? כל התשובות נכונות.

Read Full Post »

אורה פלד נקש ספק-שואלת-ספק-מלשינה בקו החם של טוויטר: "יואל מרקוס נופל בפח השלילה הכפולה?". כך כתב מרקוס כשנכנסו לטהר ויצאנו מטוהרים (ההדגשה שלי):

2. כל אימת שאנו מצויים בעימות צבאי, נוצרת אותה בעיה: אנו יודעים איך מתחילים, אך לא יודעים איך יוצאים. או שיוצאים מוקדם מדי ולטווח קצר מדי. דבר אחד צריך להיות ברור הפעם. א': לא יוצאים מעזה בלי שאנו יודעים בוודאות שלא נוטרלה אחרונת המנהרות. ב': צריך לפעול למען פירוז עזה מטילים. יש נטייה לשכוח שעזה אינה ישות עצמאית, אלא מפלגה־תנועת טרור בשם חמאס, שהשתלטה על חלק מהטריטוריה הפלסטינית. האם מישהו מעלה בדעתו, שאופוזיציה כלשהי, בצרפת למשל, היתה תופסת טרירטוריה מסוימת ומשליכה את שוטרי הרפובליקה מהגגות ומשתלטת כך על חלק מהמדינה?

אורה מתכוונת לתופעה המתסכלת שבה מרוב שלילות לא רואים את היער. לתופעה הזו אפשר לקרוא שלילה כפולה או שלילה שגויה והיא תועדה יפה על ידי עמיתיי לבליגה (במיוחד פינטר) שתיעדו יותר שלילות כפולות מאשר יש לנו מלחמות בעזה.

שלילות רבות ומרובות מתקילות את מרקוס בפיסקה הזו, משל היו שאלות על המצב שמופנות לראש הממשלה במסיבת עיתונאים דמיונית. ובכן. למה התכוון המשורר? טוב, ברור למה הוא התכוון: שהתנאי ליציאה מעזה הוא כזה — אין יותר מנהרות. טיהרנו את כולן. אבל האם זה באמת מה שמרקוס כתב? בואו נבדוק. העניין מסובך במיוחד משום שיש כאן שתי פסוקיות: זו שמתארת מה שאנחנו יודעים, וזו שמתארת את מה שקרה בשטח.

יוצאים כשיודעים בוודאות שנוטרלה אחרונת המנהרות – יוצאים מעזה אחרי שווידאנו שהמנהרות נוטרלו כולן.
יוצאים בלי שאנו יודעים בוודאות שנוטרלה אחרונת המנהרות – יוצאים בלי לוודא שהמנהרות מנוטרלות.
לא יוצאים בלי שאנו יודעים בוודאות שנוטרלה אחרונת המנהרות – יוצאים אחרי שווידאנו שהמנהרות נוטרלו כולן.

אבל עכשיו, חזיז ורעם, צצה לה שלילה בפסוקית המשועבדת.
לא יוצאים בלי שאנו יודעים בוודאות שלא נוטרלה אחרונת המנהרות – יוצאים אחרי שווידאנו שהמנהרות לא נוטרלו כולן.

כמעט! אבל שלילה אחת מיותרת הביאה למשמעות הפוכה. לא נורא, ננסה שוב בשנה הבאה.

[ת' לאורה]

Read Full Post »

יובל דרור, בבלוגו 'הגלוב', חונך את 'פרויקט מפעול צה"ל'. במסגרת המלחמה העתית בעזה מסר לאחרונה דובר צה"ל שמערכת ההתרעות "מסר אישי" אינה מבצעית, וליתר דיוק: "בשלב זה מערכת מסר אישי איננה מבצעית, בימים אלה נעשות פעולות למבצועה".

דרור הסתער בהתלהבות על שם הפעולה מִבצוּע ומיהר להציע כמה משלו. אם תקראו אותם תראו בוודאי שכמה נשמעים טבעיים יותר וכמה טבעיים פחות. ויש לכך סיבה. הנה ההצעות של דרור, אחת אחת, עם הערותיי.

  1. המערכת עדיין לא חשאית אבל אנחנו עובדים על החשאתה.
    נשמע סביר. בגוגל אפשר למצוא הופעה אחת של המונח החשאה, בהקשר להצפנה.
  2. לא ניתן לספק את הנשק באופן מיידי אבל אנחנו עובדים על המיידתו.
    הברה שנפתחת ביו"ד עיצורית אינה פופולרית בעברית של ימינו, אלא לפני שורוק בשם הפעולה של בניין פיעל: מיון (שתי הברות: mi.yun) אבל לא *המיינה, ביוץ אבל לא *הבייצה, טיוח אבל לא *הטייחה, סיור אבל לא *הסיירה. לכן לא נאמר *המיידה. מה לגבי מיוד? מי יודע.
  3. הפלוגה עדיין לא מספיק מקצועית אבל אנחנו פועלים למיקצועה.
    נשמע סביר, ואכן קיים בלשון הצה"לית כפי שמודיעים המגיבים בפוסט המקורי.
  4. בשלב זה אין בידינו מספיק נתונים כדי לבנות מערכת אבל אנחנו עובדים על המיערוך.
    לא משהו, אבל נסבל. שימו לב שגם כאן וגם בסעיף הקודם דרור עבר מבניין הפעיל לבניין פיעל, משום שבניין פיעל מסוגל להכיל שורשים מרובעים (מ.ק.צ.ע ומ.ע.ר.כ).
  5. הטירונים עדיין לא יודעים לעשות פזצטא ומשום כך החלטנו לפזצטא את כל הפלוגה.
    איום ונורא, לא? קודם כל, שורש מחומש הוא דבר נדיר למדי בעברית. בנוסף, העיצורים המיוצגים על ידי האותיות ז', צ' וט' דומים מאוד אחד לשני ולא מסוגלים לדור בכפיפה אחת בלי תנועה כלשהי שתפריד ביניהם. אי אפשר לומר *לְפַּזְצְטֵא ובמקום זה צריך לומר משהו כמו "לְפַּזַצְטֵא". אבל זה כבר נשמע פשוט כמו מילת היחס ל– לפני המילה פזצטא (וכך כנראה נוצא שם הפעולה בעבר, אבל זה כבר סיפור אחר). בנוסף, יש הרבה הברות: ל.פ.זצ.טא. אמנם שמות פועל בני ארבע הברות קיימים בעברית, אבל הם נחלתו של בנין התפעל (ל.הת.פו.צץ, ל.הת.בר.בר). ודבר אחרון, העיצור האחרון יתנגש עם ההטיות בגוף ראשון ושני: פזצטתי? פזצטתם? אפשר לחשוב על פועל בבניין קל (פזצתי), אבל פועל בבניין קל לא יקבל שם פעולה של בניין פיעל. במילים אחרות, שם הפועל לפזצטא אינו בלתי אפשרי, אבל צפוי לו קרב קשה. שימו לב שעברנו כאן משמות פעולה (החשאה, המיידה) לשמות פועל (לפזצטא) אבל העקרונות דומים.
  6. ידע כל חייל לקטבג את קיטבגו.
    נשמע סביר. לא יודע למה זה לא תפס עדיין – אולי לא מדברים בימינו על קיטבגים כל כך? עוד כשהייתי בטירונות, לפני כמעט עשור ומשהו, המילה קיטבג לא היתה נפוצה מדי.
  7. לא לכל האנשים יש מקלט ולא בכל המקומות האזעקה עובדת אבל אנחנו עובדים על מיקלוט ואיזעוק כל הישובים.
    מיקלוּט נשמע סביר והמגיבים בפוסט המקורי מדווחים שהם כבר נתקלו בשם הפעולה הזה.
    איזעוק גם נשמע סביר ואני לא יודע למה שם הפעולה הזה לא נוצר עדיין. אולי הסיבה אינה פונולוגית אלא סמנטית: מה זה בעצם לאזעק? לחמש באזעקה? למקלט מקום מסוים משמעו שיהיה שם מקלט, אבל אזעקה מושמעת מעל מרחב מסוים ולא במקום ספציפי, ולכן אפשר למקלט ישוב מסוים אבל אי אפשר לאזעק ישוב אחד בלי לאזעק גם את האזור הקרוב לו.
  8. הרמטכ"ל הבטיח כי לאור מטחי הרקטות מצד חמאס, יגיב צה"ל במלוא עוצמת ההמטחה. "נמטיח אותם", ציין.
    נשמע טוב, וגם כאן אני לא יודע למה לא נוצרה עדיין מילה כזו. אולי אין בה צורך כי מובן מאליו שאין לנו שום תגובה מוכנה מלבד המטחות.

שאלה אחרת היא למה להעדיף את המטחה בבניין הפעיל על פני מיטוּח בבניין פיעל. בעברית יש כלל מורפו-פונולוגי חשוב ביצירת פעלים חדשים, כלל שנוגע לבחירה בין שני הבניינים. הכלל הפונולוגי הוא כזה: אם הפועל נגזר משֵם, נרצה לשמור על מבנה ההברות מהמילה המקורית. למשל, שווִיץ לא הפך לפועל *שיווץ אלא לפועל השוויץ, משום שבמילה המקורית יש את צרור העיצורים "שוו" ובניין פיעל מפרק את הצרור הזה באמצעות תנועה. לכן העדפנו ליצור פועל בבנין הפעיל, שלא מכניס תנועה בין פ' הפועל (במקרה הזה, "ש") ובין ע' הפועל (במקרה הזה, "ו" עיצורית): הש.וויץ ולא שי.ווץ. ישנן גם מגבלות סמנטיות: פעלי "גרימה" יהיו לרוב בהפעיל ולא בפיעל (המרדה ולא מירוד, למשל). וכל זה מתועד יפה בין היתר בעבודתו של ליאור לקס, שמתבססת מצדה על מחקריהם החשובים של אותי בת-אל, עוזי אורנן ורבים אחרים.

Read Full Post »

(First posted on Language Log as a guest post)

Reading Mark Liberman's analysis of Obama's SOTU addresses versus other presidents', my thirst remained unquenched. Word-counts are fun, sure, but the real fun comes in when looking at longer phrases – two (bigrams) or three (trigrams) words long.

After waiting for it to be breakfast time in Philadelphia, I engaged in an experiment (Legal has advised me against explicit use of MYL's trademark phrase) to analyze the 228 addresses (found here) and see what Obama's favorite (and least-favorite) phrases are.

Since I worked with raw data, I handled it a bit differently than previous analyses just for the sake of getting results fast. To begin with, I did not weed out the non-orally-delivered addresses or any other "special" cases. Next, I used an unsophisticated tokenization algorithm where all apostrophes break words into tokens (so "Congress's" is split in two, as in Liberman's analysis, but same goes for "i'm" and "he's"). Lastly, I used a comparison algorithm which only takes into account Obama's speeches and all addresses (1790-2014) as "background": the KL measure, which purports to tell us how "informative" the phrase is in the Obama corpus relative to the background corpus.

Let's get to it: here are Obama's most unexpectedly frequent bigrams:

bigram KL-measure X 1000
that 's 3.284
it 's 2.463
let 's 2.022
don 't 1.545
i 'm 1.540
we will 1.408
's why 1.375
we 're 1.278
we 've 1.253
can 't 1.147
right now 1.092
clean energy 0.960
i will 0.946
if you 0.931
need to 0.925
we 'll 0.907
we can 0.902
is why 0.883
jobs and 0.848
's what 0.844
health care 0.842
tonight i 0.825
our economy 0.813
's not 0.736
middle class 0.696

We see many stylistic markers here, such as the contracted forms "'s", "'re" and "'ll", which will probably re-appear in any modern president's lingo (with not much to support either the egocentric-Obama or collective-Obama hypotheses), but these expected bigrams greatly emphasize the magnitude of the more content-swayed ones: "our economy", "middle class", "health care" and the number one issue on Obama's plate (at least according to Kullback and Leibler): "clean energy".

Obama's most unexpectedly infrequent bigrams: (for these, I still only took phrases which appeared somewhere in Obama's addresses)

bigram KL-measure X 1000
of the -2.388
to the -0.941
in the -0.896
for the -0.529
and the -0.494
by the -0.446
it is -0.397
PAR the -0.392
united states -0.389
the united -0.388

And the rest is just as boring. We've seen "the" is on the decline, and it drags down all its associated bigrams with it.

Moving on. Favorite trigrams: ("PAR" marks the beginning of a paragraph)

trigram KL-measure X 1000
that 's why 1.191
that 's what 0.750
that is why 0.640
democrats and republicans 0.549
we need to 0.526
it 's not 0.495
this congress to 0.432
PAR that 's 0.426
the american people 0.413
i will not 0.406
so let 's 0.405
tonight i 'm 0.399
we can 't 0.391
states of america 0.369
it 's time 0.353
across the country 0.336
's why i 0.325
's why we 0.324
over the last 0.319
over the next 0.313
we have to 0.312
i took office 0.312
i know that 0.310
's time to 0.304
PAR of course 0.304

So the top three are explanation starters, but check out "democrats and republicans" creeping in to a bipartisan content-lead. And you may take what you will from number 25, beginning paragraphs with "of course".

Least favorite trigrams:

trigram KL-measure X 1000
the united states -0.375
of the united -0.134
of the country -0.054
part of the -0.048
as well as -0.046
the people of -0.044
of the people -0.044
PAR it is -0.043
united states and -0.040
of the government -0.032
the secretary of -0.030
it will be -0.029
the federal government -0.029
and it is -0.026
and in the -0.026
at the same -0.026
of our citizens -0.026
the number of -0.025
of the last -0.024
the fact that -0.023
of the union -0.023
in order to -0.022
it is not -0.022
and to the -0.022
it is a -0.022

A bit more interesting than the lost bigram table. "the american people" made it to the top, but "the people of" are on the bottom, suggesting nothing but a stylistic anomaly (or shift) in denoting what is probably the group which is most referred to in these addresses. How "the united states" and "states of america" got to opposite ends is beyond me, though. Much to look into, perhaps during some breakfast after next year's SOTU.

Read Full Post »

הימים ימי סוף הסמסטר, המבחנים נכתבים ונבדקים, העבודות משוכתבות, המאמרים נשלחים לכתבי העת, הסקריפטים רצים ומעבדים את הנתונים מהניסויים, והתירוצים לגבי אי-הבליגה נשפכים כשלג בירושלים. אז מה מעיר את הבולג — עבדכם הנאמן — מרבצו? כשכל העולם ואחותו, ואחותו, שולחים לו את הקישור הבא או הבא או הבא או הבא על שערוריית המתורגמן בטקס האשכבה לנלסון מנדלה אתמול (למיטב ידיעתי, הסיקור הראשוני באתר לא-אפריקאי הובא באתר הבריטי המצוין Limping Chicken). יש שני דברים שאני רוצה לומר בנושא, אחד על ההתרשמות שלי ואחד על הסיקור התקשרותי.

החדשות בקצרה: על הבמה בטקס המכובד עמד אדם שהתיימר לתרגם את הנאומים השונים לשפת הסימנים הדרום אפריקאית. דא עקא שאף אחד לא הצליח להבין אותו, משום שהוא לא באמת סימן בשפת הסימנים הדרום אפריקאית. נראה שמדובר בשרלטן. התאחדות החירשים בדרום אפריקה הוציאה הודעה בעמוד הפייסבוק שלה ופירטה מה שגוי: לא רק שהסימנים עצמם לא נכונים, האיש גם לא השתמש בשאר הדקדוק של שפת הסימנים הדרום אפריקאית: שימוש במרחב, הבעות פנים וכן הלאה [קוראים חדשים ירצו לעיין בשני הקישורים הללו או בהודעה של התאחדות החירשים כדי ללמוד מעט על הדקדוק של שפות סימנים]. אפילו את הסימנים המוסכמים לאישים כמו ת'אבו מבקי ונלסון מנדלה הוא לא הכיר. התאחדות החירשים המקומית קבעה: לא מדובר בשפת הסימנים הדרום אפריקאית.

שאלה אחת שעולה היא: האם מדובר אולי בשפת סימנים אחרת? התרשמותי היא שזה לא סביר. כפי שצויין גם בהודעה הרשמית, המשפטים של ה"מתורגמן" היו קצרים למדי והמעברים ביניהם היו חדים ומלאכותיים. לא הצלחתי להבין אם יש חוקיות בין הסימנים, כך ש"נשיא" במשפט אחד הוא גם "נשיא" במשפט אחר. אולי מדובר בשפת סימנים של מיעוט כלשהו, שלא זוכה להכרה מספקת בדרום אפריקה ומעוניין להעלות את הנושא למודעות? מסופקני. מנסיוני המוגבל עם שפות סימנים צעירות, הן עדיין משתמשות באינטונציה (הנגנה) כדי להביע מבנים תחביריים, כמו למשל באמצעות הבעות הפנים שהזכרנו קודם. אני סומך ידיי על התאחדות החירשים המקומית בעניין הזה – לא מדובר בשפת סימנים כלשהי.

הנקודה השנייה שחשוב לי להבליט היא זו: בכמעט כל אתרי החדשות ציטטו את השורה הבאה (כאן בתרגום של 'הארץ'): "יצויין כי שפת הסימנים הדרום אפריקאית היא שפה אחת משותפת ל-11 השפות הרשמיות במדינה." תהרגו אותי, אין לי מושג למה הכוונה כאן. הרי שפת סימנים אינה גירסה של שפה דבוּרה שמשתמשת בסימני ידיים במקום במילים: לשפות סימנים יש דקדוק עשיר משלהן. שפת הסימנים הישראלית אינה גירסה מסומנת של עברית. שפת הסימנים האמריקאית אינה גירסה מסומנת של אנגלית. שפת הסימנים הדרום אפריקאית היא שפת הסימנים הרשמית של כל דרום אפריקה, ללא הבדל אתני, זה כן, אבל אין לזה כל קשר לעובדה שבדרום אפריקה יש 11 שפות רשמיות. ההצהרה התמוהה הזו מיוחסת להתאחדות החירשים, אבל לא הצלחתי למצוא אותה בהודעה רשמית שלהם. שאלתי אותם בטוויטר למה הכוונה ואעדכן כשיחזרו אליי.

Read Full Post »

[טור אורח מאת פרופ' זהר לבנת, ראש המחלקה ללשון העברית באוניברסיטת בר אילן ויו"ר ועדת המקצוע ללשון העברית במשרד החינוך. יתפרסם בקרוב גם ב'הארץ']

כחלק מכוונתו של שר החינוך לצמצם את מספר בחינות הבגרות, הוא צפוי להכריז בימים הקרובים על איחוד בין שני מקצועות הבגרות – לשון וספרות. מאחר שאין מדובר כרגע בתכנית מגובשת אלא בכותרת בלבד, לא ברור אם הכוונה היא לאחד בין הבחינות בלבד, או שמא ליצור מקצוע חדש ומאוחד ולבנות גם תכנית לימודים משותפת.

איחוד הבחינות בלבד הוא רעיון חסר שחר שלא יועיל לאיש ורק יזיק לתלמידים. מדובר למעשה בשתי בחינות באותו מועד, בשני מקצועות הנשענים על דרכי חשיבה שונות לחלוטין ומחייבות התמודדות עם סוגים נפרדים של מטלות קוגניטיביות, במסגרת של בחינה אחת. אין בכך כל יתרון, מלבד האפשרות של השר להוכיח כי "צמצם" את מספר הבחינות.

אם מדובר באיחוד ממשי של שני המקצועות, במסגרת תכנית לימודים משותפת ובהוראה משותפת – מדובר במהלך שיהיה בכייה לדורות, מהלך שידרדר את הישגי התלמידים בעברית לשפל שלא היה כמוהו.

אין חולק על כך שמצב לימודי העברית בישראל הוא בכי רע. אין מדובר דווקא בשאלות של תקינות ושל שיבושי שפה, אלא בעיקר במה שקשור ליכולת הבנה והבעה בכתב ובעל פה. המרצים באקדמיה נדהמים בכל שנה מן הירידה ביכולתם של הסטודנטים לא רק להבין טקסט ברמה אקדמית אלא אפילו לנסח רצף של שני משפטים סבירים ולקשור ביניהם באופן משכנע.

ואין מדובר רק באקדמיה. השליטה בשפת האם היא אחד המפתחות החשובים להצלחה בכל תחומי החיים. היא מהותית ביותר להצלחה במקצועות הלימוד בבית הספר, אך היא גם הכלי המרכזי שבאמצעותו אנו מנהלים את חיינו החברתיים והמקצועיים ומשתתפים בחיים הציבוריים במדינה דמוקרטית. היכולת לנסח טענות ורעיונות, להבין את טענותיהם של אחרים ולהשפיע עליהם באמצעות השפה, יכולת זו אחראית במידה רבה להישגים שאנו משיגים בכל התחומים וליכולתנו להשתתף במעגלי חיים רחבים.

כדי לקדם ולטפח יכולות אלה בבית הספר דרוש זמן: יש צורך בתרגול רב והמורים צריכים לקרוא ולתקן טיוטות שוב ושוב. ועוד לא דיברנו על סוגיית ההבעה בעל פה, שהיום כלל לא ניתן לה מקום בבית הספר. לכל אלה חובה להקדיש שעות הוראה מיוחדות. מזה שנים אנו מבקשים משרי החינוך תוספת שעות למטרות אלה. מניסיוננו אנו יודעים שיש קשר ישיר וברור בין התשומות הלשוניות, כלומר למידת העיסוק בשפה בבית הספר, לבין הישגי התלמידים. בשנים שבהן ניתנו שעות נוספות לעניינים אלה, ההישגים בתחום השפה השתפרו באופן משמעותי. שרי חינוך אחדים היו קשובים לכך ואף החלו להתגבש תכניות לקידום הנושא. הרוחות המנשבות כעת במשרד החינוך מנשבות לצערי בכיוון ההפוך.

לפי כל חישוב אפשרי, ברור כי תכניותיו של השר יביאו לקיצוץ נוסף בכל מה שקשור לידע לשוני ולשליטה בשפה. איחוד של שני המקצועות, או אפילו רק של הבחינות, שלא יהיה כרוך בהגדלה של מספר השעות – יביא בהכרח לכך שפחות שעות יוקדשו לעברית. סוגיה חשובה נוספת היא סוגיית המורים: מקצוע משותף פירושו גם הוראה משותפת. התוצאה הטבעית של המהלך הזה תהיה שהמורים לספרות יידרשו ללמד לשון מבלי שזכו להכשרה מתאימה. דבר זה לא יעלה כלל על הדעת. אין שום מוסד אקדמי בארץ שמכשיר מורים לשני המקצועות יחד, ובמערכת החינוך יש מעט מאוד מורים המסוגלים ללמד את שניהם באופן ראוי.

נושאי הלשון חייבים להישאר בידי אנשי הלשון. לא רק בידיהם של המורים, אלא בעיקר בסמכותם של החוקרים ואנשי האקדמיה המומחים לשפה. תכניתו של השר תפקיע מידיהם את האוטונומיה בתחום זה באופן שיגרום לנזק בלתי הפיך. באופן מפתיע, היא מקודמת בימים אלה מבלי להיוועץ כלל באנשי המקצוע – לא בוועדת המקצוע ואפילו לא במפקח הראשי (מפמ"ר) של המקצוע במשרד החינוך, משום שתפקיד זה אינו מאויש מזה חודשים אחדים. התנהלות זו של המשרד מעידה על זלזול בידע המדעי ועל חוסר הבנה מהו ידע דיסציפלינארי. אני תקווה ששר החינוך יוכיח לנו שאין זה כך ושהוא אינו נגד השפה העברית.

[טור אורח של פרופ' זהר לבנת. אתם מוזמנים לשתף את העמוד הזה עם מכריכם/ן בדוא"ל וברשתות החברתיות: http://wp.me/pzkWR-1gv ]

Read Full Post »

[בלה פוסט אורחת בלה גבי סטנובסקי בלה סטודנט לבלשנות בלה באוניברסיטת בת בלה]

לאחרונה נתקלתי ברשת במספר אלגוריתמים לשוניים מעניינים ומוזרים שהוצעו בשפה האנגלית. עניין אותי לנסות ולשחזר אותם עבור השפה העברית. רשומה זו סוקרת את האלגוריתמים, את הכלים החישוביים אשר נעשה בהם שימוש, ומספקת מקבילה עברית שלהם.

NURBLE

במקור

מן הקומיקס המעולה SMBC של הכותב והמאייר זק ווינר (Zach Weiner). בקומיקס מועלים לא פעם רעיונות מתחומים רבים, חלקם דמיוניים לחלוטין, וחלקם מתבררים כפרקטיים למדי.

באחד הקומיקסים הכותב העלה את הסברה כי ניתן לשפר טקסטים פוליטיים ע"י שינוי כל מילה שאינה שם עצם ל-NURBLE. עוקב טוויטר חרוץ לא איחר להגיב עם תוכנה קטנה שעושה בדיוק את זה – מקבלת טקסט, ומחזירה אותו "מנורבל".

הרעיון לא חמק מעינם של הכותבים של לאנגואג' לוג, אלו התייחסו בפוסט שבו הוצעו מספר "מנרבלים" נוספים.

איך זה נעשה

התוכנה הקטנה ששלח העוקב (שנכתבה בשפת PHP) עושה שימוש במשאב חיצוני – קובץ המכיל מאגר מילים וחלק הדיבר שלהם. התוכנה עוברת מילה-מילה על הטקסט אותו יש לנרבל, ובודקת לפי המאגר האם המילה היא שם עצם או לאו – בהתאם היא מחזירה Nurble, או את המילה עצמה.

התוצאה

מעניינת ומשעשעת למדי, ניתן להתרשם באותו הקומיקס מהרצה של האלגוריתם על נאום המצב לאומה של אובמה. באופן מפתיע ניתן להבין את רובו, גם כאשר הרוב המוחלט של המילים "מנורבל".

בעברית

כפי שראינו התוכנה המקורית עשתה שימוש במאגר מילים ממשאב חיצוני. למיטב ידיעתי משאב שכזה לא קיים בשפה העברית. בנוסף, כנראה שנטייתה של השפה העברית לעמימות תחבירית יקשה מאד על שימוש במשאב כזה, גם אם קיים. מסיבות אלו נעשה שימוש במתייג – פונקציה אשר בקבלת משפט מחזירה, בין השאר, את חלקי הדיבר של מילותיו (עוד על כך בהמשך) באחוזי ההצלחה מסוימים. בהינתן פונקציה כזו הפתרון למשימה נעשה טריוויאלי – נעבור על כל המשפטים בקלט, נזין אותם למתייג, ונברור את שמות העצם מתוכם.

התוצאה

התרשמו בעצמכם מ"נירבול" נאומו של יאיר לפיד במליאה:

מקור, ולאחר נירבול.

עינכם הרואות – ה"נארבל" עשה עלייה ל-"בלה", לדעתי גם במקרה הזה ניתן להבין את המסר בקווים כלליים.

נסו בעצמכם

אם אתם מעוניינים לבדוק בעצמכם את ההשפעה של הנירבול על טקסטים אחרים, העלתי מדגים של התוכנה (לאחר הכנסת הטקסט, סמנו את האופציה NURBLE).

אתנחתא – מתייגים, מפיגי עמימות ומודלים סטטיסטיים

בתחום הבלשנות החישובית קיימים מספר תחומים ובעיות אשר נחקרו רבות בשנים האחרונות – רובן בעיות בסיסיות אשר פתרון שלהן יהווה בסיס כמעט לכל מערכת אשר רוצה לעשות שימוש בשפה טבעית. בין אלו ניתן למצוא: תיוג חלקי דיבר (Part Of Speech Tagging), זיהוי ביטויים שמניים (NP Chuncking) וזיהוי ישויות (Named Entity Recognition). קל לראות כי אלו הן אבני הבסיס למשימות "מורכבות" יותר, דוגמת ניתוח תחבירי (Parsing), תרגום מכונה, סיכום אוטומטי, ועוד.

בניגוד למשימות ה"מורכבות", במשימות בסיס אלו קיימת לרוב הסכמה בין דוברי השפה לגבי הפלט הרצוי. כך, כל דובר שפה עברית יסכים כי חלק הדיבר של המילה "רץ" במשפט "גל רץ הביתה" הנו פועל (Verb), בעוד שספק אם קיימים שני אנשים שונים אשר יסכמו את הרשומה הזו לכדי אותו סיכום.

כמובן שבעיות אלו הנן תלויות שפה עד מאד, והאלגוריתמים אשר מנסים לפתור אותן חייבים להתייחס למאפייניה הייחודיים של השפה אליה הם מכוונים פתרונן. למשל אופייה הצירופי (word agglutination) של השפה העברית עלול להקשות רבות על כותבי אלגוריתמים כנ"ל לשפה העברית – אלגוריתמים אלו צריכים להפיג את העמימות באשר היא קיימת לגבי המילים במשפט. אם נסתכל שוב על המילה "רץ" הפעם במשפט "גל הזיז את הרץ למשבצת הסמוכה", ברור כי יש להתייחס למילה רץ בתור שם עצם, בניגוד לפועל שראינו במשפט לעיל – אלגוריתמים אלו יצטרכו לבחור את הפירוש הנכון למילה בהינתן ההקשר המתאים. [ראו גם כאן וכאן – א"ק]

המגמה הבולטת בשנים האחרונות לתקיפת בעיות אלו היא גישה הסתברותית (סטוכסטית). ניתן לייחס זאת להתחזקות כוח המחשוב, לקורפוסים העצומים והבלתי מעובדים (unstructured corpora) של שפה טבעית שמשתמשי האינטרנט מייצרים על בסיס יומיומי, ולאכזבה כללית ממודלים דטרמיניסטיים ו-"שלמים" יותר שהוצגו בעבר.

אלגוריתמים הנוקטים בגישה זו מניחים קיום של מודל כלשהו אשר ממנו מופקים משפטים תקינים בשפה או שבעזרתו ניתן לנתח משפטים בשפה טבעית. כך לדוגמא רשתות נוירונים מניחות קיומו של מודל המפשט את המוח האנושי לכדי נוירונים אשר מופעלים לפי פונקציות הפעלה מסוימות (activation function), ומודלי מרקוב חבויים (Hidden Markov Models) מניחים קיומו של מודל של מכונת מצבים, אשר המעבר בין המצבים תלוי במשפט הקלט ובהסתברות מסוימת.

מודלים אלו נמצאים בבסיס האלגוריתמים הסטוכסטיים. אופיינית, אלגוריתמים אלו יתחילו מתהליך של "אימון" על משפטי קלט משפה טבעית. תהליך זה מטרתו לכייל את הפרמטרים אשר מוטבעים במודל. כך ברשתות נוירונים יכוילו המשקלים אשר ניתנים לכל נוירון, ובמודלי מרקוב חבויים תכוילנה ההסתברויות למעבר בין המצבים.למעשה ניתן לומר כי תהליך האימון מתאים את המודל למשימה הספציפית מולה ניצבים.

לאחר שלב האימון, מפסיקים לכייל את הפרמטרים של המודל ומציגים בפניו משפטים שלא חזה בהם בשלב האימון. בתקווה, המודל אכן יודע להכליל איזושהי תחזית לגבי כלל המשפטים בשפה (או בחלק נרחב ממנה), ולכן יוכל לתת תשובות באמינות מסוימת גם עבור משפטים שלא ראה בעבר.

חלק מן החכמה בכתיבת מערכות שכאלו כוללת את בחירת המודל, אפיון הפרמטרים שלא ישתנו במהלך האימון (לדוגמא, טופולוגיית הרשת במקרה של רשתות נוירונים), ובחירת המאפיינים (features) שיהוו קלט למודל הנבחר.

עבור מימוש שני האלגוריתמים הפשוטים יחסית שמתוארים ברשומה זו, עשיתי שימוש במתייג ומפיג העמימות שנכתב על ידי מני אדלר מאוניברסיטת בן גוריון. משפטים שלמים מן הקלט מוזנים אליו, ובתמורה מקבלים עבור כל מילה בין השאר את חלק הדיבר שלה (בו כבר עשינו שימוש עבור אלגוריתם NURBLE) את הבניין, הזמן, המין, הגוף, ואת צורת הריבוי שלה – בכל אלו נעשה שימוש באלגוריתם הבא שיתואר.

Jailbreak the Patriarchy

במקור

במקרה הזה מדובר בתוסף לשוני מוזר לדפדפן chrome שמתיימר לשבור את הפטריארכיה השלטת ברשת.

התוסף מחליף בטקסט דפי האינטרנט שמות גוף זכריים לנקביים ולהיפך. בנוסף הוא מחפש ביטויים זכריים מסוימים ומחליף אותם במקבילה הנקבית שלהם, ולהיפך. כך לדוגמא "he loved his mother very much" יהפוך ל-"she loved her father very much" ו-"the patriarchy also hurts men" יומר ל- "the matriarchy also hurts women".

איך זה נעשה

לפי תיאור התוסף, נראה כי מדובר במשימת "חפש-החלף" פשוטה יחסית: התוסף עובר על הטקסט בדף, ומחפש ביטויים שנקבעו מראש. ברוב המשפטים אכן מושגת החלפת מין (gender swapping, לפי הכותב), זאת מכיוון שרוב חלקי הדיבר בשפה האנגלית הם ניטרליים מבחינת מין.

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

בעברית

בדומה לאלגוריתם הקודם, נראה כי הגישה שננקטה במקור לא תספק מענה הולם בעברית. נסתכל על הדוגמא שנתנה בחלק הקודם:

  • גל רץ הביתה.
  • גל הזיז את הרץ למשבצת הסמוכה.

נניח כי נבצע משימה של חיפוש והחלפה, ונרצה להחליף את "רץ" ב-"רצה", נקבל:

  • גל רצה הביתה
  • * גל הזיז את הרצה למשבצת הסמוכה

ברור כי זוהי אינה התנהגות רצויה, וכאמור, בשפה האנגלית לרוב לא נתקלים בקשיים שכאלו.

הדרך בה נקטתי לפתרון הבעיה הנה שימוש במתייג שהוזכר לעיל – ממנו דליתי עבור כל מילה בקלט את חלק הדיבר שלה, בהתאם הפעלתי עליה פונקציית החלפת מין. אתאר את הפונקציות עבור חלקי הדיבר שם-גוף ופעלים:

שמות גוף:
בהינתן הידע כי מילה מסוימת היא שם גוף, והעובדה כי שמות הגוף היא קבוצה סגורה וקטנה יחסית של מילים, ניתן להשתמש בטבלה פשוטה ולהמיר "הוא" <-> "היא", "הם" <->"הן" וכיו"ב.

פעלים:
בהינתן הפרמטרים הבאים עבור מילה: בניין, זמן, מין, גוף, ואת צורת הריבוי שלה. ניתן להשתמש בחוקי התחביר העברי, לגזור את השורש ולשתול אותו במקבילה הנקבית / זכרית.
בנוסף לאלו, הכנסתי גם רשימת ביטויים בעלי מין אותם האלגוריתם מחליף, בדומה לתוסף המקורי – "אמא" <->"אבא", "פטריארכיה" <-> "מטריארכיה" ועוד.

התוצאה

מעניינת, אך רחוקה מלהיות מושלמת. אם להמשיך באותו קו של דוגמאות, בחרתי את פוסט הפייסבוק שמשום מה התפרסם בזמן האחרון על ריקי כהן הדמיונית, וזוהי התוצאה: "אני רוצה שנדבר על מר כהן". ניתן לראות כי ביטויים רבים מבלבלים את התוכנה, אולם ברגעיה היפים יוצאים משפטים לתפארת מרב מיכאלי.

נסו בעצמכם

גם בתוכנה זו ניתן להתנסות בהמרת מינו של כל ביטוי העולה על רוחכם – כאן (לאחר הכנסת הטקסט, סמנו את האופציה Jailbreak).

[בלה בלה רשומת אורחת בלה גבי בלה בלה בלה פוסט אורחת בלה צרו בלה קשר בלה בלה דרך הטופס בעמוד בלה בלה]

Read Full Post »

הזמרת והשחקנית מירה עוואד מפרגנת לשלושה חברי כנסת טריים, בדרכה החיננית:

awad0313

שימו לב מה היא אומרת במאמר מוסגר על ח"כ רות קלדרון (ההדגשות שלי):

(הופעתי למען המרכז שלה "עלמא" פעם, שאמנם מלמד דת –ומה לי ולזה– אבל בצורה ליברלית ושוויונית ומבלי להדיר אף אחד על רקע ג'נדר או לאום או דת- ולזה יש לי ועוד איך!)

עוואד לוקחת את הביטוי השגור מה לי ולזה ומייצרת צורה מנוגדת: לזה יש לי ועוד איך. אני תוהה אם מישהו באמת מדבר ככה או שמדובר בהברקה של רגע. קשה למצוא הופעות של הצירופים האלה ברשת, אבל הנה למשל דוגמה אחת של "אני אגיד לך מה לי ולהם", שבאה בתשובה ישירה לשאלה "מה לך ולהם?".

(ובשולי הסטטוס שלה: התעתיקים המאולתרים ר'טאס ואינטיפאדה, והפיסוק שיוצר אווירה משוחררת ולא-רשמית)

Read Full Post »

לקח לי זמן עד שהאזנתי לנאום הבכורה של ח"כ מרב מיכאלי בכנסת, אבל טוב שעשיתי זאת משתי סיבות. הראשונה: מדובר בנאום מעולה ואני ממליץ לצפות בו בזמנכם הפנוי. השנייה: הוא עונה על שאלה ששאלתי את עצמי בעבר, והיא כיצד מדברים בעברית על privilege.

הכי קל להסביר את הכוונה באמצעות דוגמה. לא עוברות 20 שניות ומיכאלי מתארת את המקום שממנו נובעת הביקורתיות שלה: "המקום שבו מצד אחד אני חלק משושלת מייסדת, אבל מצד שני אני אישה. אמנם אישה פריבילגית, אמנם אישה שהיא הנכדה-של, אבל אישה." כלומר מיכאלי מודעת לזכויות-היתר שיש לה, אבל טוענת שהן לא צריכות להסיח את הדעת ממהות דבריה.

בשיח הליברלי/פמיניסטי המילה privilege משמשת לתיאור זכויות-היתר ששכבות מסוימות באוכלוסיה מקבלות, לרוב בכוונה לגברים לבנים [דוגמה]. בישראל השימוש במושג הזה נפוץ פחות, להתרשמותי, מסיבות שמעניין מאוד לדון בהן אבל לא על דפי בלוג זה. על כל פנים, תהיתי בעבר מה המונח בעברית, והנה מצאתי.

אני לא יודע אם בחוגים אחרים משתמשים במונח אחר אבל זה כנראה המונח המועדף על מיכאלי, משום שהיא משתמשת בו פעמיים נוספות: "לקחת אחריות על המקום הפריבילגי" (6:13), "המקום החזק והפריבילגי שלה" (6:55).

Read Full Post »

[זהו פוסט אורח מאת איתמר שפי, שטוען שמרוב שהוא צעיר אין לו איך למלא ביו של שורה.]

כמו כל אירוע משמעותי שמתרחש במדינתנו, גם הבחירות הקרבות עוררו את ההומור הישראלי. נכון, רוב הפוסטים בפייסבוק שקשורים לבחירות היו פוליטיים-מעצבנים-גוררי חסימה, אבל פה ושם גם ראינו גם סאטירה כמו פי 1000 יותר עוצמה לישראל, ובחמישי האחרון (למה הם חיכו כל כך הרבה?) עלה גם עמוד בשם דנד"ש שעדיין לא החלטתי אם הוא סאטירה ימנית או סתם הומור חביב. יכול להיות שאני פשוט לא מספיק מתוחכם בשביל זה.

שם העמוד קורץ לשמה של רשימת חד"ש (לפי מילון הסלנג המקיף של רוביק רוזנטל, שתי המילים נרדפות), ראשי תיבות של "דעתנים נאו-קומוניסטים דמוקרטיים שוויוניים". הפוסטים שם נחמדים, אבל הדבר שבאמת נהניתי ממנו הוא השימוש בערבית ברחבי העמוד.

נתחיל ממה שמתיימר להיות התרגום של שם המפלגה, צמד המילים שמופיע בכל הפוסטים תחת המילה דנד"ש – פטירה אלג'בן, שתרגומו הוא בכלל "עוגת גבינה". אחד מהגולשים דוברי הערבית גם הגיב (בתרגום חופשי) – "עוגת גבינה? איך לך משהו טבעוני?". תמיד חשבתי שטבעונות ושמאל רדיקלי הולכים יחד, אבל אולי זה רק אני.

דנדש

ממש ליד שם המפלגה מופיע הפתק שלה – בעברית, הניקוד חטף-פתח ('כמו שהממשל הציוני חטף את הפת"ח משלטון בעזה', אם להוציא את אחד הפוסטים בעמוד מהקשרו), ובערבית – פתחה, תנועה קצרה שמקבילה לפתח בעברית (יסלח לי יובל אם אני טועה), יחד עם שדה – שהיא דגש חזק, שממש לא הייתי מקביל לחטף בעברית.

יותר קליט מתמנון ענק

יותר קליט מתמנון ענק

ואחרון, מה שנראה כמו סיסמת המפלגה בערבית, אלחמצ – לוחה. אח'ד'

על החלק הזה שברתי את הראש. הפירוש של לוחה הוא לוח, board או plate באנגלית, והמשמעויות הכי נפוצות של הפועל אח'ד' הן לקח את- או נקט (החלטה),שני פעלים שמצריכים מושא בערבית. כנ"ל לגבי כל השימושים האחרים של הפועל שמצאתי, כולל הארכאיים שבהם. הרמז הגיע דווקא מהמילה הראשונה, אלחמצ – חומוס.

מקימי העמוד השתמשו בגוגל טרנסלייט כנראה, וכשplate זה גם "צלחת" בעברית, ממשהו כמו "קח צלחת חומוס" יצא "חומוס – לוח. קח".

99% יותר שמאל לישראל

99% יותר שמאל לישראל

חג דמוקרטיה שמח.

 [היה זה פוסט אורח מאת איתמר שפי. רוצים לפרסם פוסט אורח? יופי. תכתבו משהו ותשלחו לנו.]

Read Full Post »

אנקדוטות אחרונות לפני הבחירות:

  • חברנו אא"א חיבר לא מזמן מילון מקוצר למונחי פוליטיקה ישראלית. יש לי כמה דברים לומר על זה, אבל עד שאכתוב על זה רשומה בטח יקדימו כבר את הבחירות הבאות.
  • סיפור מוזר במיוחד קרה עם קליפ לשיר של הזמר מקס פינק: שיר על בחירות הפך לתשדיר תעמולה אינטרנטי של רשימת מפלגת כלכלה, שהדביקה עליו כתוביות משלה, תמונות של בכיריה ואת הפתק שלה בקלפי. ברשימה עצמה מכחישים וטוענים שמישהו אחר עשה את זה. בכל אופן, הנקודה הלשונית המעניינת היא שבפזמון פינק שר "תבחרו בי" וחוזר על "בי" עוד כמה עשרות פעמים. בשלב הזה הפתק של כלכלה — שאותיותיה פי — מהבהב על המסך.
    הצלילים בּ' ופּ' דומים מאוד (דוברי ערבית רבים משתמשים ב-בּ' משום שבשפתם אין את הצליל פּ'): שניהם מופקים באמצעות הפרדת השפתיים ונשיפת אוויר דרכם, רק ש-בּ' מרעידה את מיתרי הקול יותר (נסו ללחוש בּ' ותקבלו פּ'). פונטיקאים מסוגלים לכמת את המעבר מפּ' לבּ' כפונקציה של פרק הזמן שחולף בין נשיפת האוויר והרעדת מיתרי הקול. רוצה לומר, ההבדל בין בּ' ל-פּ' אינו מוחלט, וזה מה שגורם לאחד להישמע כמו השני לפעמים ולטריק של הסרטון המעובד להצליח. (עוד על פונטיקה כזו כאן, בניתוח שורה משיר של יהוא ירון)
  • סיפור נוסף שצץ אתמול נוגע ליאיר לפיד. לפיד הואשם שכמעט וקרא לאנשי ש"ס 'פרענקים', אבל הוא טען בזחיחות מה שהוא בכלל התכוון להגיד "פרגמנט". סקירה ממצה תוכלו למצוא כאן. האמת היא שאין לי משהו מיוחד לומר בעניין הזה וגם לא ניתוח פונטי מועיל. אני דווקא מאמין ללפיד בנקודה הזו, אבל לא אבזבז עליו ספקטרוגרמות.

וזהו, לכו להצביע מחר. עדיף להצביע לטובים, אבל גם אם לא, העיקר להצביע. וכשתחזרו מהקלפי, מרוצים שמילאתם את זכותכם וחובתכם הדמוקרטית, תוכלו ליהנות מרשומה משעשעת במיוחד שתופיע כאן לסיום עונת הבחירות.

Read Full Post »

לקט תשדירי תעמולה נוסף. לא על הכל יש תובנות לשוניות מעמיקות, כמובן, אבל אתם מוזמנים להמשיך ולדווח על דברים מעניינים בתשדירי הבחירות (פייסבוק/טוויטר/'צרו קשר').

  • העבודה: סתיו שפיר משתמשת במושא פנימי, אחד המבנים האהובים עליי: "כדי שבאמת נוכל לקחת את המדינה הזו בחזרה לידיים שלנו אנחנו צריכים להיות שם, במקומות שבהם מחליטים החלטות" (0:53). זה קצת מסקרן כי בעברית בד"כ מקבלים החלטה ולא מחליטים אותה. ואם מישהו תהה, באנגלית 'עושים' החלטה, בגרמנית 'פוגשים' החלטה ובערבית 'לוקחים' החלטה.
  • בבית היהודי קראו כנראה את הלקט הקודם והולכים על אותנטיות הפעם, עם הרעיון החמוד 'סטטוסו של יום'. רק לא ברור לי אם אלה צילומי מסך אמיתיים, משום שליד חלק גדול מהסטטוסים לא מופיעות שטויות-פייסבוק רגילות כמו "אהבתי" או תגובות (גם בתשדיר הזה וגם בתשדיר ההמשך).
  • חד"ש: התשדיר בסדר גמור, אבל הפסיק בתרגום לערבית מופיע בצד הלא נכון. חוץ מזה, שדא עאמר אומרת (בערבית): "חובתי להשמיע את קולי נגד הפרת זכויות אדם". במקור היא מוסיפה "שמתבצעת בשמי" וזה לא מופיע בכתוביות (0:47).
  • ומחד"ש במעבר טבעי להליכוד/ישראל ביתנו, שמתגאים בחוק חינוך חינם מגיל שלוש (שהתגלגל מיוזמות של תמר גוז'נסקי מחד ויצחק שמיר מאידך – והנה החיבור). ראשית הערה לא-לשונית: התשדיר מציג תמונה של מורה ליד תרגיל בחשבון שחלק מהתשובות בו שגויות (0:30), אבל אני מניח שאפשר לומר שהמורה עומדת לסמן איקס ליד התשובה הלא נכונה. כך או כך זו בכלל לא תמונה של מורה ממערכת החינוך שלנו אלא קובץ מאתר תמונות. גם התמונות שמופיעות ממש לפני כן, כשהתשדיר מתגאה בהורדת מחירי הסלולר, אינן של לא מצביעי ליכוד קלאסיים (0:27). כנראה שב-'הליכוד/ישראל ביתנו' מאוד אוהבים את אתרי התמונות. או כמו שבן לי אמר, חבל שהם לא השתמשו בתמונה הזו וזהו.
    והערה לשונית: קצת מפריע לי שליד הטקסט הגדול "אנחנו גאים" מופיעים הישגים שונים בלי מילית יחס לפניהם, אבל אולי זה רק אני ("אנחנו גאים — צמיחה מהגבוהות בעולם", "אנחנו גאים — גייסנו את העולם לסנקציות נגד איראן").
[ת' לכל מי ששלח]

Read Full Post »

פחות משבועיים נותרו לבחירות ותשדירי התעמולה מציפים את המסך כגשם בעמק חפר. אני חובב תשדירי בחירות אבל היות ואין לי טלוויזיה אני מסתמך על קישורים שאנשים שולחים לי ועל דברים שאני מוצא בעצמי ברשת. לכן, אם אתם רואים משהו מעניין לשונית באחד התשדירים, שימו בבקשה קישור בפייסבוק שלנו או שתשלחו לנו דרך 'צרו קשר' ואנחנו נשתדל להישאר עם האצבע על הדופק. אז אחרי שפירשנו את הערבית של אריה אלדד ומיכאל בן ארי, הנה לקט נוסף. על מנת שלא למלא את העמוד בסרטוני יוטיוב, אף אחד מהתשדירים לא מוטמע כאן אבל כולם נגישים בקישורים.

  • שס: אריה דרעי אומר "אצלנו זה לא הבטחת בחירות" אבל הכתוביות מתקנות אותו ל-"זאת" (0:40). יש לי קטע עם כתוביות שמתקנות את הדובר בכוח (ולפעמים הן אפילו באות לברך ויוצאות מקללות).
  • עוד שס: בסרטון האגרסיבי 'כוכבית גיור' מופיע בחור יהודי תמים מתחת לחופה עם כלתו הסלאבית. שס רומזים שממשלה עם 'ישראל ביתנו' תגייר שיקסעז רוסיות בהרף עין ורק שס תוכל לעצור בעדם. בחתונה עצמה מתנגן השיר 'מברוכ עליכ יא עריס מברוכ' – אני די בטוח ששמעתי אותו בחתונות יהודיות, ולא ברור לי מה שיר בערבית אמור לרמוז כאן.
    באותו תשדיר יש גם טעות כפולה (0:35). הפקס פולט תעודת גיור עבור MARINA IVANOF, שמה של הכלה, אבל זה לא יכול להיות: ראשית, אין F ברוסית, רק במילים שאולות. אמנם מבטאים V סופית בתור ף', אבל למיטב ידיעתי התעתיק הוא תמיד V. שנית, שמות משפחה סלאבים עובדים בצורה שונה מזו שאנשי שס אולי רגילים אליה. בגלל שמדובר במקרה הזה בשם המשפחה של אישה, הוא להיות איבאנובה ולא איבאנוב. אלא אם שס מנסים לרמוז שב-'ישראל ביתנו' לא יודעים רוסית, אבל אני בספק אם זו היתה המטרה.
  • הבית היהודי: איילת שקד, אורי אורבך ונפתלי בנט מבטיחים תשדיר בחירות כנה וישיר, בלי להשתמש בכל הטריקים הישנים ובלי ללכלך על יריבים אלא רק להגיד במה הם באמת מאמינים. אבל העברית שלהם בתשדיר הזה היא ללא רבב, בצורה שנדיר מאוד למצוא בימינו: "נראֶה לכם" (ולא נראָה), הגייה תקנית של ו"ו החיבור, הגייה נכונה של אותיות בג"ד כפ"ת (או לפחות בכ"פ), וכן הלאה. אותנטי.
  • בל"ד: ולסיום, התשדיר הזה נפסל כי הוא "מגחיך את ההמנון". הכתוביות טובות אז אין לי מה להוסיף עליהן. לחובבי ההמנונים המגויסים ובשביל טעם של פעם, נזכיר את גירסת הטראנס של 'עלה ירוק' להמנון מ-1998.
שמתם לב למשהו ששווה לנתח בתשדירי התעמולה? הלשינו כאן בפייסבוק או דרך 'צרו קשר'.

Read Full Post »

Older Posts »