Feeds:
רשומות
תגובות

Archive for the ‘מהנעשה בעירנו’ Category

שטף תשדירי התעמולה תפס אותי לא מוכן השנה, ואני מודה שהתקשיתי לעמוד בקצב הדאחקות של ביבי ושות'. אבל שני סרטונים של הרשימה המשותפת מעלים על ראש שמחתנו את תופעת הדיגלוסיה: ההפרדה בין שפה תקנית לשפה מדוברת.

בסרטון החביב הבא מגיעים מנהיגי שלל מפלגות בזה אחר זה ומציקים למשפחה הממוצעת באמצע ארוחת השבת, עד שמגיע אימן עודה מהרשימה המשותפת ועושה סדר. כשאב המשפחה מציע לו כיסא, עודה משיב: "תביא חמישה עשר כיסאות" (חמישה עשר מנדטים). אבל מי אומר "חמישה עשר" בימינו? עודה אומר.

זה לא מקרה שדווקא הערבי, "האחר", מדייק בהתאמה במין ובמספר. רבות כבר נאמר בנושא, במיוחד בהתייחס לשפתו של זוהיר בהלול, ולא איכנס לעניין כאן. באופן כללי נראה שמדובר בשילוב בין החובה שחלה על תלמיד ערבי להצטיין במיוחד בשביל להגיע להישגים כלשהם בחברה היהודית, עם איזושהי התרסה שדווקא מי שמגיע מבחוץ מדבר עברית מדויקת יותר מהיהודי. אפשר להתחיל למשל עם הראיון הקצר הזה עם בהלול (שלא נכנס לפן הפוליטי-החברתי).

בסרטון נוסף של הרשימה המשותפת אנחנו עוברים לערבית וזוכים לראות הפרד קלאסית בין עברית מדוברת לערבית ספרותית:

מה שמשך אותי במיוחד הוא העובדה שהדרדסים משוחחים בערבית מדוברת מקומית, בעוד ליברמן ובנט מדברים בערבית ספרותית (ונדמה לי שהמבטא של בנט "משוכנז" מעט). בדקתי בכמה סרטונים מדובבים לערבית של הדרדסים באינטרנט, וזו לא הפרדה שקיימת במקור בין הדרדסים וגרגמל: בטלוויזיה כולם מדברים בספרותית. מצד אחד, אני מניח שהדרדסים אמורים להישמע אותנטיים יותר ואילו ליברמן ובנט ממסדיים ומנוכרים. מצד שני, אני לא חושב שבת דמותה של יונית לוי אמורה לעורר אנטגוניזם מיוחד.

ואם הדיגלוסיה היא הדבק שמחבר בינינו, דיינו.

[ת' לשי. ועכשיו יאללה להצביע]

Read Full Post »

סערה זוטא התחוללה לאחרונה בבית היהודי בשולי הנסיון לצרף את אלי אוחנה לרשימה. ח"כ זבולון כלפה, אחד מאנשי מפלגת תקומה שרצה במסגרת הבית היהודי, התפטר מהמפלגה על רקע שריונו של אוחנה. כלפה שלח מכתב התפטרות ליו"ר המפלגה, ח"כ אורי אריאל, והמכתב צוטט בצורה כזו או אחרת בכלי התקשורת.

למה אני אומר "כזו או אחרת"? כי נפלו כמה שגיאות מעניינות במכתב כפי שצוטט, ואי אפשר בדיוק לדעת אם השגיאות במקור אצל כלפה או אצל התשקורת. בין היתר מצוטט ח"כ כלפה בתור מי שאמר ש:

(1) אני חושב שמישהו איבד את המצפן
(2) טוב לעשות גירושים לפני שיש ילדים
(3) זה לא רק גשם שיורד אלינו, זו יריקה
(4) אי אפשר לומר שכלום קרה

בהארץ ובהבהחדרי חרדים אפשר למצוא את כל הארבעה, אבל חדרי חרדים תיקנו את "גירושים" ב-(2) ל-"גירושין". בכיפה ובכיכר השבת גם אפשר למצוא את כל הארבעה אבל בלי הפסיק ב-(3). בחרדים10, להבדיל, מצטטים מכתב שונה בגוף הכתבה אבל כן מצטטים את (3) בכותרת המשנה.

נניח שלפחות חלק מהשגיאות הופיעו במכתב המקורי, אבל יכול גם להיות שאתרי התקשורת לא הקפידו על ציטוט מדויק של המכתב. בואו נחזור לדוגמאות (1)-(4) ונראה מה קורה בהן.

(1) איבד את המצפן: כמעט עירוב ביטויים. הביטוי המקובל הוא איבד את הצפון, אבל מי שמנהיג אמור לנווט בעזרת מצפן. ישנו גם מצפן מוסרי, שאילה אפשרית מאנגלית.

(2) גירושים / גירושין: שתי הצורות תקינות. הוועדה למונחי דמוגרפיה של האקדמיה ללשון העדיפה את הסיומת העבריתים על פני הסיומת הארמית –ין, אך שתיהן תקפות (רק איך אומרים דמוגרפיה בעברית?).

(3) הגשם יורד עלינו ממעל, לא אלינו. אין לי הסבר לבחירה ב-(3). זו יכולה להיות שגיאת כתיב (עם אל"ף במקום עי"ן) וזו יכולה להיות בחירה במילת יחס לא נכונה.

(4) גם כלום קרה זה מוזר. הרי בעברית יש שלילה כפולה וצריך לומר "כלום לא קרה". אולי אפשר להבין את (4) יותר בקלות אם מדגישים את "כלום": אי אפשר לומר שכלום קרה, הרי משהו קרה.

שיהיה ברור, כבלשן אני לא מחפש ללעוג לשגיאות של ח"כ כלפה. אני יותר סקרן לדעת מה הגורם לשגיאה, כי השגיאות של היום הם הדקדוק של מחר. באותה מידה מסקרן גם לדעת האם השגיאות הן באמת שלו או של אמצעי התקשורת השונים: למה להוסיף או להוריד פסיק? למה לשנות את "גירושים" ל-"גירושין"? ובאיזה מקרים מותר להחריג את הציטוט מהמבע המקורי?

[ת' לאורה]

Read Full Post »

אני מאוד אוהב את עונת הבחירות, גם כי לכמה חודשים כולם מתעניינים בפוליטיקה וגם כי יש תשדירי בחירות. ואיפה שיש תשדירי בחירות יש שימושים יצירתיים בשפה.

את יריית הפתיחה לסיקור שלנו נותן נפתלי בנט עם תשדיר נגד פרופ' יוסי יונה, מועמד ברשימת ההעבודה/ההתנועה/ההמחנה הציוני/אמת. בואו נניח שאין כאן הסתה של ממש אלא סתם תשדיר בחירות בטעם רע ונראה מה ניסו בבית היהודי לעשות.

הסרטון נקרא "يوسي يونا هو شقيق", או פונטית "יוסי יונה הו שַׁקִיק". מה זה שקיק? בגדול המשמעות היא 'אח', אבל תיכף נחזור לזה. בואו נבחן את הטקסט קודם. הנה הוא לנוחיותכם:

אין היבדל בין יום השואה היאהודי ליום הנכבה הפלסטיני
כול הכבוד לחיילים הציונים המיסרבים לישרת בשטחים הכבושים
אני מיתפלל ליפינוי נוסף שילכם מיבתייכם
כול עוד יהייה כיבוש, יהייה טרור
טלי פחימה היא פיעילת שלום אמיצה

הסרטון רומז לסרטוני תעמולה של החמאס, על עבריתם הקלוקלת. איך ניסו בבית היהודי לחקות עברית קלוקלת? תתרשמו בעצמכם: אין שום שגיאות בטקסט הזה. למשל, יש התאמה נכונה בין נושא לנשוא. הסיבה שהעברית מדויקת היא כנראה כי אלה אמורים להיות ציטוטים ישירים מפי פרופ' יונה עצמו. מה כן יש? נראה שקופירייטרי הבית של הבית לקחו שק מלא באות יו"ד (או אולי שקיק?) ופיזרו בנדיבות מעל הטקסט: היבדל, המיסרבים, ליפינוי, פיעילת, וכן הלאה. האם אנשים שערבית שפת אמם ושמדברים עברית כשפה שנייה לצרכי תעמולה מוסיפים חיריק בכל מקום? או מאריכים צירה? אני חושב שהתשובה שלילית, אבל נותיר את זה כתרגיל בבלשנות קורפוס לקוראים הסקרנים.

הלאה: לא סתם הוספנו אמות קריאה כאן. אמנם יש היאהודי, אבל אין הנאכבה או טאלי פאחימה. אני חושב שזה בגלל שעורכי התשדיר לא רצו שחס וחלילה נפספס איזו נקודה. הקורא הממוצע יכול להבין מה זה יאהודי, בין היתר כי בערבית יש פתח ביו"ד: "יַהוּדי". אבל אם נכתוב נאכבה או טאלי, מילים שתדירות הופעתן נמוכה יותר, יכול להיות שהמסר יתפספס. וזה כמובן יהיה חבל.

נחזור עכשיו לכותרת: את המילה شقيق "שׁקיק" בהחלט אפשר לתרגם 'אח', והכוונה היא להנגיד בין "נפתלי בנט הוא אח" ובין "יוסי יונה הוא אח (של החמאסניקים)". אבל יש כאן כשל בתרגום: בעוד המילה أخ "אח" משמעה אח ביולוגי או רוחני כמו אצל 'האחים המוסלמים', שקיק משמעה כמעט תמיד אח ביולוגי. מטעמי דדליין לא הספקתי לבדוק עם דובר ילידי, אבל כפי שמסביר המילון הערבי של ווהר (אני מתרגם מאנגלית), "שקיק" משמעו "אח 'שלם' [בניגוד לאח למחצה – א"ק], אח הן מצד האם והן מצד האם; (כתיאור) אחי-, אחות-". יש כמובן יוצאים מהכלל: "الدول العربية [מדינות ערב – א"ק] מדינות-אחיות (בעיקר בהתייחס למדינות ערב).

המילה "שקיק" מביעה את ההיפך ממה שהמילה "אח" מביעה בהקשר הזה, שהרי אח ביולוגי יכול להחזיק בדעות מנוגדות לאלה שלך, אבל אח רוחני הוא בעל דעות דומות. למה בכל זאת הלכו בסרטון על "שקיק" ולא על "אח"? אולי כדי לא לבלבל את הצופים המסכנים (שוב): אם גם יוסי יוני זה "אח", וגם נפתלי בנט זה "אח", איך נדע למי להצביע?

על כל פנים, בלי קשר למי נצביע, אני מתרגש לקראת הבחירות הקרובות. נזכיר כאן שאתם מוזמנים לשלוח לנו ציטוטים וסרטונים שיש בהם קוריוז לשוני בשולי מערכת הבחירות, ובתמורה נשריין אתכם במקום לא-ריאלי.

Read Full Post »

באזור הדמדומים שבין תל-אביב לגבעתיים נתקלתי בפוסטר הבא:

wpid-20150105_102011-1.jpg

שומר נפשו יו!

נתקלתי ונאלמתי דום, משום שלא הבנתי מה הקשר בין השאלה לתשובות. למעשה, לא הבנתי האם ועד כמה דיסקונט גנבים. אסביר.

הכרזה מכריזה: "סקר לציבור הרחב יקבע האם דיסקונט גנבים?" ומבקשת "סמן X לתשובה הנכונה". עקרונית סימן השאלה מיותר, שהרי מדובר בציטוט עקיף, אבל לא נורא. מה שחשוב הוא שעל פניו, יש לנו עסק עם שאלת כן/לא: או שדיסקונט גנבים, או שדיסקונט לא גנבים (יש טיעונים לכאן ולכאן, ומכיוון שאנחנו בלוג הבלשנות דגש קל ולא בלוג הבנקאות כסף קל לא ניכנס אליהם).

אלא שהתשובות האפשריות הן:

(1) הרבה מאוד גנבים
(2) המון גנבים
(3) רק גנבים
(4) כל התשובות נכונות

בואו נראה מה בעצם אומרות התשובות האלה. (3)-(1) הן קביעות לגבי כמות הגנבים מתוך עובדי בנק דיסקונט וכולן מעלות את השאלה הבאה — מה אחוז הגנבים מתוך כלל עובדי בנק דיסקונט כך שהתשובה תהיה נכונה? למשל, ניתן להניח שאם 20% מעובדי הבנק הם גנבים, זה אחוז שערורייתי. במקרה כזה גם (1) וגם (2) נכונות. למעשה, לא ברור מתי יש הבדל בין (1) ל-(2): מה בעצם ההבדל בין הרבה מאוד ל-המון? רק עניין של משלב?

את (3) קל יותר לכמת: 100% מהעובדים צריכים להיות גנבים כדי ש-(3) תהיה נכונה. ברגע שעובד אחד אינו גנב, אי אפשר לומר שבדיסקונט עובדים רק גנבים.

תשובה (4) אפשרית ומהווה דוגמה למה שנקרא אימפליקטורה סקלארית: אני יכול לומר שבדיסקונט יש הרבה מאוד או המון גנבים, בהתאם לתשובות (2)-(1) — ואז תחשבו שיש אולי 20% או 60% — אבל להמשיך ולומר "בעצם, כולם שם גנבים" בהתאם לתשובה (3). לא ממש סתרתי את עצמי: כשאמרתי שיש "הרבה" גנבים (20%) השתמע שאין מספיק בשביל "רק" (100%), אבל המשכתי על הסקאלה עד שהגעתי ל-100% של "רק".

עד כאן הכל טוב ויפה, הבנו מה ההבדלים בין התשובות השונות ואפשר לעצור כאן. אבל לי עלתה מחשבה אחרת: שאנחנו בכלל לא מדברים על כמות כאן, אלא על אופן או מידה. במילים אחרות, השאלה היא לא "כמה מעובדי בנק דיסקונט הם גנבים", אלא "אנחנו יודעים שהבנק הוא ישות גנבה, עכשיו בואו ניתן לגנבוּת שלהם ציון". הפירוש הזה מתאים יותר לשאלה המקורית בכרזה, ופרגמטית נראה לי שזו היתה הכוונה. הבעיה היא שזו תחושת בטן שקשה למצוא לה סימוכין. דמיינו שהשאלה היתה "האם דיסקונט הגונים?" והתשובות האפשריות היו:

(5) מאוד הגונים
(6) נורא הגונים
(7) הכי הגונים
(8) כל התשובות נכונות

תשובות כאלה אפשריות מפני ש-הגון הוא שם תואר (או שם עצם, תלוי) שאפשר להגביר באמצעות תארי פועל כמו מאוד, נורא, ממש, קצת וכן הלאה. אם ננתח כך את "גנבים" ניאלץ לומר שני דברים. ראשית, ש-גנב הוא שם תואר במקרה הזה, ושנית, ש-הרבה מאוד, המון ו-רק יכולים לשמש כתארי פועל. מתחשק לומר שהראשון לא נכון והשני לא יהיה, אבל בואו נראה.

לא יהיה בעייתי מדי לפרש את גנב בתור תכונת אופי, להבדיל ממקצוע. השאלה היא אם יש סקאלה של גנבוּת. שוב, תחושת הבטן שלי היא שכן אבל לא מצאתי דוגמאות טובות ברשת. לגבי הנקודה השנייה, גם הרבה מאוד וגם המון אפשריים כלוואי לשמות תואר בעברית עכשווית. ההדגשות שלי:
"עצוב וזהו. הרבה מאוד עצוב, בלי עצות, בלי השגות, בלי "אבל מה עם…?". ככה. זה מה יש." [מקור]
"ראיתי אתמול את ההקרנה (לנשים, אצלנו הגבילו כניסה מגיל 18). מטלטל, עוצמתי, מרגש (והמון המון עצוב), ובעיקר יוצק אמונה בכמויות." [מקור]

חיפשתי בינתיים רק עם התואר עצוב ויהיה מעניין לראות אם התופעה מתפשטת לתארים אחרים (עוד על שילובים מפתיעים בין שמות ולוואים כאן וכאן). השורה התחתונה היא שאפשר לדעתי לומר על אדם מסוים שהוא לא סתם גנב, הוא המון גנב או הרבה מאוד גנב או קצת גנב. אני חושד שזה הרעיון שניסוי להעביר בכרזה, אבל בגלל שעדיין מדובר בשימוש לא נפוץ בשפה, קשה לי להגן על הניתוח הזה כרגע.

אז מה המסקנה מכל הדיון הזה לגבי סקאלות ותארים? הכרזה מכמתת גנבים או מאייכת גנבוּת? כל התשובות נכונות.

Read Full Post »

אורה פלד נקש ספק-שואלת-ספק-מלשינה בקו החם של טוויטר: "יואל מרקוס נופל בפח השלילה הכפולה?". כך כתב מרקוס כשנכנסו לטהר ויצאנו מטוהרים (ההדגשה שלי):

2. כל אימת שאנו מצויים בעימות צבאי, נוצרת אותה בעיה: אנו יודעים איך מתחילים, אך לא יודעים איך יוצאים. או שיוצאים מוקדם מדי ולטווח קצר מדי. דבר אחד צריך להיות ברור הפעם. א': לא יוצאים מעזה בלי שאנו יודעים בוודאות שלא נוטרלה אחרונת המנהרות. ב': צריך לפעול למען פירוז עזה מטילים. יש נטייה לשכוח שעזה אינה ישות עצמאית, אלא מפלגה־תנועת טרור בשם חמאס, שהשתלטה על חלק מהטריטוריה הפלסטינית. האם מישהו מעלה בדעתו, שאופוזיציה כלשהי, בצרפת למשל, היתה תופסת טרירטוריה מסוימת ומשליכה את שוטרי הרפובליקה מהגגות ומשתלטת כך על חלק מהמדינה?

אורה מתכוונת לתופעה המתסכלת שבה מרוב שלילות לא רואים את היער. לתופעה הזו אפשר לקרוא שלילה כפולה או שלילה שגויה והיא תועדה יפה על ידי עמיתיי לבליגה (במיוחד פינטר) שתיעדו יותר שלילות כפולות מאשר יש לנו מלחמות בעזה.

שלילות רבות ומרובות מתקילות את מרקוס בפיסקה הזו, משל היו שאלות על המצב שמופנות לראש הממשלה במסיבת עיתונאים דמיונית. ובכן. למה התכוון המשורר? טוב, ברור למה הוא התכוון: שהתנאי ליציאה מעזה הוא כזה — אין יותר מנהרות. טיהרנו את כולן. אבל האם זה באמת מה שמרקוס כתב? בואו נבדוק. העניין מסובך במיוחד משום שיש כאן שתי פסוקיות: זו שמתארת מה שאנחנו יודעים, וזו שמתארת את מה שקרה בשטח.

יוצאים כשיודעים בוודאות שנוטרלה אחרונת המנהרות – יוצאים מעזה אחרי שווידאנו שהמנהרות נוטרלו כולן.
יוצאים בלי שאנו יודעים בוודאות שנוטרלה אחרונת המנהרות – יוצאים בלי לוודא שהמנהרות מנוטרלות.
לא יוצאים בלי שאנו יודעים בוודאות שנוטרלה אחרונת המנהרות – יוצאים אחרי שווידאנו שהמנהרות נוטרלו כולן.

אבל עכשיו, חזיז ורעם, צצה לה שלילה בפסוקית המשועבדת.
לא יוצאים בלי שאנו יודעים בוודאות שלא נוטרלה אחרונת המנהרות – יוצאים אחרי שווידאנו שהמנהרות לא נוטרלו כולן.

כמעט! אבל שלילה אחת מיותרת הביאה למשמעות הפוכה. לא נורא, ננסה שוב בשנה הבאה.

[ת' לאורה]

Read Full Post »

יובל דרור, בבלוגו 'הגלוב', חונך את 'פרויקט מפעול צה"ל'. במסגרת המלחמה העתית בעזה מסר לאחרונה דובר צה"ל שמערכת ההתרעות "מסר אישי" אינה מבצעית, וליתר דיוק: "בשלב זה מערכת מסר אישי איננה מבצעית, בימים אלה נעשות פעולות למבצועה".

דרור הסתער בהתלהבות על שם הפעולה מִבצוּע ומיהר להציע כמה משלו. אם תקראו אותם תראו בוודאי שכמה נשמעים טבעיים יותר וכמה טבעיים פחות. ויש לכך סיבה. הנה ההצעות של דרור, אחת אחת, עם הערותיי.

  1. המערכת עדיין לא חשאית אבל אנחנו עובדים על החשאתה.
    נשמע סביר. בגוגל אפשר למצוא הופעה אחת של המונח החשאה, בהקשר להצפנה.
  2. לא ניתן לספק את הנשק באופן מיידי אבל אנחנו עובדים על המיידתו.
    הברה שנפתחת ביו"ד עיצורית אינה פופולרית בעברית של ימינו, אלא לפני שורוק בשם הפעולה של בניין פיעל: מיון (שתי הברות: mi.yun) אבל לא *המיינה, ביוץ אבל לא *הבייצה, טיוח אבל לא *הטייחה, סיור אבל לא *הסיירה. לכן לא נאמר *המיידה. מה לגבי מיוד? מי יודע.
  3. הפלוגה עדיין לא מספיק מקצועית אבל אנחנו פועלים למיקצועה.
    נשמע סביר, ואכן קיים בלשון הצה"לית כפי שמודיעים המגיבים בפוסט המקורי.
  4. בשלב זה אין בידינו מספיק נתונים כדי לבנות מערכת אבל אנחנו עובדים על המיערוך.
    לא משהו, אבל נסבל. שימו לב שגם כאן וגם בסעיף הקודם דרור עבר מבניין הפעיל לבניין פיעל, משום שבניין פיעל מסוגל להכיל שורשים מרובעים (מ.ק.צ.ע ומ.ע.ר.כ).
  5. הטירונים עדיין לא יודעים לעשות פזצטא ומשום כך החלטנו לפזצטא את כל הפלוגה.
    איום ונורא, לא? קודם כל, שורש מחומש הוא דבר נדיר למדי בעברית. בנוסף, העיצורים המיוצגים על ידי האותיות ז', צ' וט' דומים מאוד אחד לשני ולא מסוגלים לדור בכפיפה אחת בלי תנועה כלשהי שתפריד ביניהם. אי אפשר לומר *לְפַּזְצְטֵא ובמקום זה צריך לומר משהו כמו "לְפַּזַצְטֵא". אבל זה כבר נשמע פשוט כמו מילת היחס ל– לפני המילה פזצטא (וכך כנראה נוצא שם הפעולה בעבר, אבל זה כבר סיפור אחר). בנוסף, יש הרבה הברות: ל.פ.זצ.טא. אמנם שמות פועל בני ארבע הברות קיימים בעברית, אבל הם נחלתו של בנין התפעל (ל.הת.פו.צץ, ל.הת.בר.בר). ודבר אחרון, העיצור האחרון יתנגש עם ההטיות בגוף ראשון ושני: פזצטתי? פזצטתם? אפשר לחשוב על פועל בבניין קל (פזצתי), אבל פועל בבניין קל לא יקבל שם פעולה של בניין פיעל. במילים אחרות, שם הפועל לפזצטא אינו בלתי אפשרי, אבל צפוי לו קרב קשה. שימו לב שעברנו כאן משמות פעולה (החשאה, המיידה) לשמות פועל (לפזצטא) אבל העקרונות דומים.
  6. ידע כל חייל לקטבג את קיטבגו.
    נשמע סביר. לא יודע למה זה לא תפס עדיין – אולי לא מדברים בימינו על קיטבגים כל כך? עוד כשהייתי בטירונות, לפני כמעט עשור ומשהו, המילה קיטבג לא היתה נפוצה מדי.
  7. לא לכל האנשים יש מקלט ולא בכל המקומות האזעקה עובדת אבל אנחנו עובדים על מיקלוט ואיזעוק כל הישובים.
    מיקלוּט נשמע סביר והמגיבים בפוסט המקורי מדווחים שהם כבר נתקלו בשם הפעולה הזה.
    איזעוק גם נשמע סביר ואני לא יודע למה שם הפעולה הזה לא נוצר עדיין. אולי הסיבה אינה פונולוגית אלא סמנטית: מה זה בעצם לאזעק? לחמש באזעקה? למקלט מקום מסוים משמעו שיהיה שם מקלט, אבל אזעקה מושמעת מעל מרחב מסוים ולא במקום ספציפי, ולכן אפשר למקלט ישוב מסוים אבל אי אפשר לאזעק ישוב אחד בלי לאזעק גם את האזור הקרוב לו.
  8. הרמטכ"ל הבטיח כי לאור מטחי הרקטות מצד חמאס, יגיב צה"ל במלוא עוצמת ההמטחה. "נמטיח אותם", ציין.
    נשמע טוב, וגם כאן אני לא יודע למה לא נוצרה עדיין מילה כזו. אולי אין בה צורך כי מובן מאליו שאין לנו שום תגובה מוכנה מלבד המטחות.

שאלה אחרת היא למה להעדיף את המטחה בבניין הפעיל על פני מיטוּח בבניין פיעל. בעברית יש כלל מורפו-פונולוגי חשוב ביצירת פעלים חדשים, כלל שנוגע לבחירה בין שני הבניינים. הכלל הפונולוגי הוא כזה: אם הפועל נגזר משֵם, נרצה לשמור על מבנה ההברות מהמילה המקורית. למשל, שווִיץ לא הפך לפועל *שיווץ אלא לפועל השוויץ, משום שבמילה המקורית יש את צרור העיצורים "שוו" ובניין פיעל מפרק את הצרור הזה באמצעות תנועה. לכן העדפנו ליצור פועל בבנין הפעיל, שלא מכניס תנועה בין פ' הפועל (במקרה הזה, "ש") ובין ע' הפועל (במקרה הזה, "ו" עיצורית): הש.וויץ ולא שי.ווץ. ישנן גם מגבלות סמנטיות: פעלי "גרימה" יהיו לרוב בהפעיל ולא בפיעל (המרדה ולא מירוד, למשל). וכל זה מתועד יפה בין היתר בעבודתו של ליאור לקס, שמתבססת מצדה על מחקריהם החשובים של אותי בת-אל, עוזי אורנן ורבים אחרים.

Read Full Post »

(First posted on Language Log as a guest post)

Reading Mark Liberman's analysis of Obama's SOTU addresses versus other presidents', my thirst remained unquenched. Word-counts are fun, sure, but the real fun comes in when looking at longer phrases – two (bigrams) or three (trigrams) words long.

After waiting for it to be breakfast time in Philadelphia, I engaged in an experiment (Legal has advised me against explicit use of MYL's trademark phrase) to analyze the 228 addresses (found here) and see what Obama's favorite (and least-favorite) phrases are.

Since I worked with raw data, I handled it a bit differently than previous analyses just for the sake of getting results fast. To begin with, I did not weed out the non-orally-delivered addresses or any other "special" cases. Next, I used an unsophisticated tokenization algorithm where all apostrophes break words into tokens (so "Congress's" is split in two, as in Liberman's analysis, but same goes for "i'm" and "he's"). Lastly, I used a comparison algorithm which only takes into account Obama's speeches and all addresses (1790-2014) as "background": the KL measure, which purports to tell us how "informative" the phrase is in the Obama corpus relative to the background corpus.

Let's get to it: here are Obama's most unexpectedly frequent bigrams:

bigram KL-measure X 1000
that 's 3.284
it 's 2.463
let 's 2.022
don 't 1.545
i 'm 1.540
we will 1.408
's why 1.375
we 're 1.278
we 've 1.253
can 't 1.147
right now 1.092
clean energy 0.960
i will 0.946
if you 0.931
need to 0.925
we 'll 0.907
we can 0.902
is why 0.883
jobs and 0.848
's what 0.844
health care 0.842
tonight i 0.825
our economy 0.813
's not 0.736
middle class 0.696

We see many stylistic markers here, such as the contracted forms "'s", "'re" and "'ll", which will probably re-appear in any modern president's lingo (with not much to support either the egocentric-Obama or collective-Obama hypotheses), but these expected bigrams greatly emphasize the magnitude of the more content-swayed ones: "our economy", "middle class", "health care" and the number one issue on Obama's plate (at least according to Kullback and Leibler): "clean energy".

Obama's most unexpectedly infrequent bigrams: (for these, I still only took phrases which appeared somewhere in Obama's addresses)

bigram KL-measure X 1000
of the -2.388
to the -0.941
in the -0.896
for the -0.529
and the -0.494
by the -0.446
it is -0.397
PAR the -0.392
united states -0.389
the united -0.388

And the rest is just as boring. We've seen "the" is on the decline, and it drags down all its associated bigrams with it.

Moving on. Favorite trigrams: ("PAR" marks the beginning of a paragraph)

trigram KL-measure X 1000
that 's why 1.191
that 's what 0.750
that is why 0.640
democrats and republicans 0.549
we need to 0.526
it 's not 0.495
this congress to 0.432
PAR that 's 0.426
the american people 0.413
i will not 0.406
so let 's 0.405
tonight i 'm 0.399
we can 't 0.391
states of america 0.369
it 's time 0.353
across the country 0.336
's why i 0.325
's why we 0.324
over the last 0.319
over the next 0.313
we have to 0.312
i took office 0.312
i know that 0.310
's time to 0.304
PAR of course 0.304

So the top three are explanation starters, but check out "democrats and republicans" creeping in to a bipartisan content-lead. And you may take what you will from number 25, beginning paragraphs with "of course".

Least favorite trigrams:

trigram KL-measure X 1000
the united states -0.375
of the united -0.134
of the country -0.054
part of the -0.048
as well as -0.046
the people of -0.044
of the people -0.044
PAR it is -0.043
united states and -0.040
of the government -0.032
the secretary of -0.030
it will be -0.029
the federal government -0.029
and it is -0.026
and in the -0.026
at the same -0.026
of our citizens -0.026
the number of -0.025
of the last -0.024
the fact that -0.023
of the union -0.023
in order to -0.022
it is not -0.022
and to the -0.022
it is a -0.022

A bit more interesting than the lost bigram table. "the american people" made it to the top, but "the people of" are on the bottom, suggesting nothing but a stylistic anomaly (or shift) in denoting what is probably the group which is most referred to in these addresses. How "the united states" and "states of america" got to opposite ends is beyond me, though. Much to look into, perhaps during some breakfast after next year's SOTU.

Read Full Post »

Older Posts »