Feeds:
רשומות
תגובות

אמנות ההגלבה

יובל דרור, בבלוגו 'הגלוב', חונך את 'פרויקט מפעול צה"ל'. במסגרת המלחמה העתית בעזה מסר לאחרונה דובר צה"ל שמערכת ההתרעות "מסר אישי" אינה מבצעית, וליתר דיוק: "בשלב זה מערכת מסר אישי איננה מבצעית, בימים אלה נעשות פעולות למבצועה".

דרור הסתער בהתלהבות על שם הפעולה מִבצוּע ומיהר להציע כמה משלו. אם תקראו אותם תראו בוודאי שכמה נשמעים טבעיים יותר וכמה טבעיים פחות. ויש לכך סיבה. הנה ההצעות של דרור, אחת אחת, עם הערותיי.

  1. המערכת עדיין לא חשאית אבל אנחנו עובדים על החשאתה.
    נשמע סביר. בגוגל אפשר למצוא הופעה אחת של המונח החשאה, בהקשר להצפנה.
  2. לא ניתן לספק את הנשק באופן מיידי אבל אנחנו עובדים על המיידתו.
    הברה שנפתחת ביו"ד עיצורית אינה פופולרית בעברית של ימינו, אלא לפני שורוק בשם הפעולה של בניין פיעל: מיון (שתי הברות: mi.yun) אבל לא *המיינה, ביוץ אבל לא *הבייצה, טיוח אבל לא *הטייחה, סיור אבל לא *הסיירה. לכן לא נאמר *המיידה. מה לגבי מיוד? מי יודע.
  3. הפלוגה עדיין לא מספיק מקצועית אבל אנחנו פועלים למיקצועה.
    נשמע סביר, ואכן קיים בלשון הצה"לית כפי שמודיעים המגיבים בפוסט המקורי.
  4. בשלב זה אין בידינו מספיק נתונים כדי לבנות מערכת אבל אנחנו עובדים על המיערוך.
    לא משהו, אבל נסבל. שימו לב שגם כאן וגם בסעיף הקודם דרור עבר מבניין הפעיל לבניין פיעל, משום שבניין פיעל מסוגל להכיל שורשים מרובעים (מ.ק.צ.ע ומ.ע.ר.כ).
  5. הטירונים עדיין לא יודעים לעשות פזצטא ומשום כך החלטנו לפזצטא את כל הפלוגה.
    איום ונורא, לא? קודם כל, שורש מחומש הוא דבר נדיר למדי בעברית. בנוסף, העיצורים המיוצגים על ידי האותיות ז', צ' וט' דומים מאוד אחד לשני ולא מסוגלים לדור בכפיפה אחת בלי תנועה כלשהי שתפריד ביניהם. אי אפשר לומר *לְפַּזְצְטֵא ובמקום זה צריך לומר משהו כמו "לְפַּזַצְטֵא". אבל זה כבר נשמע פשוט כמו מילת היחס ל- לפני המילה פזצטא (וכך כנראה נוצא שם הפעולה בעבר, אבל זה כבר סיפור אחר). בנוסף, יש הרבה הברות: ל.פ.זצ.טא. אמנם שמות פועל בני ארבע הברות קיימים בעברית, אבל הם נחלתו של בנין התפעל (ל.הת.פו.צץ, ל.הת.בר.בר). ודבר אחרון, העיצור האחרון יתנגש עם ההטיות בגוף ראשון ושני: פזצטתי? פזצטתם? אפשר לחשוב על פועל בבניין קל (פזצתי), אבל פועל בבניין קל לא יקבל שם פעולה של בניין פיעל. במילים אחרות, שם הפועל לפזצטא אינו בלתי אפשרי, אבל צפוי לו קרב קשה. שימו לב שעברנו כאן משמות פעולה (החשאה, המיידה) לשמות פועל (לפזצטא) אבל העקרונות דומים.
  6. ידע כל חייל לקטבג את קיטבגו.
    נשמע סביר. לא יודע למה זה לא תפס עדיין – אולי לא מדברים בימינו על קיטבגים כל כך? עוד כשהייתי בטירונות, לפני כמעט עשור ומשהו, המילה קיטבג לא היתה נפוצה מדי.
  7. לא לכל האנשים יש מקלט ולא בכל המקומות האזעקה עובדת אבל אנחנו עובדים על מיקלוט ואיזעוק כל הישובים.
    מיקלוּט נשמע סביר והמגיבים בפוסט המקורי מדווחים שהם כבר נתקלו בשם הפעולה הזה.
    איזעוק גם נשמע סביר ואני לא יודע למה שם הפעולה הזה לא נוצר עדיין. אולי הסיבה אינה פונולוגית אלא סמנטית: מה זה בעצם לאזעק? לחמש באזעקה? למקלט מקום מסוים משמעו שיהיה שם מקלט, אבל אזעקה מושמעת מעל מרחב מסוים ולא במקום ספציפי, ולכן אפשר למקלט ישוב מסוים אבל אי אפשר לאזעק ישוב אחד בלי לאזעק גם את האזור הקרוב לו.
  8. הרמטכ"ל הבטיח כי לאור מטחי הרקטות מצד חמאס, יגיב צה"ל במלוא עוצמת ההמטחה. "נמטיח אותם", ציין.
    נשמע טוב, וגם כאן אני לא יודע למה לא נוצרה עדיין מילה כזו. אולי אין בה צורך כי מובן מאליו שאין לנו שום תגובה מוכנה מלבד המטחות.

שאלה אחרת היא למה להעדיף את המטחה בבניין הפעיל על פני מיטוּח בבניין פיעל. בעברית יש כלל מורפו-פונולוגי חשוב ביצירת פעלים חדשים, כלל שנוגע לבחירה בין שני הבניינים. הכלל הפונולוגי הוא כזה: אם הפועל נגזר משֵם, נרצה לשמור על מבנה ההברות מהמילה המקורית. למשל, שווִיץ לא הפך לפועל *שיווץ אלא לפועל השוויץ, משום שבמילה המקורית יש את צרור העיצורים "שוו" ובניין פיעל מפרק את הצרור הזה באמצעות תנועה. לכן העדפנו ליצור פועל בבנין הפעיל, שלא מכניס תנועה בין פ' הפועל (במקרה הזה, "ש") ובין ע' הפועל (במקרה הזה, "ו" עיצורית): הש.וויץ ולא שי.ווץ. ישנן גם מגבלות סמנטיות: פעלי "גרימה" יהיו לרוב בהפעיל ולא בפיעל (המרדה ולא מירוד, למשל). וכל זה מתועד יפה בין היתר בעבודתו של ליאור לקס, שמתבססת מצדה על מחקריהם החשובים של אותי בת-אל, עוזי אורנן ורבים אחרים.

מוֹנדיאל לא רע יש לנו בינתיים, אבל אם יורשה לי להתעלם לרגע מהכדורגל עצמו, הנה האירוע שנהניתי ממנו הכי הרבה עד עתה. בדקה 07:08 בסרטון מתחיל משחק הפתיחה של הטורניר, ברזיל נגד קרואטיה.

הברזילאים אליו (משמאל) ורג'ינה (מימין) עוזרים לחברם קרלוס (באמצע) ליהנות מהמשחק, אפילו שהוא חירש-עיוור. אליו מסמן בשפת הסימנים הברזילאית בצורה שמותאמת לתקשורת עם אדם עיוור: קרלוס מחזיק את הידיים שלו ו"רואה" את הסימנים. תוך כדי, רג'ינה משתמש בשיטת תקשורת שבנויה על מישוש כדי לתת לקרלוס מידע על כרטיסים צהובים, מספרי חולצה, עבירות וכיוצא באלה.

בדקה 10:08 ברזיל מבקיעה והשמחה רבה. אם אני לא טועה, רג'ינה תוקעת בזמבורה ישירות על הגב של קרלוס כדי שהוא ירגיש את הרטט. בדקה 10:28 נדמה לי שקרלוס שואל מי הבקיע ואליו מעביר את היד על הראש כדי לחקות את התספורת של השחקן הברזילאי ניימאר.

אם חוזרים לתחילת הסרטון אפשר לראות את אליו הולך לחנות ומרכיב את המגרש שעליו הוא מסמן לקרלוס, ובדקה 4:00 מתחיל טקס הפתיחה. אבל כמו שברזיל משחקת בינתיים, עדיף לא לראות ולא לשמוע.

פוסט שני בסדרת התחקירים שלנו על תיקוני ניסוחים ממלכתיים לקויים.

הפעם, דווקא מספסלי האופוזיציה, או ליתר דיוק מכיסי ההתנגדות לראש הממשלה, בנגדה וביחדה כאחד. וכיוון שהעולם והמרשתת מתקדמים לשיתוף הקהילה, מיקור המונים וכל הג'ז הלז, תחרות שאינה נושאת פרסים בין קוראינו!

זהו את השגיאה הסמנטית שחלה בגרסה הראשונה לחוק להשתקת ישראל היום, הגם אם עברה מעט שח-רחוק שבור בדרכה אל המקור של אבישי עברי ומשם לדפי הפלוג, ותוקנה עד להגרסה שהונחה על שולחן הכנסת.

בין הפותרים נכונה תוגרל בדיחה שחוקה ממערכון של כוורת.

מוטב מאוחר

דסק הפולו-אפ של דגש קל נזכר לפתע בתחקיר קווי היסוד מימי הממשלה הקודמת, שם ציינו את העובדה המשעשעת שהממשלה מעוניינת לשים את החינוך "במרכז סדר העדיפויות", כלומר איפשהו באמצע. ובכן, אמר הדסק בינו לבינו, זה שנה שכבר יש ממשלה חדשה! האם היא תיקנה את סמנטיקתה?

יגעת – ומצאת. הנה קווי היסוד, שחור סרוק על-גבי פידיאף רעוע, אך עם ניסוח הגיוני בהיבט החינוך!

הממשלה תעמיד בראש מעייניה את נושא החינוך וההשכלה הגבוהה

ולהקורא ינעם. לפחות להקורא שדילג על הסעיף שמתחיל ב-"הממשלה תפעל באופן אקטיבי".

אח, שלילה כפולה. ומשולשת ומרובעת. הלא-קרם-דה-לה-לא-קרם של טעויות הסמנטיקה.

צפו-צפו נא בהעלאת הגרה העונתית של המקור. הופסלך, כבר בדקה 2:07 מתחיל רזי ברקאי לשאול:

לא הגיע הזמן שהגוף הזה לא יהיה מבוקר כמו גופים אחרים?

בטוחני כי כל הצופים הבינו בדיוק למה רזי מתכוון. הוא פשוט לא התכוון לומר את ה-"לא" השני. איכשהו זה עובר חלק. מוחות הקוף האומללים שלנו עד כדי כך מתחסרי ישע כשמשפט טיפה מסובך מגיע אליהם, שכל הסמנטיקה נזרקת הפחה והפרגמטיקה הופכת לסמכות הבלבדית של מה-הרגע-אמרו-לנו. אני חושב שאני בעצמי שמתי לב לזה רק כי יש לי טריגר מיוחד לשלילה כפולה, שמופעל כשאני שומע פעמיים "לא" בקרבה מעוררת חשד.

כי המסך לא יצלם את עצמו

כי המסך לא יצלם את עצמו

מימונה שמחה לכל!

אורן פרסיקו החליט לפנק היום את קוראי סקירת העיתונות של "העין השביעית" בניתוחים לשוניים של כתבת השער במגזין "ממון". להלן הערותיי (ההדגשות למיניהן הן שלי):

הציטוט הדרמטי מתפרסם על רקע תצלום נאה של גינדי [אילן ספרא] עומד בביתו שבסביון. "אחרי 24 שעות בכלא, בעלי גינדי-השקעות, החשוד במתן שוחד, מדבר", נכתב בכותרת המשנה לראשית. כך, בפסוקית לוואי משועבדת שבכותרת המשנה, לומדים קוראי "ידיעות אחרונות" כי גינדי חשוד במתן שוחד.

יפה. הצירוף "החשוד במתן שוחד" אכן מתפקד כלוואי של הנושא במשפט, "בעלי גינדי השקעות", והוא אכן פסוקית משועבדת. מצד אחד זה מעודד לקראת הבאות, מצד שני הרי כתבתי פוסט. אז מה יש לנו בפסקה הקודמת?

כותרת "ממון" היא ציטוט מפי מנור גינדי, המדבר על עצמו בגוף שלישי: "אני, מנור גינדי, עם אזיקים בידיים וברגליים, כל הלילה במעצר".

הממ. קשה להחליט אם הציטוט של גינדי כאן הוא בכלל משפט שלם, או רק רצף צירופים. אני נוטה לנתחו כמשפט שהושמט ממנו הפועל המרכזי – "נמצא"/"יושב"/"נתון" לפני המילה "כל". כך או כך, אמנם אין כאן שום מילה שתעזור לנו למצוא התאם לגוף הדקדוקי של נושא המשפט (אם יש כאן משפט, כאמור), אבל נניח והפועל המרכזי שהצעתי היה בעבר – האם אתם מרגישים שהיה צריך להיות שם "ישב" או "ישבתי"? די ברור ש-"ישבתי". גינדי מדבר על עצמו בגוף ראשון, והקטע בו אמר את שמו מהווה בסך הכל תמורה. אין יסוד לטענה לפיה הוא מדבר על עצמו בגוף שלישי.

טוב אורן. 1/2 זה יותר טוב מההישגים הטיפוסיים של עיתונאים באבחנות לשוניות (*שיעול*סביל*שיעול*).

State of the Union ngrams

(First posted on Language Log as a guest post)

Reading Mark Liberman's analysis of Obama's SOTU addresses versus other presidents', my thirst remained unquenched. Word-counts are fun, sure, but the real fun comes in when looking at longer phrases – two (bigrams) or three (trigrams) words long.

After waiting for it to be breakfast time in Philadelphia, I engaged in an experiment (Legal has advised me against explicit use of MYL's trademark phrase) to analyze the 228 addresses (found here) and see what Obama's favorite (and least-favorite) phrases are.

Since I worked with raw data, I handled it a bit differently than previous analyses just for the sake of getting results fast. To begin with, I did not weed out the non-orally-delivered addresses or any other "special" cases. Next, I used an unsophisticated tokenization algorithm where all apostrophes break words into tokens (so "Congress's" is split in two, as in Liberman's analysis, but same goes for "i'm" and "he's"). Lastly, I used a comparison algorithm which only takes into account Obama's speeches and all addresses (1790-2014) as "background": the KL measure, which purports to tell us how "informative" the phrase is in the Obama corpus relative to the background corpus.

Let's get to it: here are Obama's most unexpectedly frequent bigrams:

bigram KL-measure X 1000
that 's 3.284
it 's 2.463
let 's 2.022
don 't 1.545
i 'm 1.540
we will 1.408
's why 1.375
we 're 1.278
we 've 1.253
can 't 1.147
right now 1.092
clean energy 0.960
i will 0.946
if you 0.931
need to 0.925
we 'll 0.907
we can 0.902
is why 0.883
jobs and 0.848
's what 0.844
health care 0.842
tonight i 0.825
our economy 0.813
's not 0.736
middle class 0.696

We see many stylistic markers here, such as the contracted forms "'s", "'re" and "'ll", which will probably re-appear in any modern president's lingo (with not much to support either the egocentric-Obama or collective-Obama hypotheses), but these expected bigrams greatly emphasize the magnitude of the more content-swayed ones: "our economy", "middle class", "health care" and the number one issue on Obama's plate (at least according to Kullback and Leibler): "clean energy".

Obama's most unexpectedly infrequent bigrams: (for these, I still only took phrases which appeared somewhere in Obama's addresses)

bigram KL-measure X 1000
of the -2.388
to the -0.941
in the -0.896
for the -0.529
and the -0.494
by the -0.446
it is -0.397
PAR the -0.392
united states -0.389
the united -0.388

And the rest is just as boring. We've seen "the" is on the decline, and it drags down all its associated bigrams with it.

Moving on. Favorite trigrams: ("PAR" marks the beginning of a paragraph)

trigram KL-measure X 1000
that 's why 1.191
that 's what 0.750
that is why 0.640
democrats and republicans 0.549
we need to 0.526
it 's not 0.495
this congress to 0.432
PAR that 's 0.426
the american people 0.413
i will not 0.406
so let 's 0.405
tonight i 'm 0.399
we can 't 0.391
states of america 0.369
it 's time 0.353
across the country 0.336
's why i 0.325
's why we 0.324
over the last 0.319
over the next 0.313
we have to 0.312
i took office 0.312
i know that 0.310
's time to 0.304
PAR of course 0.304

So the top three are explanation starters, but check out "democrats and republicans" creeping in to a bipartisan content-lead. And you may take what you will from number 25, beginning paragraphs with "of course".

Least favorite trigrams:

trigram KL-measure X 1000
the united states -0.375
of the united -0.134
of the country -0.054
part of the -0.048
as well as -0.046
the people of -0.044
of the people -0.044
PAR it is -0.043
united states and -0.040
of the government -0.032
the secretary of -0.030
it will be -0.029
the federal government -0.029
and it is -0.026
and in the -0.026
at the same -0.026
of our citizens -0.026
the number of -0.025
of the last -0.024
the fact that -0.023
of the union -0.023
in order to -0.022
it is not -0.022
and to the -0.022
it is a -0.022

A bit more interesting than the lost bigram table. "the american people" made it to the top, but "the people of" are on the bottom, suggesting nothing but a stylistic anomaly (or shift) in denoting what is probably the group which is most referred to in these addresses. How "the united states" and "states of america" got to opposite ends is beyond me, though. Much to look into, perhaps during some breakfast after next year's SOTU.

הרשמה

קבל כל פוסט חדש ישירות לתיבת הדואר הנכנס.

הצטרפו אל 1,359 שכבר עוקבים אחריו