Feeds:
רשומות
תגובות

Archive for פברואר, 2014

אורן פרסיקו החליט לפנק היום את קוראי סקירת העיתונות של "העין השביעית" בניתוחים לשוניים של כתבת השער במגזין "ממון". להלן הערותיי (ההדגשות למיניהן הן שלי):

הציטוט הדרמטי מתפרסם על רקע תצלום נאה של גינדי [אילן ספרא] עומד בביתו שבסביון. "אחרי 24 שעות בכלא, בעלי גינדי-השקעות, החשוד במתן שוחד, מדבר", נכתב בכותרת המשנה לראשית. כך, בפסוקית לוואי משועבדת שבכותרת המשנה, לומדים קוראי "ידיעות אחרונות" כי גינדי חשוד במתן שוחד.

יפה. הצירוף "החשוד במתן שוחד" אכן מתפקד כלוואי של הנושא במשפט, "בעלי גינדי השקעות", והוא אכן פסוקית משועבדת. מצד אחד זה מעודד לקראת הבאות, מצד שני הרי כתבתי פוסט. אז מה יש לנו בפסקה הקודמת?

כותרת "ממון" היא ציטוט מפי מנור גינדי, המדבר על עצמו בגוף שלישי: "אני, מנור גינדי, עם אזיקים בידיים וברגליים, כל הלילה במעצר".

הממ. קשה להחליט אם הציטוט של גינדי כאן הוא בכלל משפט שלם, או רק רצף צירופים. אני נוטה לנתחו כמשפט שהושמט ממנו הפועל המרכזי – "נמצא"/"יושב"/"נתון" לפני המילה "כל". כך או כך, אמנם אין כאן שום מילה שתעזור לנו למצוא התאם לגוף הדקדוקי של נושא המשפט (אם יש כאן משפט, כאמור), אבל נניח והפועל המרכזי שהצעתי היה בעבר – האם אתם מרגישים שהיה צריך להיות שם "ישב" או "ישבתי"? די ברור ש-"ישבתי". גינדי מדבר על עצמו בגוף ראשון, והקטע בו אמר את שמו מהווה בסך הכל תמורה. אין יסוד לטענה לפיה הוא מדבר על עצמו בגוף שלישי.

טוב אורן. 1/2 זה יותר טוב מההישגים הטיפוסיים של עיתונאים באבחנות לשוניות (*שיעול*סביל*שיעול*).

Read Full Post »

(First posted on Language Log as a guest post)

Reading Mark Liberman's analysis of Obama's SOTU addresses versus other presidents', my thirst remained unquenched. Word-counts are fun, sure, but the real fun comes in when looking at longer phrases – two (bigrams) or three (trigrams) words long.

After waiting for it to be breakfast time in Philadelphia, I engaged in an experiment (Legal has advised me against explicit use of MYL's trademark phrase) to analyze the 228 addresses (found here) and see what Obama's favorite (and least-favorite) phrases are.

Since I worked with raw data, I handled it a bit differently than previous analyses just for the sake of getting results fast. To begin with, I did not weed out the non-orally-delivered addresses or any other "special" cases. Next, I used an unsophisticated tokenization algorithm where all apostrophes break words into tokens (so "Congress's" is split in two, as in Liberman's analysis, but same goes for "i'm" and "he's"). Lastly, I used a comparison algorithm which only takes into account Obama's speeches and all addresses (1790-2014) as "background": the KL measure, which purports to tell us how "informative" the phrase is in the Obama corpus relative to the background corpus.

Let's get to it: here are Obama's most unexpectedly frequent bigrams:

bigram KL-measure X 1000
that 's 3.284
it 's 2.463
let 's 2.022
don 't 1.545
i 'm 1.540
we will 1.408
's why 1.375
we 're 1.278
we 've 1.253
can 't 1.147
right now 1.092
clean energy 0.960
i will 0.946
if you 0.931
need to 0.925
we 'll 0.907
we can 0.902
is why 0.883
jobs and 0.848
's what 0.844
health care 0.842
tonight i 0.825
our economy 0.813
's not 0.736
middle class 0.696

We see many stylistic markers here, such as the contracted forms "'s", "'re" and "'ll", which will probably re-appear in any modern president's lingo (with not much to support either the egocentric-Obama or collective-Obama hypotheses), but these expected bigrams greatly emphasize the magnitude of the more content-swayed ones: "our economy", "middle class", "health care" and the number one issue on Obama's plate (at least according to Kullback and Leibler): "clean energy".

Obama's most unexpectedly infrequent bigrams: (for these, I still only took phrases which appeared somewhere in Obama's addresses)

bigram KL-measure X 1000
of the -2.388
to the -0.941
in the -0.896
for the -0.529
and the -0.494
by the -0.446
it is -0.397
PAR the -0.392
united states -0.389
the united -0.388

And the rest is just as boring. We've seen "the" is on the decline, and it drags down all its associated bigrams with it.

Moving on. Favorite trigrams: ("PAR" marks the beginning of a paragraph)

trigram KL-measure X 1000
that 's why 1.191
that 's what 0.750
that is why 0.640
democrats and republicans 0.549
we need to 0.526
it 's not 0.495
this congress to 0.432
PAR that 's 0.426
the american people 0.413
i will not 0.406
so let 's 0.405
tonight i 'm 0.399
we can 't 0.391
states of america 0.369
it 's time 0.353
across the country 0.336
's why i 0.325
's why we 0.324
over the last 0.319
over the next 0.313
we have to 0.312
i took office 0.312
i know that 0.310
's time to 0.304
PAR of course 0.304

So the top three are explanation starters, but check out "democrats and republicans" creeping in to a bipartisan content-lead. And you may take what you will from number 25, beginning paragraphs with "of course".

Least favorite trigrams:

trigram KL-measure X 1000
the united states -0.375
of the united -0.134
of the country -0.054
part of the -0.048
as well as -0.046
the people of -0.044
of the people -0.044
PAR it is -0.043
united states and -0.040
of the government -0.032
the secretary of -0.030
it will be -0.029
the federal government -0.029
and it is -0.026
and in the -0.026
at the same -0.026
of our citizens -0.026
the number of -0.025
of the last -0.024
the fact that -0.023
of the union -0.023
in order to -0.022
it is not -0.022
and to the -0.022
it is a -0.022

A bit more interesting than the lost bigram table. "the american people" made it to the top, but "the people of" are on the bottom, suggesting nothing but a stylistic anomaly (or shift) in denoting what is probably the group which is most referred to in these addresses. How "the united states" and "states of america" got to opposite ends is beyond me, though. Much to look into, perhaps during some breakfast after next year's SOTU.

Read Full Post »

הפרסומת הבאה לקוקה קולה שודרה אתמול במהלך הסופר בול. השיר הפטריוטי America the Beautiful הוקלט במספר שפות ונשא איתו מסר מלבב של אחדות, חירות, צרכנות וכן הלאה:

ב-Language Log תיעדו את הסיקור התקשורתי ומנו את השפות המשתתפות בקליפ:

Coca-Cola ran a commercial with a multilingual rendition of "America the Beautiful," with languages including English, Spanish, Keres Pueblo, Tagalog, Hindi, Senegalese French, and Hebrew.

אני לא שמתי לב לעברית כשראיתי את הפרסומת, אבל השורה הלפני-אחרונה (החל משנייה 43) היא באמת בשפת הקודש: משהו כמו "ברוב טובך יכתיר אותך" (אני לא בטוח לגבי המילה הראשונה), תרגום של חלק מהשורה המקורית "And crown thy good with brotherhood".

למזלנו החברה סיפקה מבט אל מאחורי הקלעים ובו ניתן לשמוע חלקים נרחבים יותר מהשיר. הנה מעט יותר על הביצוע בעברית, של ילדה בשם נטלי:

למה קשה להבין את המילים בשמיעה ראשונה? יש כמה סיבות. ראשית, התרגום מילולי למדי. שנית, ההגייה של נטלי משקפת את העובדה שהיא (ככל הנראה) גדלה בארה"ב. לא נדיר להיתקל בילדים דוברי-עברית שגדלו בארה"ב וההגייה שלהם מושפעת מהפונולוגיה של אנגלית; רמת השליטה שלהם בעברית עשויה להיות טובה מאוד או גרועה למדי (מה שנקרא heritage speakers) אבל ההגייה מושפעת באופן בולט. נטלי אמנם הוגה את הרי"ש שלה בסדר, אבל הת"ו מחוככת למדי, הלמ"ד לועית מדי וכמה מהמילים זרות לה בבירור. כך למשל היא מבטאת את המילה "ענבר" עם בי"ת רפה ואת המילה "דגן" יותר כמו "צגן".

הנה המילים לשיר באנגלית, ואתם מוזמנים לנסות לפענח את התרגום בעצמכם (תיכף ניתן את הפתרון). בחיפושיי מצאתי גירסה יפה בעברית לבית הראשון, מאת אדם בשם יורם קולרשטיין (דרך הפוסט המושקע כאן):

יפֵהפִיָה ללא גבולות
וּזְהב דגן גלִי
הרים סגוּלים סְפוּגים בְּהוֹד
מישור עמוּס בִּפְרי
אמריקה אַת אֶרץ
שהאל בּרֵךְ בלי סוף
וּבְרית אחים נאמנה
תִשְׂרוֹר מחוף אל חוף.

אם כן, את הבית הראשון בן לי ואני ניסינו להבין בזריזות, אבל נתקענו קצת לקראת הסוף:

הו יפת שמים רחבים O beautiful for spacious skies,
וגלי ענבר דגן For amber waves of grain,
הדר הרים סגולים For purple mountain majesties
מעל שדה ??? Above the fruited plain!

גם הילדה ששרה במנדרינית, למשל, מבטאת לא נכון כמה עיצורים. הילדה ששרה בערבית מבטאת את המילים בסדר, אבל לרוע המזל המשקל של השיר מתנגש חזיתית עם התרגום מרובה-ההברות לערבית. כור היתוך.

Read Full Post »