Feeds:
רשומות
תגובות

Archive for the ‘אנגלית’ Category

היום, כפי שוודאי יודע כל מי מקוראינו שאינו גר תחת סלע, יוצאים תושבי הממלכה המאוחדת של בריטניה הגדולה וצפון אירלנד לקבוע את עתידה של ממלכתם המאוחדת של בריטניה הגדולה וצפון אירלנד בהאיחוד האירופי (באמת? זה כל השם הרשמי שלו? מאכזב). כיוון שבימינו אי-אפשר בלי איזה הלחם מעיק, וכיוון שיציאתה הספקולטיבית של יוון מאותו איחוד כונתה בכינוי הלא-רע-מדי Grexit (שמשחק על הקידומת Grec- ולכן זוכה לציון הלחם 2, תנועה ועיצור), בחרו הנודניקים הארורים מהתקשורת ועוזריה את הכינוי האנגלי Brexit, שמלבד היותו הלחם בעל ציון פונטי 0 (אין צליל משותף בין המילים המולחמות), הוא גם לא מאה אחוז נכון גיאוגרפית/פוליטית (כי, כאמור, גם צפון אירלנד ועוד כל מיני טריטוריות תלויות משתתפות במשאל וביציאה האמורה).

אבל זהו בלוג הבלשנות ״דגש קל״, לא בלוג הקנטרנות הגיאוגרפי ״מפת שולחן״. אך שלשום שם לב קברניט ספינת האם מארק ליברמן לכך שהמילה Brexit זוכה להגיה שונה מפיהם של אנשים שונים: חלק הוגים את האיקס כזוג עיצורים בלתי-קוליים, /ks/, וחלק כקוליים, /gz/. טובי הניואנסרים שביניכם אולי שמו לב שהקרי הראשון נפוץ יותר בממלכה המאוחדת שבהגוצ״א, והשני בארצות הברית של אמריקה. ליברמן תוהה כך על קולו הפנימי, שבגד באמריקאיותו והיה קורא באופן בלתי-קולי עד שהחל לשמוע שידורים אמריקאיים בנושא וחש את הדיסוננס. הוא מעלה את הסברה של זכרון ה-Grexit, שם העיצור /k/ דומיננטי בשל השורש התורם הראשון (ואכן, בלי ה-Grexit לא היינו ״זוכים״ למונח Brexit).

בתגובה לאותו פוסט כותב מגיב מסוקס במיוחד שגם אצלו היה המצב בלתי-קולי, אך שכאן סבל מהתעתיק העברי שמחייב את הכותב להחליט בין שני הקריאים ולהאכיל את הקורא באחד מהם. מכאן, כיוון שכותבים ברקסיט בעיתונות לשון עבר, שגם הייצוג הפונטי בראש יתיישר. אממא, ממשיך אותו פנומן, מילה אחרת שיובאה לעברית היא exit עצמה, במובן של מכירת חברה לתאגיד גדול ממנה תוך גזירת קופון נאה, וכאן דווקא בחרה העברית בתעתיק אקזיט, השד יודע למה. הצמדת עיצור קולי (/z/) לבלתי-קולי (/k/) באותו צרור היא קשה מאוד לדוברי כל שפה שהיא, ובואו נסו להגות כך את המילה. אני מחכה.

Screen Shot 2016-06-23 at 13.33.54

בינתיים, קחו ראייה בלתי תלויה לחלוטין.

באותה הזדמנות, נסו אגסיט. קצת יותר קל, אבל עדיין דורש מאמץ.

 

כך או כך, את אותו ״אקזיט״ נוהגים להגות בעברית עם /gz/. ובכן יונית, דיסוננס. למה אותה מילה אנגלית מקבלת טיפול שונה כשהיא בגפה וכשהיא בהלחם? אז יכול להיות שהמשמעויות מספיק שונות כדי שאף אחד לא ישים לב ולא יהיה אכפת. הרי לא מדובר פה באקזיט חגיגי של הממלכה המאוחדת שבהגוצ״א שבו מישהו קונה ממנה את פירות השהות באיחוד. אפילו מבחינת תומכי המהלך תהא זו מעין מנוסה מבוהלת מיבשת שוקעת. ואם המשמעות לא נגזרת ממילה שנהוגה בעברית, אזי אפשר פשוט לתעתק אותה (1) כפי שהיא נהגית, ואז באמת נשמע אותה יותר מבריטים מאשר מאמריקאים; או (2) ״כמו שהיא נכתבת״, ואז X בפני עצמה באמת נתפסת בעברית יותר כ-״קס״, כלומר כשהיא לא ״ח״. עיינו קסילופון, מקסימום, דיאודורנט אקס, אקס פקטור, אקסית מיתולוגית.

כעת תשאלו: ״שיואו, יובל, אחלה מקרה! יש לך עוד דוגמאות למילים שהגיעו פעמיים לעברית בתעתיקים שונים?״ ולאחר שאודה על המחמאה אשיב: ״אמ, צ׳מעו, אז מצאתי כמה, אבל יש להם דרך קצת עקלקלה. נניח פנצ׳ר וקונטרפונקט, שבאו משפות מקור שונות אבל מכילות את המרכיב הזהה /punct/, הולך?״ ואז די תתאכזבו ותשאלו אם אני יכול להציע לקוראים לתרום משלהם בתגובות. ואז תיזכרו לרגע בעת שתפנו ללכת ותגידו ״אבל בעצם ראינו כמה פעמים שכותבים ברקזיט. ואפילו קישרו את זה לאקזיט״.

אז זה כבר רציני. למרות שבהן צדקי אשבע שעד לגיגול שגיגלתי בזה הרגע לא נתקלתי ב״ברקזיט״, הוא קיים גם קיים. ואפילו מנצח במבחן הגוגל, ואפילו אינו מוגבל רק לאתרי הכלכלונים.

Screen Shot 2016-06-23 at 13.12.02

אגזיביט איי

Screen Shot 2016-06-23 at 13.12.14

אקסיביט בי

לפחות לשתי האפשרויות האחרות אין ראיה (אם כי, כאמור, ברגזיט היא הגייה הגיונית).

נתראה עוד חצי שנה!

Read Full Post »

סערה זוטא התחוללה לאחרונה בבית היהודי בשולי הנסיון לצרף את אלי אוחנה לרשימה. ח"כ זבולון כלפה, אחד מאנשי מפלגת תקומה שרצה במסגרת הבית היהודי, התפטר מהמפלגה על רקע שריונו של אוחנה. כלפה שלח מכתב התפטרות ליו"ר המפלגה, ח"כ אורי אריאל, והמכתב צוטט בצורה כזו או אחרת בכלי התקשורת.

למה אני אומר "כזו או אחרת"? כי נפלו כמה שגיאות מעניינות במכתב כפי שצוטט, ואי אפשר בדיוק לדעת אם השגיאות במקור אצל כלפה או אצל התשקורת. בין היתר מצוטט ח"כ כלפה בתור מי שאמר ש:

(1) אני חושב שמישהו איבד את המצפן
(2) טוב לעשות גירושים לפני שיש ילדים
(3) זה לא רק גשם שיורד אלינו, זו יריקה
(4) אי אפשר לומר שכלום קרה

בהארץ ובהבהחדרי חרדים אפשר למצוא את כל הארבעה, אבל חדרי חרדים תיקנו את "גירושים" ב-(2) ל-"גירושין". בכיפה ובכיכר השבת גם אפשר למצוא את כל הארבעה אבל בלי הפסיק ב-(3). בחרדים10, להבדיל, מצטטים מכתב שונה בגוף הכתבה אבל כן מצטטים את (3) בכותרת המשנה.

נניח שלפחות חלק מהשגיאות הופיעו במכתב המקורי, אבל יכול גם להיות שאתרי התקשורת לא הקפידו על ציטוט מדויק של המכתב. בואו נחזור לדוגמאות (1)-(4) ונראה מה קורה בהן.

(1) איבד את המצפן: כמעט עירוב ביטויים. הביטוי המקובל הוא איבד את הצפון, אבל מי שמנהיג אמור לנווט בעזרת מצפן. ישנו גם מצפן מוסרי, שאילה אפשרית מאנגלית.

(2) גירושים / גירושין: שתי הצורות תקינות. הוועדה למונחי דמוגרפיה של האקדמיה ללשון העדיפה את הסיומת העבריתים על פני הסיומת הארמית –ין, אך שתיהן תקפות (רק איך אומרים דמוגרפיה בעברית?).

(3) הגשם יורד עלינו ממעל, לא אלינו. אין לי הסבר לבחירה ב-(3). זו יכולה להיות שגיאת כתיב (עם אל"ף במקום עי"ן) וזו יכולה להיות בחירה במילת יחס לא נכונה.

(4) גם כלום קרה זה מוזר. הרי בעברית יש שלילה כפולה וצריך לומר "כלום לא קרה". אולי אפשר להבין את (4) יותר בקלות אם מדגישים את "כלום": אי אפשר לומר שכלום קרה, הרי משהו קרה.

שיהיה ברור, כבלשן אני לא מחפש ללעוג לשגיאות של ח"כ כלפה. אני יותר סקרן לדעת מה הגורם לשגיאה, כי השגיאות של היום הם הדקדוק של מחר. באותה מידה מסקרן גם לדעת האם השגיאות הן באמת שלו או של אמצעי התקשורת השונים: למה להוסיף או להוריד פסיק? למה לשנות את "גירושים" ל-"גירושין"? ובאיזה מקרים מותר להחריג את הציטוט מהמבע המקורי?

[ת' לאורה]

Read Full Post »

(First posted on Language Log as a guest post)

Reading Mark Liberman's analysis of Obama's SOTU addresses versus other presidents', my thirst remained unquenched. Word-counts are fun, sure, but the real fun comes in when looking at longer phrases – two (bigrams) or three (trigrams) words long.

After waiting for it to be breakfast time in Philadelphia, I engaged in an experiment (Legal has advised me against explicit use of MYL's trademark phrase) to analyze the 228 addresses (found here) and see what Obama's favorite (and least-favorite) phrases are.

Since I worked with raw data, I handled it a bit differently than previous analyses just for the sake of getting results fast. To begin with, I did not weed out the non-orally-delivered addresses or any other "special" cases. Next, I used an unsophisticated tokenization algorithm where all apostrophes break words into tokens (so "Congress's" is split in two, as in Liberman's analysis, but same goes for "i'm" and "he's"). Lastly, I used a comparison algorithm which only takes into account Obama's speeches and all addresses (1790-2014) as "background": the KL measure, which purports to tell us how "informative" the phrase is in the Obama corpus relative to the background corpus.

Let's get to it: here are Obama's most unexpectedly frequent bigrams:

bigram KL-measure X 1000
that 's 3.284
it 's 2.463
let 's 2.022
don 't 1.545
i 'm 1.540
we will 1.408
's why 1.375
we 're 1.278
we 've 1.253
can 't 1.147
right now 1.092
clean energy 0.960
i will 0.946
if you 0.931
need to 0.925
we 'll 0.907
we can 0.902
is why 0.883
jobs and 0.848
's what 0.844
health care 0.842
tonight i 0.825
our economy 0.813
's not 0.736
middle class 0.696

We see many stylistic markers here, such as the contracted forms "'s", "'re" and "'ll", which will probably re-appear in any modern president's lingo (with not much to support either the egocentric-Obama or collective-Obama hypotheses), but these expected bigrams greatly emphasize the magnitude of the more content-swayed ones: "our economy", "middle class", "health care" and the number one issue on Obama's plate (at least according to Kullback and Leibler): "clean energy".

Obama's most unexpectedly infrequent bigrams: (for these, I still only took phrases which appeared somewhere in Obama's addresses)

bigram KL-measure X 1000
of the -2.388
to the -0.941
in the -0.896
for the -0.529
and the -0.494
by the -0.446
it is -0.397
PAR the -0.392
united states -0.389
the united -0.388

And the rest is just as boring. We've seen "the" is on the decline, and it drags down all its associated bigrams with it.

Moving on. Favorite trigrams: ("PAR" marks the beginning of a paragraph)

trigram KL-measure X 1000
that 's why 1.191
that 's what 0.750
that is why 0.640
democrats and republicans 0.549
we need to 0.526
it 's not 0.495
this congress to 0.432
PAR that 's 0.426
the american people 0.413
i will not 0.406
so let 's 0.405
tonight i 'm 0.399
we can 't 0.391
states of america 0.369
it 's time 0.353
across the country 0.336
's why i 0.325
's why we 0.324
over the last 0.319
over the next 0.313
we have to 0.312
i took office 0.312
i know that 0.310
's time to 0.304
PAR of course 0.304

So the top three are explanation starters, but check out "democrats and republicans" creeping in to a bipartisan content-lead. And you may take what you will from number 25, beginning paragraphs with "of course".

Least favorite trigrams:

trigram KL-measure X 1000
the united states -0.375
of the united -0.134
of the country -0.054
part of the -0.048
as well as -0.046
the people of -0.044
of the people -0.044
PAR it is -0.043
united states and -0.040
of the government -0.032
the secretary of -0.030
it will be -0.029
the federal government -0.029
and it is -0.026
and in the -0.026
at the same -0.026
of our citizens -0.026
the number of -0.025
of the last -0.024
the fact that -0.023
of the union -0.023
in order to -0.022
it is not -0.022
and to the -0.022
it is a -0.022

A bit more interesting than the lost bigram table. "the american people" made it to the top, but "the people of" are on the bottom, suggesting nothing but a stylistic anomaly (or shift) in denoting what is probably the group which is most referred to in these addresses. How "the united states" and "states of america" got to opposite ends is beyond me, though. Much to look into, perhaps during some breakfast after next year's SOTU.

Read Full Post »

הפרסומת הבאה לקוקה קולה שודרה אתמול במהלך הסופר בול. השיר הפטריוטי America the Beautiful הוקלט במספר שפות ונשא איתו מסר מלבב של אחדות, חירות, צרכנות וכן הלאה:

ב-Language Log תיעדו את הסיקור התקשורתי ומנו את השפות המשתתפות בקליפ:

Coca-Cola ran a commercial with a multilingual rendition of "America the Beautiful," with languages including English, Spanish, Keres Pueblo, Tagalog, Hindi, Senegalese French, and Hebrew.

אני לא שמתי לב לעברית כשראיתי את הפרסומת, אבל השורה הלפני-אחרונה (החל משנייה 43) היא באמת בשפת הקודש: משהו כמו "ברוב טובך יכתיר אותך" (אני לא בטוח לגבי המילה הראשונה), תרגום של חלק מהשורה המקורית "And crown thy good with brotherhood".

למזלנו החברה סיפקה מבט אל מאחורי הקלעים ובו ניתן לשמוע חלקים נרחבים יותר מהשיר. הנה מעט יותר על הביצוע בעברית, של ילדה בשם נטלי:

למה קשה להבין את המילים בשמיעה ראשונה? יש כמה סיבות. ראשית, התרגום מילולי למדי. שנית, ההגייה של נטלי משקפת את העובדה שהיא (ככל הנראה) גדלה בארה"ב. לא נדיר להיתקל בילדים דוברי-עברית שגדלו בארה"ב וההגייה שלהם מושפעת מהפונולוגיה של אנגלית; רמת השליטה שלהם בעברית עשויה להיות טובה מאוד או גרועה למדי (מה שנקרא heritage speakers) אבל ההגייה מושפעת באופן בולט. נטלי אמנם הוגה את הרי"ש שלה בסדר, אבל הת"ו מחוככת למדי, הלמ"ד לועית מדי וכמה מהמילים זרות לה בבירור. כך למשל היא מבטאת את המילה "ענבר" עם בי"ת רפה ואת המילה "דגן" יותר כמו "צגן".

הנה המילים לשיר באנגלית, ואתם מוזמנים לנסות לפענח את התרגום בעצמכם (תיכף ניתן את הפתרון). בחיפושיי מצאתי גירסה יפה בעברית לבית הראשון, מאת אדם בשם יורם קולרשטיין (דרך הפוסט המושקע כאן):

יפֵהפִיָה ללא גבולות
וּזְהב דגן גלִי
הרים סגוּלים סְפוּגים בְּהוֹד
מישור עמוּס בִּפְרי
אמריקה אַת אֶרץ
שהאל בּרֵךְ בלי סוף
וּבְרית אחים נאמנה
תִשְׂרוֹר מחוף אל חוף.

אם כן, את הבית הראשון בן לי ואני ניסינו להבין בזריזות, אבל נתקענו קצת לקראת הסוף:

הו יפת שמים רחבים O beautiful for spacious skies,
וגלי ענבר דגן For amber waves of grain,
הדר הרים סגולים For purple mountain majesties
מעל שדה ??? Above the fruited plain!

גם הילדה ששרה במנדרינית, למשל, מבטאת לא נכון כמה עיצורים. הילדה ששרה בערבית מבטאת את המילים בסדר, אבל לרוע המזל המשקל של השיר מתנגש חזיתית עם התרגום מרובה-ההברות לערבית. כור היתוך.

Read Full Post »

לא מזמן נתקלתי בשלט הבא בכניסה לבנק ותהיתי, למה הכוונה ב-"חל איסור כניסה לסניף לחובשי קסדה"?

helmet0513

למה אני מתכוון, בלשן טרחן שכמותי? ובכן, זה לא יכול להיות שכל חובשי הקסדות מנועים להיכנס. אני מגיע לעבודה באופניים ואני מקפיד לחבוש קסדה כשאני רוכב – מכאן, שאני חובש קסדה. אבל לא מזה הוטרדה הנהלת הבנק, כמובן: הם מודאגים מאנשים שחובשים קסדה כשהם בתוך הסניף.

הבעיה היא שהביטוי חובש קסדה הוא דו-משמעי. בלשנים מדברים על stage-level predicates, כלומר פרדיקטים שנכונים ברגע מסוים, מול individual-level predicates, כלומר פרדיקטים שנכונים עבור פרט מסוים כל הזמן. יש אנשים שחובשים קסדה כשהם בתוך הבנק ועומדים לשדוד אותו. ויש אנשים שחובשים קסדה דרך קבע; הם רק רוצים נסיעה בטוחה.

הדוגמה הקלאסית בספרות המקצועית דנה בשני הפרידקטים נבון וזמין:

(1) יש שוטרים זמינים (policemen are available)

(2) יש שוטרים נבונים (policemen are intelligent)

בדוגמה (1), מדובר על כמה שוטרים שזמינים כרגע. זה פרדיקט שנכון לרגע בזמן, ל-stage. בדוגמה (2) מדובר על שוטרים שהם פשוט נבונים – זה נכון ברמת הפרט, ה-individual.

הספרות המקצועית בנושא ענפה ולא אכביר מילים עליה, בין היתר כי בין קוראינו הקבועים יש אנשים שהם ממש מומחים לנושא. רק אציין שבעברית אפשר להבדיל יפה בין שתי המשמעויות באמצעות שימוש באוגד. הדוגמאות (5)-(3) הן חד משמעיות.

(3) דני הוא חובש קסדה.

(4) דינה שמחה (היום).

(5) דינה היא (ילדה) שמחה.

במשפט (3), הקרי היחיד הוא זה בו דני מרכיב קסדה דרך קבע. משפט (4) משמעו שדינה שמחה כרגע, ואילו משפט (5) מציין עובדה כללית לגבי דינה. אבל לא הייתי מצפה מהנהלת הבנק לכתוב "חל איסור כניסה לסניף לחובשי קסדה שאינם אנשים שהם חובשי קסדה".

Read Full Post »

שכה יהיה לי טוב, ככה בדיוק כתוב בטיפ זיכרון של ערן כץ בטמקא (כשרוצים לשכוח: 5 דרכים למחוק זכרונות לא רצויים, 4.5.2013):

לסלוח – להקהות את הרגש

אין זה מקרי שהמילים Forget (לשכוח) ו Forgive (לסלוח) נגזרות מאותו השורש. מתן סליחה למי שחולל את הזיכרון הרע מקהה את הרגש החזק המלווה את הזיכרון, שלב ראשון והכרחי במחיקת הזיכרון.

לעתים אין באפשרותנו לשנות מצב קיים אבל יש באפשרותנו לשנות את גישתנו למצב מסוים. "לטעות זה אנושי. לסלוח – אלוהי" אמר המשורר אלכסנדר פופ. הסליחה, דרך אגב, מיועדת הן לאחרים והן לעצמנו.

הבנתם? המילים forget ו-forgive נגזרות מאותו השורש. איזה שורש? מה זה חשוב, אותו השורש. לא באמת צריך להסביר טענות מופרכות כשכותבים על שפה.

אבל הן לא. נכון, שתיהן מעוטרות בתחילית for, אבל זו לא יכולה להיות הכוונה משום שגם המילה forlorn משתמשת בתחילית הזו שמשמעותה הישנה היא 'לגמרי' (דוברי הגרמנית בקהל יכולים להשוות ל-ver).

אולי כץ חושב ש-forg הוא שורש, ובמקרה כזה אנחנו אמורים להסיק שישנן שתי סיומות אפשריות, ive ו-et. אחסוך לכם את החיפוש: אלה אינן סיומות לפעלים באנגלית. חבל, כי את האטימולוגיה הנכונה אפשר למצוא בקלות: הנה forgive והנה forget.

מצד שני, כץ מכפר על הטעות הזו. חברת שירותי הזיכרון שלו, Smart Memory, מפרסמת את עצמה כך באתר הבית שלה:

ערן כץ, אמן תרגילי הזיכרון, מחבר רבי המכר ומרצה בינלאומי לזיכרון והאינטליגנציה
עזר ללמעלה ממיליון איש בעשרים מדינות לפתח מיומנויות זיכרון יוצאות דופן

מרצה בינלאומי לזיכרון והאינטיליגנציה! מי שמשתמש כך ביידוע מיותר מתחבב עלי אוטומטית, ואני מוכן לשכוח ולסלוח לו.

[תודה לתע"ג]

Read Full Post »

[בלה פוסט אורחת בלה גבי סטנובסקי בלה סטודנט לבלשנות בלה באוניברסיטת בת בלה]

לאחרונה נתקלתי ברשת במספר אלגוריתמים לשוניים מעניינים ומוזרים שהוצעו בשפה האנגלית. עניין אותי לנסות ולשחזר אותם עבור השפה העברית. רשומה זו סוקרת את האלגוריתמים, את הכלים החישוביים אשר נעשה בהם שימוש, ומספקת מקבילה עברית שלהם.

NURBLE

במקור

מן הקומיקס המעולה SMBC של הכותב והמאייר זק ווינר (Zach Weiner). בקומיקס מועלים לא פעם רעיונות מתחומים רבים, חלקם דמיוניים לחלוטין, וחלקם מתבררים כפרקטיים למדי.

באחד הקומיקסים הכותב העלה את הסברה כי ניתן לשפר טקסטים פוליטיים ע"י שינוי כל מילה שאינה שם עצם ל-NURBLE. עוקב טוויטר חרוץ לא איחר להגיב עם תוכנה קטנה שעושה בדיוק את זה – מקבלת טקסט, ומחזירה אותו "מנורבל".

הרעיון לא חמק מעינם של הכותבים של לאנגואג' לוג, אלו התייחסו בפוסט שבו הוצעו מספר "מנרבלים" נוספים.

איך זה נעשה

התוכנה הקטנה ששלח העוקב (שנכתבה בשפת PHP) עושה שימוש במשאב חיצוני – קובץ המכיל מאגר מילים וחלק הדיבר שלהם. התוכנה עוברת מילה-מילה על הטקסט אותו יש לנרבל, ובודקת לפי המאגר האם המילה היא שם עצם או לאו – בהתאם היא מחזירה Nurble, או את המילה עצמה.

התוצאה

מעניינת ומשעשעת למדי, ניתן להתרשם באותו הקומיקס מהרצה של האלגוריתם על נאום המצב לאומה של אובמה. באופן מפתיע ניתן להבין את רובו, גם כאשר הרוב המוחלט של המילים "מנורבל".

בעברית

כפי שראינו התוכנה המקורית עשתה שימוש במאגר מילים ממשאב חיצוני. למיטב ידיעתי משאב שכזה לא קיים בשפה העברית. בנוסף, כנראה שנטייתה של השפה העברית לעמימות תחבירית יקשה מאד על שימוש במשאב כזה, גם אם קיים. מסיבות אלו נעשה שימוש במתייג – פונקציה אשר בקבלת משפט מחזירה, בין השאר, את חלקי הדיבר של מילותיו (עוד על כך בהמשך) באחוזי ההצלחה מסוימים. בהינתן פונקציה כזו הפתרון למשימה נעשה טריוויאלי – נעבור על כל המשפטים בקלט, נזין אותם למתייג, ונברור את שמות העצם מתוכם.

התוצאה

התרשמו בעצמכם מ"נירבול" נאומו של יאיר לפיד במליאה:

מקור, ולאחר נירבול.

עינכם הרואות – ה"נארבל" עשה עלייה ל-"בלה", לדעתי גם במקרה הזה ניתן להבין את המסר בקווים כלליים.

נסו בעצמכם

אם אתם מעוניינים לבדוק בעצמכם את ההשפעה של הנירבול על טקסטים אחרים, העלתי מדגים של התוכנה (לאחר הכנסת הטקסט, סמנו את האופציה NURBLE).

אתנחתא – מתייגים, מפיגי עמימות ומודלים סטטיסטיים

בתחום הבלשנות החישובית קיימים מספר תחומים ובעיות אשר נחקרו רבות בשנים האחרונות – רובן בעיות בסיסיות אשר פתרון שלהן יהווה בסיס כמעט לכל מערכת אשר רוצה לעשות שימוש בשפה טבעית. בין אלו ניתן למצוא: תיוג חלקי דיבר (Part Of Speech Tagging), זיהוי ביטויים שמניים (NP Chuncking) וזיהוי ישויות (Named Entity Recognition). קל לראות כי אלו הן אבני הבסיס למשימות "מורכבות" יותר, דוגמת ניתוח תחבירי (Parsing), תרגום מכונה, סיכום אוטומטי, ועוד.

בניגוד למשימות ה"מורכבות", במשימות בסיס אלו קיימת לרוב הסכמה בין דוברי השפה לגבי הפלט הרצוי. כך, כל דובר שפה עברית יסכים כי חלק הדיבר של המילה "רץ" במשפט "גל רץ הביתה" הנו פועל (Verb), בעוד שספק אם קיימים שני אנשים שונים אשר יסכמו את הרשומה הזו לכדי אותו סיכום.

כמובן שבעיות אלו הנן תלויות שפה עד מאד, והאלגוריתמים אשר מנסים לפתור אותן חייבים להתייחס למאפייניה הייחודיים של השפה אליה הם מכוונים פתרונן. למשל אופייה הצירופי (word agglutination) של השפה העברית עלול להקשות רבות על כותבי אלגוריתמים כנ"ל לשפה העברית – אלגוריתמים אלו צריכים להפיג את העמימות באשר היא קיימת לגבי המילים במשפט. אם נסתכל שוב על המילה "רץ" הפעם במשפט "גל הזיז את הרץ למשבצת הסמוכה", ברור כי יש להתייחס למילה רץ בתור שם עצם, בניגוד לפועל שראינו במשפט לעיל – אלגוריתמים אלו יצטרכו לבחור את הפירוש הנכון למילה בהינתן ההקשר המתאים. [ראו גם כאן וכאן – א"ק]

המגמה הבולטת בשנים האחרונות לתקיפת בעיות אלו היא גישה הסתברותית (סטוכסטית). ניתן לייחס זאת להתחזקות כוח המחשוב, לקורפוסים העצומים והבלתי מעובדים (unstructured corpora) של שפה טבעית שמשתמשי האינטרנט מייצרים על בסיס יומיומי, ולאכזבה כללית ממודלים דטרמיניסטיים ו-"שלמים" יותר שהוצגו בעבר.

אלגוריתמים הנוקטים בגישה זו מניחים קיום של מודל כלשהו אשר ממנו מופקים משפטים תקינים בשפה או שבעזרתו ניתן לנתח משפטים בשפה טבעית. כך לדוגמא רשתות נוירונים מניחות קיומו של מודל המפשט את המוח האנושי לכדי נוירונים אשר מופעלים לפי פונקציות הפעלה מסוימות (activation function), ומודלי מרקוב חבויים (Hidden Markov Models) מניחים קיומו של מודל של מכונת מצבים, אשר המעבר בין המצבים תלוי במשפט הקלט ובהסתברות מסוימת.

מודלים אלו נמצאים בבסיס האלגוריתמים הסטוכסטיים. אופיינית, אלגוריתמים אלו יתחילו מתהליך של "אימון" על משפטי קלט משפה טבעית. תהליך זה מטרתו לכייל את הפרמטרים אשר מוטבעים במודל. כך ברשתות נוירונים יכוילו המשקלים אשר ניתנים לכל נוירון, ובמודלי מרקוב חבויים תכוילנה ההסתברויות למעבר בין המצבים.למעשה ניתן לומר כי תהליך האימון מתאים את המודל למשימה הספציפית מולה ניצבים.

לאחר שלב האימון, מפסיקים לכייל את הפרמטרים של המודל ומציגים בפניו משפטים שלא חזה בהם בשלב האימון. בתקווה, המודל אכן יודע להכליל איזושהי תחזית לגבי כלל המשפטים בשפה (או בחלק נרחב ממנה), ולכן יוכל לתת תשובות באמינות מסוימת גם עבור משפטים שלא ראה בעבר.

חלק מן החכמה בכתיבת מערכות שכאלו כוללת את בחירת המודל, אפיון הפרמטרים שלא ישתנו במהלך האימון (לדוגמא, טופולוגיית הרשת במקרה של רשתות נוירונים), ובחירת המאפיינים (features) שיהוו קלט למודל הנבחר.

עבור מימוש שני האלגוריתמים הפשוטים יחסית שמתוארים ברשומה זו, עשיתי שימוש במתייג ומפיג העמימות שנכתב על ידי מני אדלר מאוניברסיטת בן גוריון. משפטים שלמים מן הקלט מוזנים אליו, ובתמורה מקבלים עבור כל מילה בין השאר את חלק הדיבר שלה (בו כבר עשינו שימוש עבור אלגוריתם NURBLE) את הבניין, הזמן, המין, הגוף, ואת צורת הריבוי שלה – בכל אלו נעשה שימוש באלגוריתם הבא שיתואר.

Jailbreak the Patriarchy

במקור

במקרה הזה מדובר בתוסף לשוני מוזר לדפדפן chrome שמתיימר לשבור את הפטריארכיה השלטת ברשת.

התוסף מחליף בטקסט דפי האינטרנט שמות גוף זכריים לנקביים ולהיפך. בנוסף הוא מחפש ביטויים זכריים מסוימים ומחליף אותם במקבילה הנקבית שלהם, ולהיפך. כך לדוגמא "he loved his mother very much" יהפוך ל-"she loved her father very much" ו-"the patriarchy also hurts men" יומר ל- "the matriarchy also hurts women".

איך זה נעשה

לפי תיאור התוסף, נראה כי מדובר במשימת "חפש-החלף" פשוטה יחסית: התוסף עובר על הטקסט בדף, ומחפש ביטויים שנקבעו מראש. ברוב המשפטים אכן מושגת החלפת מין (gender swapping, לפי הכותב), זאת מכיוון שרוב חלקי הדיבר בשפה האנגלית הם ניטרליים מבחינת מין.

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

בעברית

בדומה לאלגוריתם הקודם, נראה כי הגישה שננקטה במקור לא תספק מענה הולם בעברית. נסתכל על הדוגמא שנתנה בחלק הקודם:

  • גל רץ הביתה.
  • גל הזיז את הרץ למשבצת הסמוכה.

נניח כי נבצע משימה של חיפוש והחלפה, ונרצה להחליף את "רץ" ב-"רצה", נקבל:

  • גל רצה הביתה
  • * גל הזיז את הרצה למשבצת הסמוכה

ברור כי זוהי אינה התנהגות רצויה, וכאמור, בשפה האנגלית לרוב לא נתקלים בקשיים שכאלו.

הדרך בה נקטתי לפתרון הבעיה הנה שימוש במתייג שהוזכר לעיל – ממנו דליתי עבור כל מילה בקלט את חלק הדיבר שלה, בהתאם הפעלתי עליה פונקציית החלפת מין. אתאר את הפונקציות עבור חלקי הדיבר שם-גוף ופעלים:

שמות גוף:
בהינתן הידע כי מילה מסוימת היא שם גוף, והעובדה כי שמות הגוף היא קבוצה סגורה וקטנה יחסית של מילים, ניתן להשתמש בטבלה פשוטה ולהמיר "הוא" <-> "היא", "הם" <->"הן" וכיו"ב.

פעלים:
בהינתן הפרמטרים הבאים עבור מילה: בניין, זמן, מין, גוף, ואת צורת הריבוי שלה. ניתן להשתמש בחוקי התחביר העברי, לגזור את השורש ולשתול אותו במקבילה הנקבית / זכרית.
בנוסף לאלו, הכנסתי גם רשימת ביטויים בעלי מין אותם האלגוריתם מחליף, בדומה לתוסף המקורי – "אמא" <->"אבא", "פטריארכיה" <-> "מטריארכיה" ועוד.

התוצאה

מעניינת, אך רחוקה מלהיות מושלמת. אם להמשיך באותו קו של דוגמאות, בחרתי את פוסט הפייסבוק שמשום מה התפרסם בזמן האחרון על ריקי כהן הדמיונית, וזוהי התוצאה: "אני רוצה שנדבר על מר כהן". ניתן לראות כי ביטויים רבים מבלבלים את התוכנה, אולם ברגעיה היפים יוצאים משפטים לתפארת מרב מיכאלי.

נסו בעצמכם

גם בתוכנה זו ניתן להתנסות בהמרת מינו של כל ביטוי העולה על רוחכם – כאן (לאחר הכנסת הטקסט, סמנו את האופציה Jailbreak).

[בלה בלה רשומת אורחת בלה גבי בלה בלה בלה פוסט אורחת בלה צרו בלה קשר בלה בלה דרך הטופס בעמוד בלה בלה]

Read Full Post »

Older Posts »