Feeds:
רשומות
תגובות

Archive for the ‘ביטויים גנריים’ Category

היום, לא תאמינו, נכנסתי בעצמי לאתר ״הארץ״. הטריגר היה תגובתה של מלי לוי לביקורת אכזרית מצד רוגל אלפר על הסדרה ״חשודה״. באותו מאמר מסב לי אלפר אושר ענק: שילוב של קטנונולוגיה (טרוניות חסרות שחר על שפה עכשווית), התנשאות מחליאה, ושגיאה תוך טיעון לשוני שיפוטי.

זה האחרון נקרא חוק וישנה, הנה ההגדרה אצל המוזר מהאינטרנט. אז הנה להנאתכם, האקזמפלר של אלפר:

ברור שאם בעלילה היו הרבה ערבים, עניים וחרדים פלוס פיגוע בכותל, אז אדרבא, ירושלים היא לוקיישן מתאים אם לא ה (כפי שאומרים היום העילגים).

זהירות, ״הארץ״

הנה צילמתימסך לכם, באמת שאתם לא צריכים להיכנס לקישור

אוי אוי אוי. כך לא אומרים ״העילגים״. התבנית שאליה חתר אלפר, המנותק מעמו בו הוא יושב, הוא ״איקס הוא אחד הוואיים, אם לא ה-״. אין תוספת ה״א הידיעה על סתם שם עצם, אלא על שם עצם שכבר נמצא במקום גבוה בדירוג. אלפר לא מבין את הסכמה, לא את הרציונל, ולא את האופרציה, והוא עוד מעז לקרוא לאחרים עילגים.

צק צק.

שנה טובה, ושלא יתקנו אתכם!

Read Full Post »

ימי הבחירות מתרגשים עלינו, ולכן אכתוב היום על תופעה לשונית מתוך כתבה בנושא תקשורת ספורט מלפני כמעט חודש. מיודענו שלמה מן שיתף את קוראיו בהעין השביעית בנפלאות סיקור הליגות הנמוכות בכדורגל, והשחיל את המשפט הבא:

משטחי מהמורות ועשבים שוטים שעליהם מתקיימים משחקי הליגות הנמוכות של הפריפריה בעיירות ובכפרים, עם קהל מקומי וקנאי, ובפעמים רבות באווירה של מלחמת סוף עולם.

הממ. זוכרים עירוב ביטויים? למה שתזכרו, כבר שנים אני לא כותב פה על שום דבר זולת שלילה מיותרת (יש עוד בקנה אם תהיתם). היה לנו פה את מצוצים מאצבע מזוהמת, שזה יותר העשרת ביטוי מעירוב, ואת לשבור שיאים חדשים, שזה עירוב שיוצר בעיה סמנטית. גם המקרה שלפנינו טיפה שונה מהקלאסיקה, אם כי בפן אחר: תחבירי. הביטויים שהתערבו הם "מלחמת עולם" ו-"סוף עולם", שתי סמיכויות שבהן הסומך זהה ("עולם"). כתוצאה מכך באחד הביטויים נשבר הרצף. עירוב הביטויים הקלאסי משרשר את הצורות כך שכל ביטוי נשמר בשלמותו, ככתוב בשיר הילדים בעל הניחוח הגזעני (שם, שם; לחן עממי מדי):

ילד* קטן הלך לגן / איזה גן? גן חיות / אילו חיות? חיות טורפות / אילו טורפות? טורפות בן אדם / איזה בן אדם? בן אדם שמן / איזה שמן? שמן דובון / איזה דובון? בלע סבון / איזה סבון? סבון לרחצה / איזו רחצה? רחצה בים / איזה ים? ים המלח / איזה מלח? מלח לבישול / איזה בישול? בישול עוף / איזה עוף? עוף סוף / איזה סוף? סוף העולם / איזה עולם? עולם תחתון / איזה תחתון? תחתון שלך!

יש שם כמה חריגות, אבל הרעיון הכללי די ברור.

לפני שנשחרר אתכם, מילה על סמנטיקה: כפי שראינו, בדוגמא של "שיאים חדשים נשברו" יש בעיה עם הפירוש המילולי, ומאידך גיסא ב-"מצוצים מאצבע מזוהמת" התוספת דווקא מספקת את אפקט ההעצמה המבוקש. המקרה הנוכחי קרוב יותר לצד האצבע של הסקאלה, אבל היה כאן מעקף מעניין: "מלחמת עולם" יושבת לנו עמוק בתרבות ואנחנו יודעים פחות או יותר למה משווים משחק כדורגל בליגה נמוכה כשמדברים עליה. "מלחמת סוף עולם" יכולה להתפרש, נניח כמלחמה שגורמת לסוף העולם או שמתרחש בתקופה אפוקליפטית, סטייל גוג ומגוג. אין לנו מושג איך מלחמה כזו תיראה (זו שאחריה תתנהל במקלות ובאבנים. לפי אותו הגיון גם הראשונה היתה אמורה להיות ככה והיא לא היתה, אבל לא משנה) אבל כנראה שהיא תהיה גרועה יותר מסתם מלחמת עולם. אז יש העצמה, אבל לא בסקאלה הרגילה: "סוף עולם" איננו עולם (ואצבע מזוהמת היא כן אצבע), אבל "מלחמת סוף עולם" בהחלט תיחשב למלחמת עולם.

יאללה שובו לעיסוקיכם. אחלה יום בחוץ.


* לא באמת "ילד".

Read Full Post »

הקורא הנאמן (כאילו יש בכלל מה לקרוא פה בזמן האחרון, עונת מלפפונים לפנים) דן (יותר מסתם קורא: הוא הבוס!) העיר את תשומת לבי (מה ארבע מילים רצופות בלי סוגריים מה) לביטוי מוזר שהולך ורוחש בעולם המושגים המלבב שנקלענו אליו בחודשים האחרונים: מַשגר פצמ"רים. הרי האקזמפלר:

majger
והרי כמה נוספים. יש גם דוגמאות רבות היכולות להיקרא כאדם מבצע הפעולה (מְשגר פצמ"רים), אבל גם זה אינו ביטוי הכרחי.

מה הבעיה בעצם? ובכן, פצמ"ר הוא ראשי תיבות של "פצצת מרגמה". פצצת מרגמה, מעצם שמה, נורית מתוך מרגמה. למיטב הבנתי, אפילו מבחינת דקדקנות טרמינולוגית צבאית אין משגר פצמ"רים שאינו מרגמה, שכן זהו פשוט השם לקטגוריית כלי הנשק היורים פצצות פשוטות באופן תלול-מסלול מעמדה נייחת. לראיה הדוידקות ממלחמת השחרור, שלא היו כלי תקני אך נחשבות למרגמות. בקיצור, הביטוי אינו טבעי בערך כמו "מַרסס כדורי מקלע". מותר להתפלא מהעובדה שהדוגמה לעיל לקוחה דווקא מאתר רשמי של צבא ההגנה לישראל, ושהביטוי מופיע גם בסרטוני דובר צה"ל.

איך הגיח הביטוי החריג ללשוננו? המסלול כנראה קל לשחזור, לא בשונה ממסלול הפצמ"ר עצמו (ברכות יובל, זכית בפרס הקישור הנושאי חסר הטעם בהבלוג לשנת תשע"ד). סוג הקליע יוצא-עזה שזכה למירב תשומת הלב בשנים האחרונות הוא הרקטה. רקטה אכן יורים ממשגר. כשנכנס לתמונה הרכיב האנלוגי למשגר של פצמ"ר, מתבקש לקרוא גם לו משגר. שמו האמיתי מתחבא בתוך ראשי תיבות, ועוד ראשי תיבות שלא משמרים את התנועות של המילים המקוריות (פְּצצת או פִּצְצת? זה לא משנה, בראשי תיבות הוגים /pa/) או את המין הדקדוקי של הביטוי המקורי, ולכן קל לשכוח שבכלל מדובר בראשי תיבות. תוסיפו את העובדה שאין עוד דוגמאות נפוצות לקליע שגוזר את שמו מהנשק ממנו הוא נורה (כדורים מקוטלגים לפי מידה, פצצות מוטסות לפי משקל, רקטות וטילים נושאים לרוב שם ייחודי) ונקבל עילה סבירה למחילה על חוסר-הזהירות. (אגב, בהמשך להערה שמתחת לתמונה – האדם המשגר נקרא רגם).

ומה השם המתאים לתופעה? סקרנו כאן בעבר תופעות לא בלתי-דומות לדבר הזה. היה לנו את התי"מ המיותר, גם שם כיכב הצבא בדוגמאות (המוכר ביותר הוא ככל הנראה סס"ל לבן, כאשר ה-ל בראשי התיבות מסמנת בעצמה "לבן"). לא בלתי-דומה, אבל לא זהה: בתי"מ מיותר קיים אלמנט שחוזר על עצמו בשתי צורות (בתוך ראשי תיבות או מילה קפואה ובתור המילה הרגילה), אבל כאן כל הביטוי כולו זהה במשמעותו לחלק מתוכו. שזה יכול להזכיר סינקדוכה (לא לבלבל עם הכינוי הנפוץ לאקדוחן סיני), התופעה שבה חלק מייצג את השלם או להפך (כשאומרים "אמריקה" ומתכוונים לארצות הברית של אמריקה; בעבר היה מקובל לומר "רוסיה" ולהתכוון לברית המועצות), אבל כאן יחסי החלק-שלם מתייחסים לביטויים הלשוניים ולא לישויות המיוצגות על-ידם. אז שלחתי מייל בהול בנושא לג'ף פולום, אבל אפילו הוא אבד עצות. אז אם בספינת האם נפלה שלהבת, זה הזמן של אזובי הקיר להמציא מונחים! ובכן, התופעה הכי קרובה שהצלחתי לחשוב עליה באיזושהי רמה של אנלוגיה היא גזירה-לאחור: יש לנו מילה שנראית כמו תוצר של הטיה, אפילו שהיא לא. נאמר פָּנים או שוליים. אם נחליט שיש לה צורת בסיס, כמו פן או שול בהתאמה, נסתדר כבר עם להתאים לה משמעות. אז במקרה שלנו, מדובר על צורה שהיא כן תוצר של פעולה לשונית (אבל לא בדיוק גזירה. "ראשי-תיבותיזציה"?) ובמקום לגזור אותה לאחור, גוזר אותה הדובר "לפנים". ממש כמו במשחק הדמקה! ובכן, חברים חברות, עוקבים ועוקבות, חברי האקדמיה, אני מתכבד בזאת להכריז על המושג גזירת-דמקה, שמצטרף לחבריו הגאים סתירונים, תי"מ מיותר, עצטרובל, סנובון, ובטח עוד כמה ששכחתי. [עדכון, 26/11: משאול!]

עם תמונת נצחון זו נסיים. הפסקת אש בלתי-מופרת שתהיה לכולנו.


רפרנס כותרת למי שפספס. ביזיון שאין את המילים בשירונט, או קליפ ביוטיוב שאינו בביצוע אסי כהן.

Read Full Post »

ענת באלינט כתבה אתמול מאמר מרעיד אמות ספים ב… חכו לזה… העין השביעית*. נושאו הוא הבזיון המתמשך של פרסום סמוי בערוצים המסחריים וחוסר המודעות הדי-בסיסי של הגופים מהצד הפרסומי/שיווקי של העניין שמדובר בעבירה על שלל תקנות.

את הפסקה הרלוונטית לענייננו חוששני שאצטרך להביא במלואה (ההדגשה שלי):

גורם בחברת ענני-תקשורת טען כי אין שום "תוכן שיווקי" בתוכניות המדוברות ("מסטר שף", יש לציין, אינה בהפקת ענני-תקשורת). אותו גורם הודה כי מאז החלה הרשות השנייה לקנוס ולפעול להורדת תוכניות שיש בהן פרסום סמוי, צומצמה פעילות זו, וכי בחברת ההפקה, שעסקאות מסוג זה היו בסיס למודל העסקי שלה, מודעים לכך שהם "פועלים כעת תחת הרדאר". החשש בחברות ההפקה מעוגן במציאות: גופי השידור משיתים את הקנסות של הרשות השנייה על מפיקי התוכניות. כך, למשל, הושת על ענני-תקשורת הקנס בשל פרסום סמוי שניתן על-ידי הרשות השנייה לתוכנית הבריאות של פרופ' רפי קרסו, שהורדה מהמסך. 

סקרינשוט, סקרינשוט, וואצ'ה גונה דו

ראשית נסגור איזו פינה – מהאופן שבו הפסקה כתובה לא ברור לגמרי האם הציטוט הוא ישיר של הגורם או פרפראזה של הכותבת – באלינט אישרה כי מדובר במילותיו של המקור.

מה האלמנט הבעייתי בשימוש בביטוי "תחת הרדאר"? לומר את האמת, גם בעת כתיבת שורות אלו, יום אחרי הקריאה הראשונה, אני לא בטוח אם הכוונה למשמעות התקנית של הביטוי. אשתפכם בהתלבטויותי.

מכ"מ, או רדאר בשמו הלועזי, סובל מקשיים באיתור כלי טיס הטסים בגובה נמוך (אפשר להגיד "גובה נמוך"? "גובה קטן" נשמע לי מוזר, ואין לי רעיון אחר). על-כן כלי טיס שמעוניין לחמוק מרדארי האויב טס נמוך, מתחת ל(רום המזוהה ע"י ה)רדאר. מכאן למטאפורה – "מתחת לרדאר" פירושו בהחבאבהסתר. האם לכך באמת מתכוון הגורם הסמוי מחברת ענני תקשורת?

משהו בפיסקה דווקא אומר לי אחרת. כיום יש תשומת-לב להפרות הכללים, יש אכיפה ויש קנסות, ומרגיש לי שמה שמטריד את מר פלוני ענניתקשורת הוא דווקא העובדה שיש אכיפה בסביבה, כלומר משהו בסגנון "אנחנו תחת הפנס". עצם השימוש במילת היחס "תחת" (זה מצחיק כי זה גס) במקום "מתחת ל-" מחשיד: המילה הזו מעידה על סמיכות בין מה שבשני צידיה (אנחנו והפנס, העדשה והמזרן) לעומת סתם יחס של קירבה אנכית למרכז כדור הארץ (המטוס וטווח הגילוי של הרדאר). זאת ועוד, תוכן המאמר כולו מעיד על כך שהגופים השיווקיים לא עושים יותר מדי כדי להחביא את פעולתם, אלא שהם פשוט נדרשים להתאים את עצמם למצב שבו גופי ההפקה והשידור שאיתם הם בקשר נמצאים במעקב.

בקיצור, אני נוטה לחשוב שיש לנו כאן מקרה של בחירת מטאפורה שגויה, או אפילו עירוב מטאפורות (בגלל שינוי מילת היחס). אתם יכולים לא להסכים. תאכלו תחת.

המשך…

Read Full Post »

פרופסור יוסי זעירא מצוטט בכתבתו של אדריאן פילוט בגלובס (לא מופיע בגרסת הרשת. וואלה, מה הייתי עושה בלי העין השביעית?) כאומר:

זה מראה על כך שמשהו בדיסקט שלהם מתחיל להשתנות.

הבה נתחקה מעט אחר מקורותיה של זו המטאפורה. דיסקט, כמו חוגת טלפון, הוא דבר שכבר לא רואים יותר מדי באזורנו (חוץ מאשר בסמליל השמירה בממשקי משתמש). מדובר בריבוע עשוי פלסטיק ברובו, המכיל כמות מצומצמת (במונחים של ימינו) של מידע – 360 קילובתים עד 1.44 מגהבתים.

בימי קדם, היו משתמשים בדיסקט ממש כדי לאתחל מחשב – מערכת ההפעלה היתה יושבת על גביו. בהמשך היה ניתן לזהות דיסקט עם תוכנה כלשהי הנטענת ממנו. כדי לעבור מתוכנה לתוכנה היה צורך להחליף דיסקט.

וזה מקור הביטוי השגור (יחסית) "להחליף דיסקט" (במקור בן השבע הזה כבר מתייחסים אליו כאנכרוניסטי). לחשוב על משהו בצורה אחרת, כלומר לעבד את המידע עם "מערכת הפעלה שונה" או עם "תוכנה שונה".

האם דיסקט יכול להשתנות, כמאמר פרופ' זעירא? במובן הבסיסי שלו, הפיזי, מובן שלא. צורתו של הדיסקט לא משפיעה במאום על תכולתו. בצורה אחרת הוא גם לא ייכנס לכונן. במובן הרך יותר, תכולתו של הדיסקט, אמנם כן. אפשר לערוך תוכן של דיסקט. אבל זה מעולם לא היה חלק מאופן השימוש בדיסקטים המכילים מערכות הפעלה או תוכנות (אלא רק של דיסקטי העברה/גיבוי שמכילים נתונים). מה גם, שהשינוי מתבצע בעוד הדיסקט בתוך המחשב, אך דיסקט הפעלה משפיע על איך שהמחשב מופעל. אם "משהו בדיסקט מתחיל להשתנות", צורת החשיבה לא משתנה יחד איתו (אלא רק בהפעלה הבאה). המטאפורה נועדה למצב שבו יש שני דיסקטים (ומחליפים אחד בשני), ואם אין אז צריך שני מחשבים כנראה (אחד שישנה את הדיסקט כדי שהשני יפעל אחרת כשהוא מוכנס אליו). בציטוט האמור אי אפשר להסיק אף אחד מהתנאים האלה, לכן יוצאת מטאפורה לא הגיונית.

יאללה אריק, תחליף ליפנים האלה ת'דיסקט!

Read Full Post »

דסק העיתונות של "דגש קל" עצלן ודל-אמצעים. בעיות עיתונאיות בשימושי שפה הוא מביא מאתרי החדשות בהמרשתת (ודוגמאות-עבר מארכיון העיתונות), ואפילו שחלקים ממנו מצוידים במצלמות-עלי-שח-נבון, טרם היכתה בו ההכרה שניתן לצלם עיתונים ממש כמו פרסומות בחוצות. עלי חביב (בתור ספצימן, כן?) המוסף לשבת של ידיעות אחרונות, ובבלוגי אני מעתיק מן הכתוב, אפילו שכנראה לוקח כבר פחות זמן לצלם ולשלוח לעצמי. וגם אמין יותר.

לכן את המהפכה היה צריך להביא אלינו עידוק. מי ייתן ונמשיך בדרכו (למרות שעכשיו עליתי על בעיה: בן לי ואנכי בקושי נוגעים בעיתון מודפס, ויתר חברי המערכת גרים באותו ניכר ממש. לא שלינזן כותב פה אי פעם, אבל שיהיה). וואו, אני כבר מגעיל את עצמי עם החשיבות העצמית הזאת. אז יאללה. מה לעזאזל שלח עידוק?

את הצילום הבא (מתוך המוסף ב-25/11), עם ההערה כדלהלן:

סימה קדמון, ממש ליטרלית, לא מבינה את פירוש המילה "ליטרלית". אלא אם היא טוענת שדן מרידור החל להוריק ולבצע פוטוסינתזה.

"מרידור הפך ממש ליטרלית לעלה התאנה של הממשלה"

ולנו אין אלא להסכים. בהעולם דובר האנגלית השימוש בתואר-הפעל literally חצה מזמן את גבול, ובכן, הליטרליות שלו, ומבטא לעתים קרובות פשוט הבלטה של הנאמר, מעין העצמה. עבודות תזה נכתבות בנושא, בספינת האם חפרו על זה, יש בלוגי זעם העוקבים אחר התופעה, איורים מועיליםאיורים פחות מועילים, ואפילו מילון מעריאם-ועבסטער נכנע אל מול נחשול השימוש הכביר (מובן 2, וראו הערה מתחת). אה, ואם מישהו שם קישור לחקצד בתגובות אני בא אליו הביתה ושורף אותו. מילולית.

ומה עם עברית? האם ל-"באופן מילולי" יש את השימוש ההעצמתי? חד וחלק לא, אבל תאשימו את הסרבול שבביטוי (ואת התוכנית של אבשלום קור, שהוציאה ממנו את העוקץ). "מילולית" נכנסת לקטגוריה של תארי-פעל שדוברים לא אוהבים להשתמש בהם (זה נשמע מליצי/מאולץ) וגם בטח מזכירה ליותר מדי אנשים את הפסיכומטרי. נשארנו עם תעתוק האנגלי כמות שהיא. את "ליטרלי" קשה למצוא ברשת עם טעם על ההברה הראשונה, כי הצורה המלעילית משמשת כשם תואר די תקני, נרדף ל"קשור למילים" (למה אין גיגול עם טעם? באמת, חברים). אבל הנה שימוש שנראה "נכון" (כלומר מבטא שמשהו קרה באופן מילולי), והנה שימוש "לא נכון" (כלומר סתם מעצים). לא נראה כמו תופעה יותר מסובכת של העתקת-תוכי מאנגלית.

מה עם "ליטרלית", בו השתמשה קדמון? גם כאן יש משמעות נוספת בעברית – "באופן ספרותי". גיגול בלתי-מחייב לא הציף שימוש קדמונאי (קדמונֶסקי?) במילה הזו (בגיגול שני נמצאו כמה "נכונים"), קל וחומר ב"ממש ליטרלית", כאילו שאם חשבתם שמרידור הפך לעלה, אז לא די בכך: זה באמת קרה, בעולם הממשי והמוחשי (שוב, רק בעולם שבו מילים תמיד שומרות על המשמעויות המילוניות והאטימולוגיות המקוריות שלהן). סימה קדמון, בשירות השפה.

[נו, הבנתם כבר למי הינד כובע]

Read Full Post »

היום בתוכנית: חידושים והמצאות! רצה הגורל ודווקא במהלך הימים הנוראים הייתי צריך לעבור על מחקרים שנעשו לאחרונה בבלשנות חישובית כדי לראות אם משהו קשור לפרוייקט שאני עובד עליו. בגלל שיום כיפור הוא זמן לחשבון נפש, החלטתי לספר בקצרה על כמה רעיונות יפים במיוחד שמומשו לאחרונה בצורה לא פחות יפה. סך הכל, גם כאן וגם באכסניות אחרות ירדנו מדי פעם על בלשנות חישובית והמרוץ אחר "שיפור של חצי אחוז בתוצאות", וחבל להתעלם מהעבודה הרצינית שנעשית שם על דברים שבאמת רלוונטים לבני אדם.
בתפריט: בלשנות חישובית בשירות הפרכת תיאוריות ספרותיות, תיעוד כל השפות בעולם, חלוקת מילה להברות ומציאת מידע בהסתמך על סמנטיקה תיאורטית.

  • מציאת רשתות חברתיות בסיפורת אנגלית של המאה ה-19 (כמובטח). אחד המאמרים האהובים בכנס ACL האחרון הוא של קת'לין מק'קיון ועמיתיה מאוניברסיטת קולומביה שבדקו תיאוריה ספרותית ומצאו שלא דובים ולא יער. בהסתמך על תיאוריה ספרותית של עיור ושל הקשרים בין הדמויות בעיר ובכפר, שמושפעת ישירות מהכרונוטופ של בכטין, מקובל לטעון (מקובל? לא יודע. יש אנשי-ספרות בקהל, אנא האירו את עיניי) שכשרומן מתרחש בכפר ישנם קשרים מועטים אך חזקים בין מספר קטן של דמויות; מנגד, ברומן עירוני ישנן הרבה דמויות אך קיימים מעט קשרים ביניהן.

    רשת חברתית לדוגמה מהמאמר של אלסון ואחרים (2010)

    טוב, נגיד שזו תיאוריה מבוססת. שתי השלכות שקשורות זו בזו ניתנות לבדיקה: הראשונה, שיש קשר הפוך בין כמות הדיאלוג ובין מספר הדמויות הפעילות בסיפור. השנייה, ש"הרשת החברתית" בין הדמויות תהיה מהודקת יותר אם העלילה מתרחשת בכפר (או באיזו אחוזה ציורית).
    את הרשת החברתית אפשר לדמות בעזרת רשת של דיאלוגים בין הדמויות וכך לתאר כך היכן הקשרים החזקים יותר, וכמובן שהיא נבנית אוטומטית לחלוטין בעזרת ניתוח אוטומטי של הטקסט והדיאלוגים, כך שאפשר לתאר בצורה די טובה את הקשרים בין הדמויות.
    ועכשיו השוס – לא דובים ולא יער. הקשרים בין הדמויות דומים למדי, לא משנה באיזה מרחב מדובר. מה שבאמת משפיע הוא נקודת המבט – האם יש לנו עסק עם דובר בגוף ראשון או בגוף שלישי.
    למה זה להיט: כי הנה דוגמה נהדרת לעיבוד ממוכן של טקסטים שמספק דרך אמינה להעריך תיאוריה ספרותית. אני הכי אוהב את הבלשנות החישובית שלי כשהיא רלוונטית לתחומים נוספים.
    למה זה לא יתפוס בחיים: כי כמו שאמר האל דאומה השלישי, למה התיאוריות האלה קיימות בכלל? כלום לא בדקו חוקרי הספרות יותר משלושה רומנים לפני שיצאו בהכרזות כאלה? אבל מעבר לזה, אני תוהה מה הסיכויים שחוקר ספרות יתייחס ברצינות למחקר כזה. הרי למען השם, יש שם גרפים ומספרים!

  • פרוייקט השפה האנושית: בונים קורפוס אוניברסלי של שפות העולם:
    סטיבן בירד, בלשן חישובי מדופלם, מודאג מזה תקופה מהיעלמות שפות בסכנת הכחדה. יחד עם סטיבן אבני הוא חשבו על רעיון כביר – קורפוס ענק, בעל מבנה מינימלי ואלגנטי, שיכיל כמות עצומה של חומר מכל שפות העולם. מעין מקבילה בלשנית לפרוייקט הגנום האנושי.
    המטרה היא לשמר את הידע הקיים ובו-בזמן לבנות תשתית להעמקתו. כאבן-בוחן ליכולת שלנו כבלשנים לטעון שהצלחנו "להבין" (ואולי עדיף "לתעד") שפה כמו שצריך משתמשים אבני ובירד באבן הרוזטה: אם אנחנו מצליחים לתרגם משפה נכחדת לאנגלית – או לשפה אחרת, שהרי הכל סובב סביב אנגלית בכל מקרה – סימן שהבנו אותה. לכן, הקורפוס מעוצב עם יישומים לתרגום מכונה כהישג נדרש.
    למה זה להיט: כי יש הרבה מאגרי מידע דומים (הפניות במאמר) אבל הם אינם מקיפים והמטרה שלהם לא מוגדרת מספיק. כי עם כמה שינויים, זה יוכל להיות שימושי מאוד גם עבור תיאורטיקנים ומתעדי שפות.
    למה זה לא יתפוס בחיים: כי זה לא כלי הכרחי עבור תיעוד שפה. כי רמת הדיוק בניתוח תהיה שטחית מדי עבור תיאורטיקנים. כי לבלשנים לא-חישוביים אין תמריץ של ממש לתרום מזמנם לפרוייקט הזה, וכי בלשנים חישוביים עשויים לחשוב שזה פרויקט יפה וראוי אבל עדיף שמישהו אחר יבזבז עליו את הזמן שלו, אני צריך עכשיו לסיים מאמר לקראת כנס ועוד לא הגעתי לשיפור של חצי אחוז.
  • על חלוקת פונמות להברות:
    חלוקת מילה להברות היא – אולי במפתיע – משימה לא טריוויאלית עבור פונולוגים ודוברים ילידים כאחד, בטח ובטח בשפה ממזרית כמו אנגלית (איך אומרים, des-troy? או אולי de-stroy?). קולין צ'רי ממיקרוסופט ושני קולגות שלו לקחו על עצמם לשפר את היכולות הקיימות בתחום.
    מה שיפה במאמר הזה הוא ההתבססות על תיאוריות פונולוגיות (עד שמסתבר שהן לא טובות מספיק, ואז משתמשים בלמידת מכונה במקומן). לראות דברים כמו Maximal Onset Principle והפניות למאמרים של פונולוגים במאמר בלשנות חישובית זה עניין מרענן כשלעצמו. אבל האם זה עוזר?
    החוקרים מימשו שלושה עקרונות פונולוגיים כדי לראות האם הם מצליחים לחלק מילים להברות כמו שצריך. בנוסף, הם בנו מערכת משלהם שמשתמשת בתכונות של הפונמה, ובעיקר אילו פונמות אחרות באו לפניה ואחריה, ולומדת באופן עצמאי על חשיבות התכונות הללו ממילים שמופיעות בטקסטים קיימים (לאנשי למידת המכונה שבינינו – הם השתמשו ביציר-הכלאיים הנהדר SVM-HMM). בסופו של עניין, המערכת שלהם עובדת יופי-טופי ומסוגלת לחלק מילים להברות בצורה מרשימה למדי.
    למה זה להיט: כי יש כאן פתרון חישובי לעניין שתיאורטיקנים מתקשים להסכים לגביו; וכי אפשר לראות שהרבה יותר קל לשחק עם משהו "טכני" כמו פונולוגיה מאשר עם משימות מסובכות ומופשטות יותר כמו אתגרים תחביריים וסמנטים.
    למה זה לא תופס: כי בסופו של דבר אנחנו נותרים עם תכונות שנקבעו שרירותית ומערכת למידת מכונה שלומדת מטקסט קיים, מה שיש תחת כל עץ רענן שעוסק בעיבוד שפה טבעית. וכי זה אמנם נחמד שאפשר לעשות את זה אבל זה לא מקדם את התאוריה: הייתי שמח לראות את סוג החוקים שהמערכת למדה ולעשות מהם לתיאוריה עצמאית, אבל אני חושד שהם מתבססים על זה שיש כמות פרמוטציות מוגבלת ל-22 26 אותיות באנגלית אז לא מאוד קשה ללמוד אותן ואת הסדר הפונמי המשתמע.
  • זיהוי צירופים שמניים גנריים:
    בסמנטיקה, ביטוי גנרי הוא ביטוי בסגנון "כלב הוא חיה בעלת ארבע רגלים". אבל מה לגבי כלב שהיה בתאונת דרכים, לא עלינו? האם אינו כלב יותר? ואם אנחנו אומרים ש"צרפתים אוכלים בשר סוס", מה לגבי הצרפתים הצמחונים? ואם אנחנו אומרים ש"עכברים מפריעים לבני האדם", האם זה באמת נכון? הרי הרוב המוחלט של עכברי העולם נסתר מאיתנו ולא נגלה לעינינו אף פעם.
    בסמינר לבלשנות חישובית באוניברסיטת היידלברג שיערו שמשפטים כאלה מכילים ידע רב על העולם ולכן כדאי למצוא דרך לזהות אותם באופן ממוכן. הם התרכזו לעת עתה בצירופים שמניים גנריים ("כלב הוא חיה בעלת ארבע רגליים") ולא במשפטים גנריים ("לפלוטו יש מרק ועצם").
    אחד הדברים הבעייתים בביטויים גנריים הוא שאין פתרון קסם: זה לא שמשפטים בהווה הם תמיד גנריים, וזה לא שמשפטים גנריים הם תמיד בהווה ("הם חיו באושר ועושר").

    כך נראית טבלת התוצאות של צמד בלשנים חישוביים גרמנים

    המערכת השתמשה בכשני תריסר תכונות של המשפט (האם הוא בהווה? האם שם העצם ביחיד או ברבים? ושאר תכונות סמנטיות ותחביריות) ואז עשתה חזרות מרובות עם צירופים שונים של תכונות כדי למצוא אילו הן החשובות ביותר. מהיכרות עם המחברים אני יודע שמדובר באנשים יסודיים למדי, ואכן הם מפרטים את כ-ל התוצאות שהמערכת שלהם השיגה בתצורותיה השונות. חלקן טובות, חלקן פחות, אם כי באופן כללי הם השיגו תוצאות מעודדות למדי, ונראה שבהחלט נעשה כאן צעד בכיוון הנכון.
    למה זה להיט: כי בדומה למאמר הקודם, יש כאן נסיון לתת פתרון חישובי למשהו שהתיאוריה הגיעה לסוג של קונצנזוס לגביו, אבל לא קונצנזוס שאפשר למכן עדיין באופן יעיל.
    למה זה לא תופס: כי בדומה למאמר הקודם, זה לא עוזר לתיאוריה בכלל. להגנתם ייאמר שזה לא אמור לעזור לתיאוריה – זה אמור לעזור ליכולת להפיק מידע מטקסט, ולפי הקריטריון הזה העבודה תישפט בהמשך הדרך.

אם ארבעת המחקרים האלה עשו לכם תיאבון, ודאי תשמחו לשמוע שבתוכניה של כנס EMNLP שייערך בחודש הבא כבר בולטים מספר מאמרים עם שמות מסקרנים. ביניהם ניתן למצוא את  "Poetic" Statistical Machine Translation: Rhyme and Meter מאת צוות תרגום המכונה של גוגל, את Modeling Organization in Student Essays ואת Improving Gender Classification of Blog Authors (לעשות מחקר כזה אצלנו זה קל; אנחנו עדיין מחכים לבלשנית שתרצה לתרום לנו).

David Elson, Nicholas Dames and Kathleen McKeown (2010). Extracting Social Networks from Literary Fiction. ACL 2010.
Nils Reiter and Anette Frank (2010). Identifying Generic Noun Phrases. ACL 2010.
Steven Abney and Steven Bird (2010). The Human Language Project: Building a Universal Corpus of the World’s Languages. ACL 2010.
Susan Bartlett, Grzegorz Kondrak and Colin Cherry (2009). On the Syllabification of Phonemes. NAACL 2009.

Read Full Post »