Feeds:
פוסטים
תגובות

Archive for מאי, 2010

התחלה לא שגרתית: אתן לכם משפט, ותגידו לי לאיזו סיטואציה הוא יותר הולם: (1) או (2).

  • במשפחתו יש מסורת ארוכה של שירות צבאי: אבי סביו נלחם עם נפוליאון.
  1. מדברים על רוסי.
  2. מדברים על צרפתי.

אני, לפחות, חשבתי על 2.

למה זה לא שגרתי, תשאלו? ובכן, קיראו את המשפט הבא והגידו לי:

  • המנהיג לא היסס מכניסה למערכת המלחמות האירופית: הוא הודיע כי יילחם עם נפוליאון.
  1. מדובר על מנהיג גרמני זוטר שכרת ברית עם אוסטרו-הונגריה.
  2. מדובר על מנהיג גרמני זוטר שכרת ברית עם צרפת.

כאן דווקא 1 בולט.

דוגמה "מינימלית" זו, וגם רוב מוחלט של תוצאות החיפוש הראשונות בגוגל, מסכימות שאחרי הביטוי "נלחם עם" מופיע האויב. שאר התוצאות מסכימות שאפשר "להילחם עם" כתחליף ל-"להילחם במצב של" או ל-"להילחם באמצעות". למשל "נלחם בנפש חשופה", או "נלחם בחרב שלופה". הדוגמא האחרונה הזו מקרבת אותנו ללב העניין פה: אחרי "עם" יכולים גם לבוא שותפים ללחימה! וכך נפתחת דו-משמעות מסקרנת ביותר – כזו של מובן והיפוכו.

איך נתקוף דבר כזה תחבירית? אני מניח שבכיוון הזה: יש כאן שני פעלים נפרדים. האחד הוא "להילחם עם", פועל יוצא שהוא נרדף ל-"להילחם ב-", והמושא שאחריו הוא היריב. זו הדוגמא של המנהיג הגרמני הזוטר.

האחר הוא "להילחם", פועל עומד שאינו דורש מושא, אך ניתן להעשיר אותו בתיאורי זמן, מקום ואופן. "עם" מתחילה במקרה זה תיאור אופן, וזוהי הדוגמא הראשונה עם הלוחם הפשוט. הוא נלחם, ולחימתו התרחשה במסגרת צבאו של נפוליאון.

Read Full Post »

ג'ון סטיינבק המהולל, מסעותי עם צ'רלי, עמוד 73 (הוצאת אחוזת בית, תירגמה צילה אלעזר):

בספרדית יש מילה שאינני מצליח למצוא לה מקבילה באנגלית. זה הפועל vacilar, שצורת הבינוני שלו היא vacilando. פירוש המילה בספרדית איננו כלל כפירושה באנגלית – vacillating, כלומר להתנועע או להיטלטל. אם מישהו הוא vacilando, זה אומר שהוא הולך למקום כלשהו, אבל לא אכפת לו במיוחד אם הוא יגיע לשם או לא, אם כי יש לו כיוון. ידידי ג'ק ואגנר אימץ לעצמו לעתים קרובות, במקסיקו, את מצב ההוויה הזה. נניח שרצינו לטייל ברחבות מקסיקו סיטי, אבל לא סתם כך. יכולנו לבחור לנו אובייקט מסוים שכמעט מובטח היה שלא יהיה קיים שם בכלל, ואחר כך לנסות בחריצות למצוא אותו.

איזו מילה תתאים בעברית?

[ת' לטליה]

Read Full Post »

קאפצ'ה

בדיחה פנימית לאנשי למידת מכונה: קאפצ'ה שנתקלתי בו לא מזמן.

(שרשראות מרקוב הן מודל מתמטי שמשמש לאומדן של הסתברויות שונות. משתמשים בהן גם כדי לזהות דואר-זבל בהסתמך על הסתברות ההופעה של רצף מילים כמו "ויאגרה רולקס עירום".)

Read Full Post »

[עדכון: אורן מבלה את הזמן בראיונות ועורך סיכום ביניים. המשך הסיפור כבר יתועד אצלו, אני מניח]

עמיתנו אורן צור חרג ממנהגו בשבוע שעבר והעיד על עיסתו; ליתר דיוק, העיסה שלו, של דמיטרי דוידוב ושל ארי רפופורט, מחקר מגניב למדי שהם ערכו על גילוי אוטומטי של סרקזם באמצעות האלגוריתם שֹשֹ"י (Semi-supervised Algorithm for Sarcastic Identification, שם נהדר: sassy באנגלית זה איפשהו בין "חצוף" ל"שנון"). עד כאן הכל טוב ויפה: רעיון ראוי, מחקר נחמד, ביצוע מוקפד, מאמר מהוקצע – כמקובל בענף.

סערה בענף

אבל אז, מעשה שטן, האינטרנט שם לב בהמוניו. סלאשדוט היה הראשון, כנראה, וגם במדע פופולרי התעניינו מאוד במחקר המקורי הזה. אחרי שהסיפור הגיע לבוינג-בוינג, גם דה-מרקר שמו לב והנה הדיווח שלהם בעברית. זה גם נתן לכל האתרים תירוץ לכתוב טקסטים מתחכמים כמו זה של cnet:

I'm just sooo happy to be sitting here reading through an eight-page PDF on algorithms. Seriously. Nothing in this world makes me happier than poring over phrases like "detailed results of the 5-fold cross validation of various components of the algorithm are summarized in Table 2."

על מה בעצם כל הרעש? על תוכנית שלומדת ביקורות גולשים מאמזון, מזהה באופן אוטומטי איך נראים משפטים סרקסטיים ובעזרת הידע החדש הזה מסוגלת למצוא משפטים סרקסטים באמזון ובטוויטר.

המחקר

המחקר מוצג בעצם בשני מאמרים. המאמר הראשון הוא אמזון ומתאר את המערכת בפרוטרוט (יש לו גם שם נחמד שצוחק על השם של הכנס, בדיחה שבגארדיאן בטלגרף לא הבינו). המאמר השני מיישם את המערכת גם על טוויטר, ואורן מספר עליו כך:

המאמר דחוס מאין כמוהו כדי להתאים לסד מכסת העמודים המוקצית. למרות זאת, המבוא, החלק על טוויטר והדיון על התוצאות (פרקונים 1,2 ו-5) קלים לקריאה גם למי שלא מבין במדעי המחשב ובעיבוד שפה. למעשה גם החלק האלגוריתמי הוא מעט טכני ומייגע אבל לא מסובך במיוחד. תהנו. בטח.

אורן מסביר יפה בבלוג שלו (וגם במאמרים, כמובן) בשביל מה זה טוב: יכולת להבין ביקורות גולשים, להבין טקסטים בכלל, ושאר דברים שימושיים שחברות ישלמו הרבה כסף עליהם. לטובת המפחדים מאלגוריתמים, נסכם כאן איך המערכת עובדת בקצרה.

המערכת לומדת לזהות, לפי ספירה של תדירויות מילים, איך נראים משפטים סרקסטיים כמו "חברה X כנראה לא Y על Z" ומה התפקיד של סימני פיסוק, וייצרו אוסף של מאפיינים טיפוסיים למשפט סרקסטי. כל משפט חדש שהמערכת רואה מושווה לרשימת המאפיינים ומקבל ניקוד לפי אלה שהופיעו בו. באמזון מצורף לכל ביקורת ציון בן 1-5 כוכבים, אז אפשר להשתמש גם בהם כדי ללמוד מתי יש ביקורת קטלנית שרק נראית כמו ביקורת טובה עם מילים כמו "מעולה" או "הכי".

התוצאות

איך יודעים כמה טוב אלגוריתם כזה עובד? לקחו 90 משפטים שזוהו אוטומטית כסרקסטים ו-90 משפטים שזוהו אוטומטית כלא-סרקסטים, כשבשתי הקבוצות מופיעות התייחסויות מפורשות לחברה או מוצר מסוימים. המשפטים הלא-סרקסטים באו מביקורות שליליות, כדי להפוך את העסק ליותר קשה. המשפטים האלה נבדקו על ידי אנשים שאינם קשורים לחוקרים ושהחליטו אם כל משפט הוא סרקסטי או לא. בסופו של דבר נתקבלו 180 משפטים עם שני סטים של ציונים: אלה ששש"י נתן להם, ואלה שבני אדם נתנו להם.

עכשיו צריך להגיד מילה על איך מודדים איכות של תוצאות בתחום שנקרא אחזור מידע; אם לא מעניין אתכם איך בדיוק מדדו את הביצוע, אתם יכולים לדלג לפסקה הבאה. ובכן, יש שני פרמטרים עיקריים: precision (נקרא לזה "דיוק") ו-recall (למיטב ידיעתי אין שם רשמי בעברית, אז אולי אפשר לקרוא לזה "להוחזר"). הרעיון הוא לבדוק כמה מטרות רלוונטיות נמצאו ע"י המערכת. ניתן דוגמה.
נגיד שהמערכת הסתכלה על 200 משפטים ואיתרה אוטומטית 50 מהם שלדעתה אמורים להיות סרקסטים, כך ש-150 אינם סרקסטים. עכשיו בודקים אם היא צדקה. קודם נבדוק את הדיוק (precision) שלה: כמה מתוך 50 המשפטים באמת סרקסטים? אם 40 מהם באמת סרקסטים ו-10 לא סרקסטים, יש למערכת דיוק של 80%. עקרונית, ניתן להשיג דיוק גבוה אם מגבילים את המערכת למצוא ביטויים כמו "עכשיו אני הולך לומר משהו סרקסטי, שימו לב!". אבל מה שמאזן את הדיוק הוא הלהוחזר (recall): בדוגמה שלנו, המערכת זיהתה ש-50 משפטים מתוך 200 הם סרקסטים. אבל אם בעצם 125 משפטים הם סרקסטים ו-75 אינם, זה אומר שהמערכת מצאה רק 50 מתוך 125 והלהוחזר שלה הוא 40%. אפשר להשיג להוחזר גבוה מאוד אם מחפשים ביטויים כללים מאוד: כמעט כל משפט יכלול את המילה "the" – אבל הרי חיפוש כזה יחזיר המון תוצאות לא רלוונטיות ויוריד את הדיוק. לרוב עורכים גם ממוצע משוקלל של השניים וקוראים לו F-measure.

חזרה למחקר. התוצאות היו, עבור אמזון: דיוק 77%, להוחזר 81%.
עבור טוויטר: דיוק 79%, להוחזר 86%.
אלה תוצאות טובות מאוד!

התוצאות מעניינות בין היתר משום שתהליך הלמידה נעשה מדוגמאות באמאזון, אבל האלגוריתם תיפקד מצוין גם על טוויטים. אחת הסיבות שהחוקרים נותנים היא שבגלל שטוויטים הם חסרי הקשר מטבעם, הם חייבים להיות ברורים יותר. בשביל שאר הסיבות תצטרכו לקרוא את המאמר(ים). כמובן שיש מקום לשיפור: צור/דוידוב/רפופורט מזכירים ששֹשֹ"י יתקשה להבחין בין "הספר היה מצוין עד שהגעתי לעמוד 2" ובין "הספר היה מצוין עד שהגעתי לעמוד 430", אבל מסבירים איך אפשר לעקוף את הבעיה הזו. כמובן שיש עוד הרבה פרטים שלא הזכרנו כאן – היתר במאמרים המלונקקים.

דוגמה לסרקזם

בשולי הדברים, יש לי עוד משהו אחד להגיד למר "TheMarker Online" שכתב את הידיעה הזו בדה-מרקר. כך כתב מר אונליין:

לפי [האתר] בואינג בואינג אחוז הדיוק של האלגוריתם עומד על 77%.

הם אפילו לא טרחו לבדוק דברים לבד! כן, בואו נצטט איזה אתר אינטרנט, כי לבדוק בעצמנו מה כתוב במאמר עצמו זה כ-ל  כ-ך  ק-ש-ה.

Read Full Post »

הודעה משמחת נחתה בדסק השוטף של הבלוג: הקיצוצים המתוכננים בתוכנית לבלשנות חישובית (ובתוכניות אחרות) ב-King's College London בוטלו! כנראה. [למסמך המתיש]

כפי שסיפרנו לכם לפני שלושה חודשים, ב-KCL החליטו להיפטר מכמה אנשי סגל בפילוסופיה, בלשנות חישובית ושאר תחומים מסקרנים. בלאנגואג' לוג סיפרו איך זה נראה מבפנים כאן וכאן.

בינתיים נראה שאחרי לחץ ציבורי לא קטן של סטודנטים, אנשי אקדמיה ובוגרי האוניברסיטה, ההנהלה מצאה דרכים אחרות "לחסוך", כהגדרתה, אפילו מבלי לבטל באופן שרירותי חוזים של כמה מהחוקרים המובילים בתחומיהם. נס שבועות. למרות החשיבות הגדולה של בלשנות תיאורטית הן למדעי הרוח והן למדעי המוח והקוגניציה, ועל אף החשיבות הברורה של בלשנות חישובית להנדסה, לקוגניציה ולמדעי המחשב, בלשנות עדיין נחשבת למקצוע "חלש" שאפשר להתעמר בו קצת (בדומה לשאר מדעי הרוח, חובה לציין). אז לפחות בינתיים, נראה שלא.

Read Full Post »

אתמול נמנעה כניסתו של נועם חומסקי לישראל מירדן, בדרך להרצאה מתוכננת באוניברסיטת ביר זית (כנראה בגלל שהוא סמולן עוכר ישראל, אבל מי יודע. משרד הפנים אמר שסיבה תינתן בהמשך, ואז טען שמדובר בטעות). למרות שהדעות הפוליטיות של חומסקי הן לא מעניין הבלוג, סביר להניח שאנשים רבים ירצו לדעת מה כל הרעש סביב החומסקי הזה ולמה הוא נחשב לבלשן כל כך גדול. זו אמנם עבודה לא פשוטה, לסכם מעל חצי מאה של עבודה בלשנית פורצת דרך; אבל גם בזמנים קשים כאלה צריך לשנס מותניים ולכתוב פוסט.

ההשפעה העיקרית של חומסקי נוגעת לאופן ההסתכלות על השפה כיכולת אנושית. רוצה לומר, בניית מערכת חוקים שיכולים לתאר תחביר של שפה טבעית. הרעיון הוא כזה: אם נולד תינוק בסין, הוא יגדל ויידע סינית בלי שאף אחד אי פעם לימד אותו סינית. הוא יידע לדבר עוד לפני שילך לבית הספר. אם נולדה תינוקת בישראל, היא תגדל ותדע עברית. כלומר, יש משהו משותף לעברית ולסינית, ובעצם לכל השפות הטבעיות. מעבר לכך: חומסקי אוהב לומר שהנכדה שלו יודעת לדבר אנגלית, אבל החתול של הנכדה שלו לא יודע, ולא משנה כמה תנסו ללמד אותו. העיקרון שחומסקי לומד מהתופעות האלה הוא ששפה היא עניין מוּלד – יש משהו במוח שלנו שמאפשר לנו לרכוש שפה על בסיס קלט מועט יחסית מהסביבה. חייו המקצועיים של חומסקי מוקדשים לנסיון להגדיר כיצד המנגנון הזה עובד.

קרדיט לאיור: אין לי מושג

חומסקי דיבר אנגלית, עברית ויידיש בילדותו. את התואר הראשון שלו עשה באוניברסיטת פנסילבניה אצל הבלשן זליג האריס, שעבד באותה תקופה על נסיון לאפיין את המבנה של השפה. חומסקי יישם את התיאוריה של האריס על עברית, ומאז לא הביט אחורה. אחד התוצרים החשובים של הדוקטורט שלו היה הספרון Syntactic Structures שהניח ב-1957 את היסודות למחקר בלשני שלם. בין היתר, מערכת האקסיומות שחומסקי הגדיר הצליחה לתאר במדויק בפעם הראשונה את מבנה מערכת פעלי העזר והפעלים המודאליים באנגלית (might have been going, should not have gone, did not go וכן הלאה).

מתוך אמונה ששפה היא יכולת מולד (ראו החתול של הנכדה שלו), חומסקי הפילוסוף כתב ביקורת חשובה על הגישה ההתנהגותית (behaviorism) של סקינר וטען שאין לה כל אחיזה במציאות בכל הנוגע לשפה, וכתוצאה מכך שהיא תיאורה חלשה באופן כללי. חומסקי המשיך לכתוב רבות בענייני פילוסופיה, למשל בנוגע להיסטוריה של המדע [גישה למנויים בלבד].

בחזרה לבלשנות, בשנות השמונים עולם התחביר יישר קו עם מסגרת ה-Government and Binding שחומסקי פיתח (ונטש עשור וחצי מאוחר יותר). אחד מעמודי התווך של הבלשנות החומסקיאנית הוא גישת Principles and Parameters (עקרונות ופרמטרים), ביטוי מפורש לעקרון המוּלדות: כשתינוק רוכש שפה אנושית, הוא כבר יודע מאליו מה העקרונות של כל שפה. למשל, שמשפט חייב לכלול נושא ונשוא. כל מה שנותר לו הוא ללמוד את ערכי המשתנים, או הפרמטרים: האם הפועל בא לפני הנושא כמו בעברית מקראית, או אחריו כמו באנגלית? האם שמות העצם קיימים בזכר ונקבה כמו בעברית, או גם במין סתמי כמו בגרמנית?

הכתיבה של חומסקי היא בעיה רצינית. לרוב היא מסובכת, מפותלת ודווקאית, וזה לא שהוא מפצה על כך בהרצאות שלו – הוא מרצה משעמם למדי, והוא אפילו מתגאה בזה; לדבריו, התוכן צריך להיות מעניין, לא המרצה.

בשנות התשעים חומסקי שינה כיוון ועבר לפתח את התוכנית המינימליסטית, שמרכיבה היום את הבסיס לרוב המחקר הבלשני התיאורטי. הרעיון המנחה במינימליזם הוא לשער מספר מינימלי של פעולות שהמוח עושה על מנת לבנות משפטים, ומהם לפתח את שאר התאוריה של התחביר. כמובן שמאז המינימליזם הפך להרבה יותר מורכב – פועל יוצא של הנסיון להכיל את כל התופעות של כל שפות העולם – אבל זו עדיין הגישה המובילה, גם אם חומסקי עצמו כבר בקושי מפרסם מאמרים בנושאי תחביר.

מפותל משהו

מי שקורא את הסיכום הזה עלול לטעות ולחשוב שחומסקי בא פעם בעשרים שנה, מנחית תיאוריה חדשה על עולם הבלשנות ומכתיב מה עושים הלאה. זה לא מדויק. ההשפעה של חומסקי עצומה, אין כל ספק, אבל זה בעיקר בגלל שהרעיונות שלו מושכים מאוד ומנוסחים בצורה שמעודדת שימוש בהם. עיקר העבודה הבלשנית נעשה ע"י בלשנים ברחבי העולם שאמנם מושפעים מחומסקי, אבל לא מהססים לשפר את הצעותיו ולפעמים להפוך אותן על ראשן. זה חלק מהיופי במחקר: לוקחים את מה שנראה נכון, זורקים את מה שלא.

כמובן שיש מי שלא מסכימים עם הדרך של חומסקי. בימיה הראשונים של התוכנית המינימליסטית טענו דיוויד ג'ונסון ושלום לפין שבעצם לא היתה שום סיבה לנטוש את מערכת Government and Binding. לטענתם, חומסקי החליט לשנות כיוון באופן שרירותי פשוט כי הוא חשב שמינימליזם הוא "נקי" יותר תיאורטית, ושאר עולם הבלשנות יישר קו באופן נרצע.

גם על המחקר הבלשני עצמו יש ביקורת רבה, כמתבקש בתחום מחקר אקדמי, ורבים מקוראינו ישמחו לספר עליה. אני יכול להעיד שלאחר שעיינתי הן בגישה הסטרוקטורליסטית (המנוגדת לחומסקי, אפשר לומר) והן בתיאוריות שנופלות תחת דקדוק גנרטיבי אבל אינן מינימליזם ושאר ירקות (כמו LFG), נראה לי שמינימליזם היא בכל זאת השיטה הטובה ביותר שיש לנו כרגע; אבל זה גם עניין של העדפה אישית. ניתֵן לוויכוח, אם וכאשר, להתחולל בתגובות.

אמנם ההשפעה של חומסקי על הבלשנות התיאורטית המודרנית לא תסולא בפז, אבל בעולם הוא מוכר בעיקר בתור הוגה דעות, פילוסוף ואפילו איש מדעי המחשב (בזכות היררכיית חומסקי המתארת את כושר הביטוי של שפות פורמליות שונות). וכן, חומסקי מבקר את מדיניות החוץ של ארה"ב על ימין ועל שמאל, הוא אנרכיסט, יש לו דעות מוצקות מאוד לגבי צרכנות ולגבי תקשורת המונים, אבל עבורנו הוא בראש ובראשונה בלשן. ולמי שבכל זאת מתעניין בפוליטיקה שלו: ראו פה.

Read Full Post »

שואל אביתר:

בשנה שנתיים האחרונות שמתי לב לתופעה לשונית מתרחבת – במקום להגיד או לכתוב "כש" (במובן "כאשר") אומרים "ש" (ש בסגול). למשל: "לפעמים שאני שולחת הודעות אס אם אס…" (במקום "לפעמים כשאני שולחת…").
בהתחלה חשבתי שזה סוג של דיבור נמוך שהתחיל מילדים שלא שמעו את העיצור של ה"כ" כשמישהו אחר דיבר, וחזרו על הביטוי ללא ה"כ". לאחרונה התחלתי למצוא את זה גם בעיתונים (למשל הדוגמה הזו שנתתי היא מתוך הפוסט של יובל דרור – שבו הוא מביא צילום של מוסף "ממון" של ידיעות אחרונות). יכול להיות שזה משהו תקני בעברית ורק אני לא ידעתי על זה? יכול להיות שזה שיבוש ידוע כבר הרבה שנים ורק אני נתקלתי בזה לראשונה לפני שנתיים?

אביתר צודק, כמובן: אחד המאפיינים הבולטים של עברית מדוברת עממית היא השחיקה של צורת "כש-". היום אנשים מתלוננים שנתקע להם שהם שולחים שיר, למשל. עם כל הזהירות מאשליית הטריות, אני חושב שמדובר בתופעה חדשה יחסית. אם מישהו מוצא תיארוכים מוקדמים, אנא חילקו עמנו.

מה שיותר מעניין (אותי) מהשאלה מתי זה התחיל הוא השאלה למה זה קורה. בניגוד לאביתר, הייתי מהסס לפני שאני קובע שהצורה הזו נוצרה בגלל שילדים לא שמעו את ה"כ". השמיעה של ילדים מצוינת והם יכולים ללמוד צורות פונטיות מורכבות הרבה יותר, וחוץ מזה, והצורה הזו מופיעה גם בכתב.

סיבה אפשרית אחת היא פונטית (סוג ההסבר המועדף על אנשים מסוימים): זה קצת קשה להגיד "כש-" והדובר מעדיף לשבור את רצף העיצורים ולהשמיט את ה"כ" המיותרת הזו בהתחלה.

ישנו גם עניין של האחדה: בשביל מה צריך שתי דרכים לשעבד פסוקית? אפשר לאחד את "כל פעם שאני הולך לישון" ו-"תמיד שאני הולך לישון", כשעצם העובדה ש"ש" פותחת פסוקית זיקה הופך את המעבר לחלק יותר. אפשר גם להשוות את המבנה עם "ש" לצירופים כמו "בפעם הקודם שראיתי את זה" שהם במובהק תיאורי זמן, מה שבטח עזר לטשטש את הגבולות.

עניין נוסף שעשוי להיות מעניין הוא מקרים של תיקון-יתר (ת' לבן לי על הרעיון), כלומר מקרים בהם אנשים שמודעים לשיבוש הזה מנסים לתקן משהו שלא צריך לתקן, ואומרים משהו בסגנון "כל פעם כשאני הולך לישון". כאן קצת קשה להבחין אם מדובר בתיקון-יתר או בנסיון להכניס תיאור זמן רגיל עם "כש".

Read Full Post »

הקורא אלעד, שעשה לו מנהג לשלוח לנו דברים מעניינים, מספר לנו על קבוצת הפייסבוק בעלת השם המעניין התספורת שגרמה לתלמיד לגורש לתמיד מבית ספר! חובה לראות. כן, לגֹרַש, שם הפועל האבוד של בנין פֻעַל.

בבניינים הסבילים פֻעַל (מילים כמו בֻּטַּל, שֻׁבַּץ וכן הלאה) והֻפְעַל (הֻצְמַד, הֻדְגַשׁ וכו') אין צורת מקור, או מה שמכונה בעברית שם פועל. אם לָמַד זה ללמוד, ולִמֵּד זה ללַמֵד, והִמליץ זה להמליץ – מה לגבי בוטל והוכנס? ובכן, אנחנו שמחים לבשר על סוף החיפוש וקץ הסכסוך! כדברי אלעד:

כדי לבדוק עד כמה התופעה מקובלת חיפשתי בגוגל את המילה "לגורש", ומצאתי מספר תוצאות במשמעות "להיות מגורש". כנ"ל לגבי "לשומש", לבוצע ו"לסומן" .

אם זה המצב, ניתן לצפות למצוא גם את שם הפעולה השגוי של בנין הופעל. חיפוש קצר לא העלה הרבה: המשתמש hillelg השתמש במילה "להודגש" בצורה יצירתית אצל העמיתים בפורום בלשנות ושפות העולם בתפוז ("בסוף הקטע הרצוי להודגש"). ברם, בסיפור סמיכתו לרבנות של ר' חיים ויטאל הוא מזכיר שאלוהים חנן אותו "להוסמך" על ידי ר' יוסף קארו, ועורך החיבור "בנין האומה" (פנחס לינטופ?) הסביר: "להיסמך".

אלעד תוהה אם התופעה הזו תתפשט. אישית, קשה לי לראות את זה קורה מהסיבה שהמקרים בהם ניתן להשתמש בצורות האלה נדירים יחסית. אבל מי יודע, אולי עוד יגרמו לי להופתע.

[ת' לאלעד]

Read Full Post »

כנגד שני שימושים דיברה תורה:

  • "עזוב את המסכן הזה, אף אחד לא רואה אותו ממטר"
  • "המבחן שהיה לי אתמול בקוונטים לא רואה את המבחן לשכה שלך ממטר"

כלומר, אם X לא רואה את Y ממטר, אז או של-X לא אכפת מ-Y ודיעותיו, או ש-X הינו הרבה יותר אינטנסיבי באיזושהי תכונה חשובה (קושי של מבחן, גודל של קבוצה, יופיה של נערה, וכו'). לא מדובר במשמעויות שונות לגמרי, אולי אפשר להגדיר מכנה משותף כ-"Y הינו זניח אל מול X".

כעת נשאלת השאלה האמיתית: איך מעצימים את הביטוי הזה? אני אדם חובב העצמות והפחתות של ביטויים פיגורטיביים. אז איך נתרגם לשפת האופטומטריה את "Y הינו ממש זניח אל מול X"?

כמו תמיד, יש שתי גישות.

האחת, לפנות למילולי. מהי המשמעות המילולית של "לא רואה ממטר"? הרושם הוא ש-X לא יכול להבחין ב-Y אפילו אם זה האחרון עומד במרחק מטר בלבד ממנו. לכן, כדי להעצים, עלינו להקטין את המרחק: אם אפילו ממרחק של (נאמר) חצי מטר, סנטימטר או מילימטר X לא רואה את Y, הוא כנראה מאוד מאוד זעום. נציין גם שהגרירה המתבקשת נשמרת: אם X לא רואה את Y ממילימטר, הוא גם לא רואה אותו ממטר. תם ונשלם.

הגישה השנייה היא לשאול את הגורו גוגל לדעתו (כן, אני יודע שלספור תוצאות זה פאסה ולא מדויק. אותי מספק שבשני העמודים הראשונים כל המשמעויות הן מה שאני מחפש, וזה אכן המקרה). זה מה שיש לו להגיד:

המסקנה היא כנראה ששני כיווני ההעצמה מקובלים בערך באותה המידה (כלומר, כמעט ולא, אבל קיימים). איך מסבירים את ההארכה, שלכאורה אינה הגיונית (ע"פ ההסבר המילולי")? כנראה באנלוגיה פשוטה: מטר זה מעט, קילומטר זה הרבה ← "לא רואה ממטר" זה נחמד, אבל "לא רואה מקילומטר" זה הרבה יותר משמעותי. זה קו מחשבה סביר: לי לקח לא מעט זמן להסיק את מה שכתבתי פה, אז בזמן אמת זה בטח לא בא במיידי.

Read Full Post »

במסגרת מלחמת החורמה המתמשכת של הבלוג בשורות של שירים שמתעללות במיליות יחס, הפעם שוב תור השפה העברית!

שרה עפרה בקולה המהפנט (כתבה: איילה אשרוב):

תגיד לי איך לעצור את הדמעות

תגיד לי איפה יש עולם אחר לחיות

האלו? לא שכחת איזה בו בסוף שם?

דיברנו פה בעבר על כינויים חוזרים בפסוקיות, ובפרט על מתי צריך או לא צריך, אפשר או אי אפשר, להוסיף "אותו" כדי להזכיר מחדש את שם העצם המשמש מושא. גם ניהלנו עמכם, קוראינו, דיון מהנה בנושא.

אלא מאי? כאן יש מושא עקיף, כלומר מוצרך מילת-יחס, השולט על הפסוקית (המשתמעת: עולם אחר שאפשר לחיות בו). תחשבו שנייה על הדוגמאות הבאות (אני אלמד מהעבר ולא אשים כוכביות, אם כי במרמור-מה):

  • הילד שנתתי צעצוע
  • החבר שהייתי אתמול
  • המועמד שהיא הצביעה
  • השולחן שהתחבאנו
  • ההצעה שהסכמתי

רע, רע, רע, רע ורע. בלי לו, אצלו, בעדומתחתיו, ואיתה בהתאמה, זה לא מובן ולא מתקבל על הדעת (ובשניים מהמקרים אפילו יש כמה אפשרויות). לעומת:

  • הצעצוע שנתתי לילד
  • החבר שהזמנתי
  • השולחן שניקיתי

סבבה, אחלה ופרפקט.

איך בכל זאת הבנו את עפרה? כנראה שמילת השאלה משחקת פה תפקיד – הרי לא בסתם צירוף שמני עסקינן. אם אנחנו שואלים שאלה, או מציגים משפט שאלה בתור פסוקית (כמו בשיר), מילת השימוש לעיתים אצה-רצה בעקבות מילת השאלה. המונח המקובל הוא pied-piping. כך יהיה:

  • תגיד לי מי ראה אותך אתמול ("מי" הוא נושא המשפט ולכן לא צריך מילת יחס)
  • תגיד לי את מי ראית אתמול
  • תגיד לי לאיזה מקום הלכת אתמול (לעומת "תגיד לי איזה מקום הלכת אליו אתמול". תתחננו, תתחננו שאני אחזיר את הכוכביות)
  • תגיד לי אצל מי שתית חשיש הלילה
  • תגיד לי עם מי הכנת קניידלך לסדר

ואילו מילות שאלה נשארו, שהתשובה הקצרה אליהן מתחילה במילת  שימוש? מתי, לאן (שבה ממש רואים את ה-ל, ויש כמובן סיבה היסטורית) ומיודעתנו איפה. אז כנראה שבתוכן מובלעת מילת השימוש, והדוברת הילידית עפרה חזה לא נדרשת לחזור עליה בפסוקית עצמה.

לפני חודשיים וחצי מלא עשור למותה – יהי זכרה ברוך.

Read Full Post »

לנתוני הרקע עלולה להיות השפעה על תוצאות המחקר. רגע, "עלולה" או "עלולים"? הרי הנתונים משפיעים, אבל *לנתוני הרקע עלולים להיות השפעה נשמע רע למדי. איך אפשר להסביר את זה?

הקונץ כאן הוא שהשפעה היא-היא הנושא במשפט. נשתמש בטריק הבלשני הידוע של החלפת מילים במשפטים עד שמוצאים חוקיות (מיומנות חשובה מאוד אשר רק בלשנים מוסמכים רשאים להשתמש בה, וגם זאת בתנאי מעבדה סטריליים בלבד):

  • יש (לי) השפעה
  • היתה (לי) השפעה
  • *היה (לי) השפעה

אנחנו כבר יכולים לראות שהפועל מתאים במין להשפעה.

  • ?ההשפעה היתה.
  • *ההשפעה היה.
  • לנתונים יש משמעות.
  • *לנתונים היה משמעות.
  • לנתונים היתה משמעות.
  • לנתונים היתה השפעה.

ואם נשנה את הפועל במשפט מ"היה" ל"עלול":

  • לנתונים יש השפעה.
  • לנתונים עלולה להיות השפעה.
  • *לנתונים עלולים/עלול להיות השפעה.

זה אמנם הסבר זריז ולא-מחייב, אבל הניתוח הזה תקף גם בשפות אחרות. בערבית, במבנים כמו "היה X", מקובל לקרוא ל-X הנושא. בגרמנית, המשפט Das sind Bücher "אלה הם ספרים" משמעו מילולית "זה הם ספרים", כלומר הפועל מתאים במספר לספרים ו"זה" בתחילת המשפט נשאר ביחיד. "ספרים" נחשבים כאן לנושא.
אני חושב שיש מחקר רציני בנושא, אבל לא יצא לי להתעמק בו. הבמה, כמו תמיד, פתוחה לתגובות; דפנה כבר הספיקה לציין שעצם זה שמילת היחס ל- מופיעה לפני שם העצם מצביעה על כך שהוא לא יכול להיות הנושא.

[ת' למיכל]

Read Full Post »

בחודש שעבר חוויתי מתקפה (מבורכת) על תיבת הדוא"ל שלי. הסיבה היא הציטוט הבא, מהראיון שהעניק פרופ' פיליפ זימבארדו, פסיכולוג בסטאנפורד (יוני שדמי, כלכליסט 18.3.10, ההדגשה שלי):

קשה להתנגד לכוחות שסביבך: השכלה, כסף, סביבה. כדי להתנגד להם, אתה חייב להיות מסוגל לדמיין את העתיד: לצפות באופן ברור בתרחיש עתידי, שבו אתה רואה לאן הצעד הרע שאתה עושה מוביל אותך. אנשים שמאוד ממוקדים בהווה, בפיתוי של ההווה, הכי חשופים למדרון החלקלק.

המשפחה שלי באה מסיציליה, וזו תרבות שחיה בהווה ובעבר. בדיאלקט הסיצילאני אין פועל עתיד, יש was ו־is, אבל אין will be. כשאפילו השפה אינה תומכת בהדמיית העתיד, קשה להטמיע את תוצאות מעשיך לטווח הרחוק. זו אחת מהסיבות לשגשוג המאפיה הסיציליאנית.

הקורא המתמיד אביב התפלא לשמוע שדבר כזה אפשרי בכלל. שפה בלי עתיד? בלתי נתפש!
ואולי לא.

זימבארדו בעבודה, לפני שהוא מתדרך את וויל סמית' וטומי לי ג'ונס. (צילום: יואל אהרון)

ראשית, לא פלא שזימבארדו מתעניים בזמנים משום שזה מה שהוא חוקר לאחרונה.
כדי לחשוב על שפה בלי זמן עתיד לא צריך להסתכל רחוק מדי. לא אלאה אתכם בפרטים על שבדית, פינית, האוסה, אווה, ערבית ושאר שפות בהן זמן עתיד הוא למעשה הרחבה של זמן הווה עם מילה נוספת; מספיק להסתכל על אנגלית. הרי איך נוצר זמן עתיד באנגלית? מצרפים מילה נוספת שמשמעותה סתומה (will) או צירוף בזמן הווה שהמקור שלו ברור למדי, במיוחד אם קראתם את "גלגולי לשון" (is going to). גם בעברית המקראית, מה שאנחנו מכנים היום "זמן עתיד" לא הורה בהכרח על עתיד ("וילך" במובן של "הלך"). כך ש"זמן עתיד" הוא מושג חמקמק.

מה בעצם קורה בסיציליאנית? בוויקיפדיה הסתכלו על כמה ספרים שמתארים את השפה ושם טוענים שגם סיציליאנית יכולה להשתמש בפעלי עזר. בכל מקרה ברור שאפשר להשתמש בזמן הווה כשההקשר ברור, ממש כמו בעברית: "אני הולך מחר לים". משפט לתפארת שמתאר את העתיד בלי להשתמש בשום אלמנט מורפולוגי שמיוחד לעתיד.

איך אפשר להחליט שבשפה חייבת להיות צורת עתיד כלשהי? מן הסתם, אי אפשר. אנחנו פשוט רגילים לזה. יש דברים אליהם אנחנו פחות רגילים, אבל בשפות אחרות אי אפשר בלתם. למשל, יש שיטענו שדווקא הרבה יותר חשוב לדעת עד כמה הדובר בטוח במה שהוא אומר. בגרמנית אפשר להביע עם הטייה פשוטה של הפועל האם מדובר בציטוט עקיף או בדעתו האישית של הדובר. בשפות אחרות חלק מהפועל חייב לציין האם הדובר חווה בעצמו את האירוע שהוא מדבר עליו, ראה אותו במו עיניו או שמע עליו ממישהו אחר.
ישנן שפות (אני חושב שהונגרית היא כזו) שבהן אפשר להטות את הפועל "טען" בשתי דרכים: אחת אומרת שמישהו טען משהו ודיבר אמת, אחת אומרת שהוא טען משהו אבל שיקר. מהו זמן עתיד זניח ליד יצירות מופלאות שכאלה?

אבל עזבו אתכם מזימבארדו וטענותיו על סיציליאנית. איך הוא יכול לקרוא לעצמו פסיכולוג בסטאנפורד בלי להתחפש לבננה?

[ת' לאביב, לינון, לאורן ולכל מי ששלח ותהה למה אף פעם לא עניתי]

Read Full Post »