Feeds:
רשומות
תגובות

Archive for the ‘מורפולוגיה’ Category

צחוקו האפל של הגורל שהגה את מקור ייסורי המצפון המכבידים ביותר על הבלשן ההורה: מצד אחד, אם הורים לא כל כך בולגים כי למי יש זמן לזה. מצד שני, כשהורים, נחשפים לפלאי השפה המהודרים ביותר המגולמים בתהליך הזה שנקרא רכישת שפה. כשהורים שעוברים מדינה עם בת 3 שעכשיו כבר בת 4 וחצי, ושומעים את מה ששמעתי היום, זה כבר פשע בל יתואר לא לפתוח את ממשק הוורדפרס המזעזע ולתקתק במחשכים.

שום דבר לא הכין אותי לזה. הסעתי את הבנות מהגן הביתה, וברמזור מוציאה ענבל (4 וחצי כאמור) את רצף ההגאים הבא,  בדברה על אחותה קרן (תיכף 2. מטריה אצלה זה /bla/):

/aba, keren lakxa et ha-šu of./

ובהילוך איטי:

אבא, קרן לקחה את ה-shoe off.

מזל שהיינו ברמזור למה אחרת הייתי עושה תאונה. סערה מושלמת של תופעות קרוס-לשוניות, הלחמה של עברית ואנגלית בכל רמה שהיא, היבריש אמיתי.

נתחיל ברמה הלקסיקלית. ענבל לקחה את הפועל took ותרגמה אותו כפשוטו ללקחה, מה שלא עושה שכל בעברית שבה מורידים נעל, או בנודניקית שבה חולצים נעל.

הלאה לרמה הלקסיקלית-קומפוזיציונאלית. הרי גם באנגלית אנחנו לא take את הנעל. אנחנו take off את הנעל. ענבל שילבה את שני חלקי הפועל המורכב (phrasal verb) במשפט הסופי, אבל חלקו בתרגום מילוני לעברית וחלקו בשפת המקור.

ברמה המורפו-תחבירית, העניק לנו מנגנון השפה של הילדה את התיבה ha-shoe, שמורכב מקליטיק היידוע ה והמילה האנגלית shoe. מפלצת פרנקנשטיינית זוטא בינות לחלקי המפלצת הגדולה יותר של הפועל המורכב.

לסיכום, התחביר. הו, התחביר. שאלו מכובדיי, המשפט הזה הוא בסופו של דבר בעברית או באנגלית? אמר הלל הזקן – אנגלית כמובן! פועל מורכב שחלקו השני הוא מילת יחס זהו סממן מובהק של אנגלית ואם היתה אומרת לקחה את הנעל החוצה היית לבטח מאבחן כאן משפט אנגלי שעבר שמלול (רה-לקסיפיקציה; אין לי מושג אם באמת אומרים שמלול אבל אני על מסך מלא אז אין לי כוח לפתוח עוד לשונית לבדוק). בא שמאי הזקן לא פחות ודחפו באמת הבניין: עברית היא! מה למילת היחס את במשפט לועזי? "את השו", זהו צירוף עברי שעבר שמלול של המשלים השמני לאנגלית! לא זו אף זו, שבאנגלית לא מיידעים את הנעל הסתם כך, היא צריכה להיות her shoe! קם הלל וניער האבק מכתנתו ואמר וואלה יש לו פוינט לזה. ברמת המשפט הכללית הרי יש לנו מבנה שמתאים לשתי השפות (נושא לפני פועל לפני מושא). אם כן חברים וחברות, השתגית היבריש לתוך פרצוף שלכם.

לרגל המאורע, הנה ניתוח תחבירי לפי בית דקדוק התלויות סבא (dependencies). קשתות כחולות הן תחביר עברי, אדומות תחביר אנגלי, שחורות גם וגם.

keren-shoe-dep

Read Full Post »

…ובו אנחנו לא רק בול-עץ שפה, אלא גם קורטוב של שפה חזקה.

עוד ביום העצמאות תש״ע סיפרנו לכם שמשהו מוזר קורה בעולם איוך שמות העצם (איוך – modification ). בניגוד לסכימות הרגילות, בהן שם עצם מצטרף לאחר ויוצר סמיכות (שמן זית), או שם תואר בא אחרי שם עצם ויוצר צמידות (שמן צמיגי), יש כמה חבר׳ה שלא בדיוק ברור אם הם עצם או תואר, ולא בדיוק ברור אם הם יוצרים צמידות או סמיכות. הצענו כמה מבנים תחביריים אחרים כמבדקים לקטרוג שלהם. אחזור על כמה מהדוגמאות ואוסיף קצת:

  1. אחלה סרט
  2. *סרט אחלה
  3. *אחלה של סרט
  4. אחלה סרט שבעולם
  5. סרט סבבה
  6. *סבבה סרט
  7. סבבה של סרט
  8. *סבבה סרט שבעולם
  9. חרא סרט
  10. סרט חרא
  11. חרא של סרט
  12. *חרא סרט שבעולם

היום אדון בשתי מילים נוספות המותחות פה את היריעה. הראשונה היא פח, שכבר זמן רב אני מתכוון לכתוב עליה בתפקידה כמאייכת. כמדומני חדרה זאת לשפה הכללית מתוך ז׳רגון הספורט, ומשמעותה – גרוע, מצ׳וקמק, עלוב. קבוצה פחשחקן פחילד פח, והמהדרין מחזקים בשחקן פח זבל. איפה היא יושבת בסכימה המרובעת לעיל?

  1. *פח סרט
  2. סרט פח
  3. *פח של סרט
  4. *פח סרט שבעולם

יששש. פרדיגמה חדשה.

המילה השניה היא כזו שלא נתקלתי בה הרבה מעבר לביטוי קפוא אחד, ובעוד כמה פסקאות אסביר מדוע עוררה את זה הפוסט. המילה המאייכת היא זין והיא מופיעה בעיקר בביטוי העלבון הגנרי ילד זין, גנרי כי כמעט אף פעם לא נאמרת על ילדים (אלא גם ילד כאן משמשת כעלבון המורה על ילדותיות).

  1. *זין ילד
  2. ילד זין
  3. ?זין של ילד
  4. *זין ילד שבעולם

מה משותף לשתי המילים האלה? בדומה לחרא, גם כאן יש מילה שהיא שם עצם ללא עוררין (ממש מתארת חומר או חפץ בעולם) שהפכה למתאר כשהיא מוצמדת לשם עצם אחר, סביר שמסיבות מטאפוריות (חפצים לא נעימים הופכים לכינויי גנאי שיושבים על אי-הנעימות הבולטת שלהם). יש גם את אלמנט התמורה (שדנו בו בפוסט הראשון), ״קבוצה שהיא פח״ או שמקומה בפח, ״ילד שהוא זין״ ולמעשה זרג מהלך.

יש גם הבדלים, כפי שכבר ציינתי את זין אי אפשר ממש לחבר להכל. כיוון שהיא מתארת התנהגות היא מראש מתאימה רק לאינדיבידואל בעל אופי (לאו דווקא בן אדם, אפשר אולי לחשוב על חתול זין שלא אכפת לו כשאתה חולה) ואולי, אוליייי לקבוצות קטנות (?איזה כיתה זין, במובן של חבורת מניאקים אחד אחד ולא כאלה שרק התחילו חטיבת ביניים). פח יכול גם לתאר חפצים דוממים ללא הרמת גבה: טלפון פחעיתון פחפח פח. ודאי יש עוד, אבל האמת שבא לי כבר להגיע לדיון שהציף בי את הפוסט הזה, שהוא דווקא תחבירי ולא סמנטי.

הנה לפניכם פוסט של רבקה פרסלר בפני הספר, בשבתו כשיתוף של עידוק. הוא מתאר את הוט כ-״ילדי זין״, למגינת לבי העמוקה. חששותיי נפלו שם על אוזניים ערלות, כי לא בסמנטיקה התעניינתי (סמיכויות זה דבר בלתי צפוי, זאת יודעים כולנו). מה שהפריע לי הוא שאני בכלל לא תופס (אינטואיטיבית, כדובר) את המבנה ילד זין כסמיכות קלאסית ולכן לא חושב שצורת הריבוי הנכונה היא בריבוי הנסמך. למען האמת, עד אותו רגע בכלל לא יצא לי לחשוב על צורת הרבים של הביטוי הזה כי כאמור הוא לא ממש קורה הרבה. ואמנם, בעוד הדפים הראשונים של גיגול ״ילד זין״ (עם המרכאות) מעלה כמעט אך ורק תוצאות רלוונטיות של שם עצם ומאייך, ״ילדי זין״ נותן דברים לא רלוונטיים בעליל. גם אפשרויות הריבוי האחרות שחשבתי עליהן העלו חרס זין.

חיזוק קצת יותר תיאורטי לטענה שלי מצאתי ביידוע. אני די בטוח שתמיד יגידו ״הילד זין הזה״ ולא ״ילד הזין הזה״. מצד שני גם אומרים בימינו ״השמן זית״, אז זה לא מובהק.

אז פניתי לחשוב איך בכל זאת הייתי מרבה את הביטוי, והגעתי למסקנה שהכי טוב נשמע ילדים זין (ביידוע – הילדים זין). ״בוא׳נה, איזה ילדים זין אתם״. נחמד. כמו ״איזה קבוצות פח משחקות פה״. ״ראינו כמה סרטים לעניין״. ״יש בקפה הזה טוסטים לפנים״. ״אלה דווקא כיסאות סבבה״. צורת הריבוי הזו קיימת, הגם אם קשה לשים את האצבע על מה היא בדיוק עושה ואיך מוגדר כאן המאייך. מכירים רפרנסים? אולי חגית בורר?

[חנוכה שמח באיחור, קיוויתי שהכותרת עוד תהיה סבירה באקטואליותה ואני לא חושב שהצלחתי :(]

Read Full Post »

הקורא הנאמן (כאילו יש בכלל מה לקרוא פה בזמן האחרון, עונת מלפפונים לפנים) דן (יותר מסתם קורא: הוא הבוס!) העיר את תשומת לבי (מה ארבע מילים רצופות בלי סוגריים מה) לביטוי מוזר שהולך ורוחש בעולם המושגים המלבב שנקלענו אליו בחודשים האחרונים: מַשגר פצמ"רים. הרי האקזמפלר:

majger
והרי כמה נוספים. יש גם דוגמאות רבות היכולות להיקרא כאדם מבצע הפעולה (מְשגר פצמ"רים), אבל גם זה אינו ביטוי הכרחי.

מה הבעיה בעצם? ובכן, פצמ"ר הוא ראשי תיבות של "פצצת מרגמה". פצצת מרגמה, מעצם שמה, נורית מתוך מרגמה. למיטב הבנתי, אפילו מבחינת דקדקנות טרמינולוגית צבאית אין משגר פצמ"רים שאינו מרגמה, שכן זהו פשוט השם לקטגוריית כלי הנשק היורים פצצות פשוטות באופן תלול-מסלול מעמדה נייחת. לראיה הדוידקות ממלחמת השחרור, שלא היו כלי תקני אך נחשבות למרגמות. בקיצור, הביטוי אינו טבעי בערך כמו "מַרסס כדורי מקלע". מותר להתפלא מהעובדה שהדוגמה לעיל לקוחה דווקא מאתר רשמי של צבא ההגנה לישראל, ושהביטוי מופיע גם בסרטוני דובר צה"ל.

איך הגיח הביטוי החריג ללשוננו? המסלול כנראה קל לשחזור, לא בשונה ממסלול הפצמ"ר עצמו (ברכות יובל, זכית בפרס הקישור הנושאי חסר הטעם בהבלוג לשנת תשע"ד). סוג הקליע יוצא-עזה שזכה למירב תשומת הלב בשנים האחרונות הוא הרקטה. רקטה אכן יורים ממשגר. כשנכנס לתמונה הרכיב האנלוגי למשגר של פצמ"ר, מתבקש לקרוא גם לו משגר. שמו האמיתי מתחבא בתוך ראשי תיבות, ועוד ראשי תיבות שלא משמרים את התנועות של המילים המקוריות (פְּצצת או פִּצְצת? זה לא משנה, בראשי תיבות הוגים /pa/) או את המין הדקדוקי של הביטוי המקורי, ולכן קל לשכוח שבכלל מדובר בראשי תיבות. תוסיפו את העובדה שאין עוד דוגמאות נפוצות לקליע שגוזר את שמו מהנשק ממנו הוא נורה (כדורים מקוטלגים לפי מידה, פצצות מוטסות לפי משקל, רקטות וטילים נושאים לרוב שם ייחודי) ונקבל עילה סבירה למחילה על חוסר-הזהירות. (אגב, בהמשך להערה שמתחת לתמונה – האדם המשגר נקרא רגם).

ומה השם המתאים לתופעה? סקרנו כאן בעבר תופעות לא בלתי-דומות לדבר הזה. היה לנו את התי"מ המיותר, גם שם כיכב הצבא בדוגמאות (המוכר ביותר הוא ככל הנראה סס"ל לבן, כאשר ה-ל בראשי התיבות מסמנת בעצמה "לבן"). לא בלתי-דומה, אבל לא זהה: בתי"מ מיותר קיים אלמנט שחוזר על עצמו בשתי צורות (בתוך ראשי תיבות או מילה קפואה ובתור המילה הרגילה), אבל כאן כל הביטוי כולו זהה במשמעותו לחלק מתוכו. שזה יכול להזכיר סינקדוכה (לא לבלבל עם הכינוי הנפוץ לאקדוחן סיני), התופעה שבה חלק מייצג את השלם או להפך (כשאומרים "אמריקה" ומתכוונים לארצות הברית של אמריקה; בעבר היה מקובל לומר "רוסיה" ולהתכוון לברית המועצות), אבל כאן יחסי החלק-שלם מתייחסים לביטויים הלשוניים ולא לישויות המיוצגות על-ידם. אז שלחתי מייל בהול בנושא לג'ף פולום, אבל אפילו הוא אבד עצות. אז אם בספינת האם נפלה שלהבת, זה הזמן של אזובי הקיר להמציא מונחים! ובכן, התופעה הכי קרובה שהצלחתי לחשוב עליה באיזושהי רמה של אנלוגיה היא גזירה-לאחור: יש לנו מילה שנראית כמו תוצר של הטיה, אפילו שהיא לא. נאמר פָּנים או שוליים. אם נחליט שיש לה צורת בסיס, כמו פן או שול בהתאמה, נסתדר כבר עם להתאים לה משמעות. אז במקרה שלנו, מדובר על צורה שהיא כן תוצר של פעולה לשונית (אבל לא בדיוק גזירה. "ראשי-תיבותיזציה"?) ובמקום לגזור אותה לאחור, גוזר אותה הדובר "לפנים". ממש כמו במשחק הדמקה! ובכן, חברים חברות, עוקבים ועוקבות, חברי האקדמיה, אני מתכבד בזאת להכריז על המושג גזירת-דמקה, שמצטרף לחבריו הגאים סתירונים, תי"מ מיותר, עצטרובל, סנובון, ובטח עוד כמה ששכחתי. [עדכון, 26/11: משאול!]

עם תמונת נצחון זו נסיים. הפסקת אש בלתי-מופרת שתהיה לכולנו.


רפרנס כותרת למי שפספס. ביזיון שאין את המילים בשירונט, או קליפ ביוטיוב שאינו בביצוע אסי כהן.

Read Full Post »

יובל דרור, בבלוגו 'הגלוב', חונך את 'פרויקט מפעול צה"ל'. במסגרת המלחמה העתית בעזה מסר לאחרונה דובר צה"ל שמערכת ההתרעות "מסר אישי" אינה מבצעית, וליתר דיוק: "בשלב זה מערכת מסר אישי איננה מבצעית, בימים אלה נעשות פעולות למבצועה".

דרור הסתער בהתלהבות על שם הפעולה מִבצוּע ומיהר להציע כמה משלו. אם תקראו אותם תראו בוודאי שכמה נשמעים טבעיים יותר וכמה טבעיים פחות. ויש לכך סיבה. הנה ההצעות של דרור, אחת אחת, עם הערותיי.

  1. המערכת עדיין לא חשאית אבל אנחנו עובדים על החשאתה.
    נשמע סביר. בגוגל אפשר למצוא הופעה אחת של המונח החשאה, בהקשר להצפנה.
  2. לא ניתן לספק את הנשק באופן מיידי אבל אנחנו עובדים על המיידתו.
    הברה שנפתחת ביו"ד עיצורית אינה פופולרית בעברית של ימינו, אלא לפני שורוק בשם הפעולה של בניין פיעל: מיון (שתי הברות: mi.yun) אבל לא *המיינה, ביוץ אבל לא *הבייצה, טיוח אבל לא *הטייחה, סיור אבל לא *הסיירה. לכן לא נאמר *המיידה. מה לגבי מיוד? מי יודע.
  3. הפלוגה עדיין לא מספיק מקצועית אבל אנחנו פועלים למיקצועה.
    נשמע סביר, ואכן קיים בלשון הצה"לית כפי שמודיעים המגיבים בפוסט המקורי.
  4. בשלב זה אין בידינו מספיק נתונים כדי לבנות מערכת אבל אנחנו עובדים על המיערוך.
    לא משהו, אבל נסבל. שימו לב שגם כאן וגם בסעיף הקודם דרור עבר מבניין הפעיל לבניין פיעל, משום שבניין פיעל מסוגל להכיל שורשים מרובעים (מ.ק.צ.ע ומ.ע.ר.כ).
  5. הטירונים עדיין לא יודעים לעשות פזצטא ומשום כך החלטנו לפזצטא את כל הפלוגה.
    איום ונורא, לא? קודם כל, שורש מחומש הוא דבר נדיר למדי בעברית. בנוסף, העיצורים המיוצגים על ידי האותיות ז', צ' וט' דומים מאוד אחד לשני ולא מסוגלים לדור בכפיפה אחת בלי תנועה כלשהי שתפריד ביניהם. אי אפשר לומר *לְפַּזְצְטֵא ובמקום זה צריך לומר משהו כמו "לְפַּזַצְטֵא". אבל זה כבר נשמע פשוט כמו מילת היחס ל– לפני המילה פזצטא (וכך כנראה נוצא שם הפעולה בעבר, אבל זה כבר סיפור אחר). בנוסף, יש הרבה הברות: ל.פ.זצ.טא. אמנם שמות פועל בני ארבע הברות קיימים בעברית, אבל הם נחלתו של בנין התפעל (ל.הת.פו.צץ, ל.הת.בר.בר). ודבר אחרון, העיצור האחרון יתנגש עם ההטיות בגוף ראשון ושני: פזצטתי? פזצטתם? אפשר לחשוב על פועל בבניין קל (פזצתי), אבל פועל בבניין קל לא יקבל שם פעולה של בניין פיעל. במילים אחרות, שם הפועל לפזצטא אינו בלתי אפשרי, אבל צפוי לו קרב קשה. שימו לב שעברנו כאן משמות פעולה (החשאה, המיידה) לשמות פועל (לפזצטא) אבל העקרונות דומים.
  6. ידע כל חייל לקטבג את קיטבגו.
    נשמע סביר. לא יודע למה זה לא תפס עדיין – אולי לא מדברים בימינו על קיטבגים כל כך? עוד כשהייתי בטירונות, לפני כמעט עשור ומשהו, המילה קיטבג לא היתה נפוצה מדי.
  7. לא לכל האנשים יש מקלט ולא בכל המקומות האזעקה עובדת אבל אנחנו עובדים על מיקלוט ואיזעוק כל הישובים.
    מיקלוּט נשמע סביר והמגיבים בפוסט המקורי מדווחים שהם כבר נתקלו בשם הפעולה הזה.
    איזעוק גם נשמע סביר ואני לא יודע למה שם הפעולה הזה לא נוצר עדיין. אולי הסיבה אינה פונולוגית אלא סמנטית: מה זה בעצם לאזעק? לחמש באזעקה? למקלט מקום מסוים משמעו שיהיה שם מקלט, אבל אזעקה מושמעת מעל מרחב מסוים ולא במקום ספציפי, ולכן אפשר למקלט ישוב מסוים אבל אי אפשר לאזעק ישוב אחד בלי לאזעק גם את האזור הקרוב לו.
  8. הרמטכ"ל הבטיח כי לאור מטחי הרקטות מצד חמאס, יגיב צה"ל במלוא עוצמת ההמטחה. "נמטיח אותם", ציין.
    נשמע טוב, וגם כאן אני לא יודע למה לא נוצרה עדיין מילה כזו. אולי אין בה צורך כי מובן מאליו שאין לנו שום תגובה מוכנה מלבד המטחות.

שאלה אחרת היא למה להעדיף את המטחה בבניין הפעיל על פני מיטוּח בבניין פיעל. בעברית יש כלל מורפו-פונולוגי חשוב ביצירת פעלים חדשים, כלל שנוגע לבחירה בין שני הבניינים. הכלל הפונולוגי הוא כזה: אם הפועל נגזר משֵם, נרצה לשמור על מבנה ההברות מהמילה המקורית. למשל, שווִיץ לא הפך לפועל *שיווץ אלא לפועל השוויץ, משום שבמילה המקורית יש את צרור העיצורים "שוו" ובניין פיעל מפרק את הצרור הזה באמצעות תנועה. לכן העדפנו ליצור פועל בבנין הפעיל, שלא מכניס תנועה בין פ' הפועל (במקרה הזה, "ש") ובין ע' הפועל (במקרה הזה, "ו" עיצורית): הש.וויץ ולא שי.ווץ. ישנן גם מגבלות סמנטיות: פעלי "גרימה" יהיו לרוב בהפעיל ולא בפיעל (המרדה ולא מירוד, למשל). וכל זה מתועד יפה בין היתר בעבודתו של ליאור לקס, שמתבססת מצדה על מחקריהם החשובים של אותי בת-אל, עוזי אורנן ורבים אחרים.

Read Full Post »

היוש קוראים יקרים,

בין היתר כדי שלא תחשבו שהתפגרנו, להלן תובנה לשונית שתובננה לי זה עתה: ל-"יש" במובנו המודאלי אין צורת עבר/עתיד בהיעדר משלים!

כן כן. שלחתי מייל חד-שורה לעמית בעבודה, עם אינטונציה מסוימת שהתנגנה בראשי. העמית דנן הבין אותה אחרת. לו היה המייל מולנו, הייתי אומר "<המשפט באינטונציה שהתכוונתי אליה>. כך יש לקרוא את זה". אממה, היה זה מייל בן שעה, לכן התפלקה לי צורת עבר מומצאת, "כך היה לקרוא את זה". אוי אברוך. גם "כך יהיה לקרוא את זה" נשמע לי רע למדי.

לא זו אף זו, ששפה חיה איננה זברה, שכולה שחור לבן. הו לא. אנחנו בפוסט מתגלגל, שתוך כדי כתיבתו הבנתי את הקסמיות שבשפה (קסם הוא הֶחתול שלנו, שבחלקו לבן ובחלקו מספר גווני אפור). אם הייתי אומר "כך היה עליך לקרוא את זה" הכל היה טוב ויפה. אך האם מדובר פה באמת בצורת העבר של "יש"? אני חושב שזה סתם אוגד, כי בהווה נאמר "כך עליך לקרוא את זה" בלי יש.

לסיכום, נדמה לי שעליתי על משהו (עד שיהיה לי זמן לעיין בספרות, לפחות. אבל זו תמיד השעה היפה ביותר). יום טוב לכולכם.

Read Full Post »

לאחרונה הייתי קצת נרגן מדי. בואו נתקן עם התמוגגות מרוח היצירה האנושית. מתוך העין השביעית, ציטוט של רוני לינדר-גנץ מהטושהזוהר על בקשות חופש מידע מרשויות המדינה (הדגשה שלי):

מהניסיון שלי, אני ממש יכולה להריח מראש איזה בקשה תידחה, וזה לפי מידת המביכות של המידע.

ממש כך. מביכוּת. עד כמה המידע מביך. "מבוכה" לא ממש מעביר את המסר, אולי בניסוח "לפי המידה בה המידע מביך", אבל זה יוצר הקבלה פחות חלקה וסרבול-מה. "מביכות" היא בדיוק מה שרצינו.

לצערי בשעה זו לא הצלחתי למצוא דרך לעקוף את מחסום-גוגל, שכן מן הסתם מביכוֹת זו מילה מן השורה, אפילו אפשר לצרף לה ה"א הידיעה, ועוד הנודניקים האלה בגוגל מפרקים כל מילה לגורמיה כך שאפילו חיפוש ליטרלי (עם מרכאות) מביא תוצאות עם צורת הבסיס "מביך". [עדכון: תודה למגיבים טל ואסי. סשן זריז הראה שלצירופים "מידת המביכות", "זאת מביכות" ו-"יש פה מביכות" אין אחיזה בהמרשתת, מלבד אותו פוסט בעין. ברכות ללינדר-גנץ.]

מה שכן, זו בפירוש לא הפעם הראשונה בה אני נתקל בשם פעולה חדש שנגזר משם תואר והסיומת "-וּת". אז "מיוחדוּת", "מחוברוּת" ו-"מקושרוּת" כנראה מיותרים, בגלל "ייחודיוּת", "חיבוריוּת" ו-"קישוריוּת" בהתאמה, אבל כשאין את הצורה המקבילה מהמשקל קִטּוּלִיּוּת אנחנו פונים לסיומת הזו ויוצרים "מקובלוּת" ו-"מכובדוּת", מילים שעדיין לא זכו להכרה רשמית בשפה. מדובר בפירוש בסיומת יצרנית (פרודוקטיבית) בעברית בת-ימינו, המקבילה לרוב ל-ity או ל-ability האנגליות.

מזל טוב.

Read Full Post »

[בלה פוסט אורחת בלה גבי סטנובסקי בלה סטודנט לבלשנות בלה באוניברסיטת בת בלה]

לאחרונה נתקלתי ברשת במספר אלגוריתמים לשוניים מעניינים ומוזרים שהוצעו בשפה האנגלית. עניין אותי לנסות ולשחזר אותם עבור השפה העברית. רשומה זו סוקרת את האלגוריתמים, את הכלים החישוביים אשר נעשה בהם שימוש, ומספקת מקבילה עברית שלהם.

NURBLE

במקור

מן הקומיקס המעולה SMBC של הכותב והמאייר זק ווינר (Zach Weiner). בקומיקס מועלים לא פעם רעיונות מתחומים רבים, חלקם דמיוניים לחלוטין, וחלקם מתבררים כפרקטיים למדי.

באחד הקומיקסים הכותב העלה את הסברה כי ניתן לשפר טקסטים פוליטיים ע"י שינוי כל מילה שאינה שם עצם ל-NURBLE. עוקב טוויטר חרוץ לא איחר להגיב עם תוכנה קטנה שעושה בדיוק את זה – מקבלת טקסט, ומחזירה אותו "מנורבל".

הרעיון לא חמק מעינם של הכותבים של לאנגואג' לוג, אלו התייחסו בפוסט שבו הוצעו מספר "מנרבלים" נוספים.

איך זה נעשה

התוכנה הקטנה ששלח העוקב (שנכתבה בשפת PHP) עושה שימוש במשאב חיצוני – קובץ המכיל מאגר מילים וחלק הדיבר שלהם. התוכנה עוברת מילה-מילה על הטקסט אותו יש לנרבל, ובודקת לפי המאגר האם המילה היא שם עצם או לאו – בהתאם היא מחזירה Nurble, או את המילה עצמה.

התוצאה

מעניינת ומשעשעת למדי, ניתן להתרשם באותו הקומיקס מהרצה של האלגוריתם על נאום המצב לאומה של אובמה. באופן מפתיע ניתן להבין את רובו, גם כאשר הרוב המוחלט של המילים "מנורבל".

בעברית

כפי שראינו התוכנה המקורית עשתה שימוש במאגר מילים ממשאב חיצוני. למיטב ידיעתי משאב שכזה לא קיים בשפה העברית. בנוסף, כנראה שנטייתה של השפה העברית לעמימות תחבירית יקשה מאד על שימוש במשאב כזה, גם אם קיים. מסיבות אלו נעשה שימוש במתייג – פונקציה אשר בקבלת משפט מחזירה, בין השאר, את חלקי הדיבר של מילותיו (עוד על כך בהמשך) באחוזי ההצלחה מסוימים. בהינתן פונקציה כזו הפתרון למשימה נעשה טריוויאלי – נעבור על כל המשפטים בקלט, נזין אותם למתייג, ונברור את שמות העצם מתוכם.

התוצאה

התרשמו בעצמכם מ"נירבול" נאומו של יאיר לפיד במליאה:

מקור, ולאחר נירבול.

עינכם הרואות – ה"נארבל" עשה עלייה ל-"בלה", לדעתי גם במקרה הזה ניתן להבין את המסר בקווים כלליים.

נסו בעצמכם

אם אתם מעוניינים לבדוק בעצמכם את ההשפעה של הנירבול על טקסטים אחרים, העלתי מדגים של התוכנה (לאחר הכנסת הטקסט, סמנו את האופציה NURBLE).

אתנחתא – מתייגים, מפיגי עמימות ומודלים סטטיסטיים

בתחום הבלשנות החישובית קיימים מספר תחומים ובעיות אשר נחקרו רבות בשנים האחרונות – רובן בעיות בסיסיות אשר פתרון שלהן יהווה בסיס כמעט לכל מערכת אשר רוצה לעשות שימוש בשפה טבעית. בין אלו ניתן למצוא: תיוג חלקי דיבר (Part Of Speech Tagging), זיהוי ביטויים שמניים (NP Chuncking) וזיהוי ישויות (Named Entity Recognition). קל לראות כי אלו הן אבני הבסיס למשימות "מורכבות" יותר, דוגמת ניתוח תחבירי (Parsing), תרגום מכונה, סיכום אוטומטי, ועוד.

בניגוד למשימות ה"מורכבות", במשימות בסיס אלו קיימת לרוב הסכמה בין דוברי השפה לגבי הפלט הרצוי. כך, כל דובר שפה עברית יסכים כי חלק הדיבר של המילה "רץ" במשפט "גל רץ הביתה" הנו פועל (Verb), בעוד שספק אם קיימים שני אנשים שונים אשר יסכמו את הרשומה הזו לכדי אותו סיכום.

כמובן שבעיות אלו הנן תלויות שפה עד מאד, והאלגוריתמים אשר מנסים לפתור אותן חייבים להתייחס למאפייניה הייחודיים של השפה אליה הם מכוונים פתרונן. למשל אופייה הצירופי (word agglutination) של השפה העברית עלול להקשות רבות על כותבי אלגוריתמים כנ"ל לשפה העברית – אלגוריתמים אלו צריכים להפיג את העמימות באשר היא קיימת לגבי המילים במשפט. אם נסתכל שוב על המילה "רץ" הפעם במשפט "גל הזיז את הרץ למשבצת הסמוכה", ברור כי יש להתייחס למילה רץ בתור שם עצם, בניגוד לפועל שראינו במשפט לעיל – אלגוריתמים אלו יצטרכו לבחור את הפירוש הנכון למילה בהינתן ההקשר המתאים. [ראו גם כאן וכאן – א"ק]

המגמה הבולטת בשנים האחרונות לתקיפת בעיות אלו היא גישה הסתברותית (סטוכסטית). ניתן לייחס זאת להתחזקות כוח המחשוב, לקורפוסים העצומים והבלתי מעובדים (unstructured corpora) של שפה טבעית שמשתמשי האינטרנט מייצרים על בסיס יומיומי, ולאכזבה כללית ממודלים דטרמיניסטיים ו-"שלמים" יותר שהוצגו בעבר.

אלגוריתמים הנוקטים בגישה זו מניחים קיום של מודל כלשהו אשר ממנו מופקים משפטים תקינים בשפה או שבעזרתו ניתן לנתח משפטים בשפה טבעית. כך לדוגמא רשתות נוירונים מניחות קיומו של מודל המפשט את המוח האנושי לכדי נוירונים אשר מופעלים לפי פונקציות הפעלה מסוימות (activation function), ומודלי מרקוב חבויים (Hidden Markov Models) מניחים קיומו של מודל של מכונת מצבים, אשר המעבר בין המצבים תלוי במשפט הקלט ובהסתברות מסוימת.

מודלים אלו נמצאים בבסיס האלגוריתמים הסטוכסטיים. אופיינית, אלגוריתמים אלו יתחילו מתהליך של "אימון" על משפטי קלט משפה טבעית. תהליך זה מטרתו לכייל את הפרמטרים אשר מוטבעים במודל. כך ברשתות נוירונים יכוילו המשקלים אשר ניתנים לכל נוירון, ובמודלי מרקוב חבויים תכוילנה ההסתברויות למעבר בין המצבים.למעשה ניתן לומר כי תהליך האימון מתאים את המודל למשימה הספציפית מולה ניצבים.

לאחר שלב האימון, מפסיקים לכייל את הפרמטרים של המודל ומציגים בפניו משפטים שלא חזה בהם בשלב האימון. בתקווה, המודל אכן יודע להכליל איזושהי תחזית לגבי כלל המשפטים בשפה (או בחלק נרחב ממנה), ולכן יוכל לתת תשובות באמינות מסוימת גם עבור משפטים שלא ראה בעבר.

חלק מן החכמה בכתיבת מערכות שכאלו כוללת את בחירת המודל, אפיון הפרמטרים שלא ישתנו במהלך האימון (לדוגמא, טופולוגיית הרשת במקרה של רשתות נוירונים), ובחירת המאפיינים (features) שיהוו קלט למודל הנבחר.

עבור מימוש שני האלגוריתמים הפשוטים יחסית שמתוארים ברשומה זו, עשיתי שימוש במתייג ומפיג העמימות שנכתב על ידי מני אדלר מאוניברסיטת בן גוריון. משפטים שלמים מן הקלט מוזנים אליו, ובתמורה מקבלים עבור כל מילה בין השאר את חלק הדיבר שלה (בו כבר עשינו שימוש עבור אלגוריתם NURBLE) את הבניין, הזמן, המין, הגוף, ואת צורת הריבוי שלה – בכל אלו נעשה שימוש באלגוריתם הבא שיתואר.

Jailbreak the Patriarchy

במקור

במקרה הזה מדובר בתוסף לשוני מוזר לדפדפן chrome שמתיימר לשבור את הפטריארכיה השלטת ברשת.

התוסף מחליף בטקסט דפי האינטרנט שמות גוף זכריים לנקביים ולהיפך. בנוסף הוא מחפש ביטויים זכריים מסוימים ומחליף אותם במקבילה הנקבית שלהם, ולהיפך. כך לדוגמא "he loved his mother very much" יהפוך ל-"she loved her father very much" ו-"the patriarchy also hurts men" יומר ל- "the matriarchy also hurts women".

איך זה נעשה

לפי תיאור התוסף, נראה כי מדובר במשימת "חפש-החלף" פשוטה יחסית: התוסף עובר על הטקסט בדף, ומחפש ביטויים שנקבעו מראש. ברוב המשפטים אכן מושגת החלפת מין (gender swapping, לפי הכותב), זאת מכיוון שרוב חלקי הדיבר בשפה האנגלית הם ניטרליים מבחינת מין.

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

בעברית

בדומה לאלגוריתם הקודם, נראה כי הגישה שננקטה במקור לא תספק מענה הולם בעברית. נסתכל על הדוגמא שנתנה בחלק הקודם:

  • גל רץ הביתה.
  • גל הזיז את הרץ למשבצת הסמוכה.

נניח כי נבצע משימה של חיפוש והחלפה, ונרצה להחליף את "רץ" ב-"רצה", נקבל:

  • גל רצה הביתה
  • * גל הזיז את הרצה למשבצת הסמוכה

ברור כי זוהי אינה התנהגות רצויה, וכאמור, בשפה האנגלית לרוב לא נתקלים בקשיים שכאלו.

הדרך בה נקטתי לפתרון הבעיה הנה שימוש במתייג שהוזכר לעיל – ממנו דליתי עבור כל מילה בקלט את חלק הדיבר שלה, בהתאם הפעלתי עליה פונקציית החלפת מין. אתאר את הפונקציות עבור חלקי הדיבר שם-גוף ופעלים:

שמות גוף:
בהינתן הידע כי מילה מסוימת היא שם גוף, והעובדה כי שמות הגוף היא קבוצה סגורה וקטנה יחסית של מילים, ניתן להשתמש בטבלה פשוטה ולהמיר "הוא" <-> "היא", "הם" <->"הן" וכיו"ב.

פעלים:
בהינתן הפרמטרים הבאים עבור מילה: בניין, זמן, מין, גוף, ואת צורת הריבוי שלה. ניתן להשתמש בחוקי התחביר העברי, לגזור את השורש ולשתול אותו במקבילה הנקבית / זכרית.
בנוסף לאלו, הכנסתי גם רשימת ביטויים בעלי מין אותם האלגוריתם מחליף, בדומה לתוסף המקורי – "אמא" <->"אבא", "פטריארכיה" <-> "מטריארכיה" ועוד.

התוצאה

מעניינת, אך רחוקה מלהיות מושלמת. אם להמשיך באותו קו של דוגמאות, בחרתי את פוסט הפייסבוק שמשום מה התפרסם בזמן האחרון על ריקי כהן הדמיונית, וזוהי התוצאה: "אני רוצה שנדבר על מר כהן". ניתן לראות כי ביטויים רבים מבלבלים את התוכנה, אולם ברגעיה היפים יוצאים משפטים לתפארת מרב מיכאלי.

נסו בעצמכם

גם בתוכנה זו ניתן להתנסות בהמרת מינו של כל ביטוי העולה על רוחכם – כאן (לאחר הכנסת הטקסט, סמנו את האופציה Jailbreak).

[בלה בלה רשומת אורחת בלה גבי בלה בלה בלה פוסט אורחת בלה צרו בלה קשר בלה בלה דרך הטופס בעמוד בלה בלה]

Read Full Post »

Older Posts »