Feeds:
רשומות
תגובות

Archive for the ‘פרגמטיקה’ Category

באזור הדמדומים שבין תל-אביב לגבעתיים נתקלתי בפוסטר הבא:

wpid-20150105_102011-1.jpg

שומר נפשו יו!

נתקלתי ונאלמתי דום, משום שלא הבנתי מה הקשר בין השאלה לתשובות. למעשה, לא הבנתי האם ועד כמה דיסקונט גנבים. אסביר.

הכרזה מכריזה: "סקר לציבור הרחב יקבע האם דיסקונט גנבים?" ומבקשת "סמן X לתשובה הנכונה". עקרונית סימן השאלה מיותר, שהרי מדובר בציטוט עקיף, אבל לא נורא. מה שחשוב הוא שעל פניו, יש לנו עסק עם שאלת כן/לא: או שדיסקונט גנבים, או שדיסקונט לא גנבים (יש טיעונים לכאן ולכאן, ומכיוון שאנחנו בלוג הבלשנות דגש קל ולא בלוג הבנקאות כסף קל לא ניכנס אליהם).

אלא שהתשובות האפשריות הן:

(1) הרבה מאוד גנבים
(2) המון גנבים
(3) רק גנבים
(4) כל התשובות נכונות

בואו נראה מה בעצם אומרות התשובות האלה. (3)-(1) הן קביעות לגבי כמות הגנבים מתוך עובדי בנק דיסקונט וכולן מעלות את השאלה הבאה — מה אחוז הגנבים מתוך כלל עובדי בנק דיסקונט כך שהתשובה תהיה נכונה? למשל, ניתן להניח שאם 20% מעובדי הבנק הם גנבים, זה אחוז שערורייתי. במקרה כזה גם (1) וגם (2) נכונות. למעשה, לא ברור מתי יש הבדל בין (1) ל-(2): מה בעצם ההבדל בין הרבה מאוד ל-המון? רק עניין של משלב?

את (3) קל יותר לכמת: 100% מהעובדים צריכים להיות גנבים כדי ש-(3) תהיה נכונה. ברגע שעובד אחד אינו גנב, אי אפשר לומר שבדיסקונט עובדים רק גנבים.

תשובה (4) אפשרית ומהווה דוגמה למה שנקרא אימפליקטורה סקלארית: אני יכול לומר שבדיסקונט יש הרבה מאוד או המון גנבים, בהתאם לתשובות (2)-(1) — ואז תחשבו שיש אולי 20% או 60% — אבל להמשיך ולומר "בעצם, כולם שם גנבים" בהתאם לתשובה (3). לא ממש סתרתי את עצמי: כשאמרתי שיש "הרבה" גנבים (20%) השתמע שאין מספיק בשביל "רק" (100%), אבל המשכתי על הסקאלה עד שהגעתי ל-100% של "רק".

עד כאן הכל טוב ויפה, הבנו מה ההבדלים בין התשובות השונות ואפשר לעצור כאן. אבל לי עלתה מחשבה אחרת: שאנחנו בכלל לא מדברים על כמות כאן, אלא על אופן או מידה. במילים אחרות, השאלה היא לא "כמה מעובדי בנק דיסקונט הם גנבים", אלא "אנחנו יודעים שהבנק הוא ישות גנבה, עכשיו בואו ניתן לגנבוּת שלהם ציון". הפירוש הזה מתאים יותר לשאלה המקורית בכרזה, ופרגמטית נראה לי שזו היתה הכוונה. הבעיה היא שזו תחושת בטן שקשה למצוא לה סימוכין. דמיינו שהשאלה היתה "האם דיסקונט הגונים?" והתשובות האפשריות היו:

(5) מאוד הגונים
(6) נורא הגונים
(7) הכי הגונים
(8) כל התשובות נכונות

תשובות כאלה אפשריות מפני ש-הגון הוא שם תואר (או שם עצם, תלוי) שאפשר להגביר באמצעות תארי פועל כמו מאוד, נורא, ממש, קצת וכן הלאה. אם ננתח כך את "גנבים" ניאלץ לומר שני דברים. ראשית, ש-גנב הוא שם תואר במקרה הזה, ושנית, ש-הרבה מאוד, המון ו-רק יכולים לשמש כתארי פועל. מתחשק לומר שהראשון לא נכון והשני לא יהיה, אבל בואו נראה.

לא יהיה בעייתי מדי לפרש את גנב בתור תכונת אופי, להבדיל ממקצוע. השאלה היא אם יש סקאלה של גנבוּת. שוב, תחושת הבטן שלי היא שכן אבל לא מצאתי דוגמאות טובות ברשת. לגבי הנקודה השנייה, גם הרבה מאוד וגם המון אפשריים כלוואי לשמות תואר בעברית עכשווית. ההדגשות שלי:
"עצוב וזהו. הרבה מאוד עצוב, בלי עצות, בלי השגות, בלי "אבל מה עם…?". ככה. זה מה יש." [מקור]
"ראיתי אתמול את ההקרנה (לנשים, אצלנו הגבילו כניסה מגיל 18). מטלטל, עוצמתי, מרגש (והמון המון עצוב), ובעיקר יוצק אמונה בכמויות." [מקור]

חיפשתי בינתיים רק עם התואר עצוב ויהיה מעניין לראות אם התופעה מתפשטת לתארים אחרים (עוד על שילובים מפתיעים בין שמות ולוואים כאן וכאן). השורה התחתונה היא שאפשר לדעתי לומר על אדם מסוים שהוא לא סתם גנב, הוא המון גנב או הרבה מאוד גנב או קצת גנב. אני חושד שזה הרעיון שניסוי להעביר בכרזה, אבל בגלל שעדיין מדובר בשימוש לא נפוץ בשפה, קשה לי להגן על הניתוח הזה כרגע.

אז מה המסקנה מכל הדיון הזה לגבי סקאלות ותארים? הכרזה מכמתת גנבים או מאייכת גנבוּת? כל התשובות נכונות.

Read Full Post »

הקורא הנאמן (כאילו יש בכלל מה לקרוא פה בזמן האחרון, עונת מלפפונים לפנים) דן (יותר מסתם קורא: הוא הבוס!) העיר את תשומת לבי (מה ארבע מילים רצופות בלי סוגריים מה) לביטוי מוזר שהולך ורוחש בעולם המושגים המלבב שנקלענו אליו בחודשים האחרונים: מַשגר פצמ"רים. הרי האקזמפלר:

majger
והרי כמה נוספים. יש גם דוגמאות רבות היכולות להיקרא כאדם מבצע הפעולה (מְשגר פצמ"רים), אבל גם זה אינו ביטוי הכרחי.

מה הבעיה בעצם? ובכן, פצמ"ר הוא ראשי תיבות של "פצצת מרגמה". פצצת מרגמה, מעצם שמה, נורית מתוך מרגמה. למיטב הבנתי, אפילו מבחינת דקדקנות טרמינולוגית צבאית אין משגר פצמ"רים שאינו מרגמה, שכן זהו פשוט השם לקטגוריית כלי הנשק היורים פצצות פשוטות באופן תלול-מסלול מעמדה נייחת. לראיה הדוידקות ממלחמת השחרור, שלא היו כלי תקני אך נחשבות למרגמות. בקיצור, הביטוי אינו טבעי בערך כמו "מַרסס כדורי מקלע". מותר להתפלא מהעובדה שהדוגמה לעיל לקוחה דווקא מאתר רשמי של צבא ההגנה לישראל, ושהביטוי מופיע גם בסרטוני דובר צה"ל.

איך הגיח הביטוי החריג ללשוננו? המסלול כנראה קל לשחזור, לא בשונה ממסלול הפצמ"ר עצמו (ברכות יובל, זכית בפרס הקישור הנושאי חסר הטעם בהבלוג לשנת תשע"ד). סוג הקליע יוצא-עזה שזכה למירב תשומת הלב בשנים האחרונות הוא הרקטה. רקטה אכן יורים ממשגר. כשנכנס לתמונה הרכיב האנלוגי למשגר של פצמ"ר, מתבקש לקרוא גם לו משגר. שמו האמיתי מתחבא בתוך ראשי תיבות, ועוד ראשי תיבות שלא משמרים את התנועות של המילים המקוריות (פְּצצת או פִּצְצת? זה לא משנה, בראשי תיבות הוגים /pa/) או את המין הדקדוקי של הביטוי המקורי, ולכן קל לשכוח שבכלל מדובר בראשי תיבות. תוסיפו את העובדה שאין עוד דוגמאות נפוצות לקליע שגוזר את שמו מהנשק ממנו הוא נורה (כדורים מקוטלגים לפי מידה, פצצות מוטסות לפי משקל, רקטות וטילים נושאים לרוב שם ייחודי) ונקבל עילה סבירה למחילה על חוסר-הזהירות. (אגב, בהמשך להערה שמתחת לתמונה – האדם המשגר נקרא רגם).

ומה השם המתאים לתופעה? סקרנו כאן בעבר תופעות לא בלתי-דומות לדבר הזה. היה לנו את התי"מ המיותר, גם שם כיכב הצבא בדוגמאות (המוכר ביותר הוא ככל הנראה סס"ל לבן, כאשר ה-ל בראשי התיבות מסמנת בעצמה "לבן"). לא בלתי-דומה, אבל לא זהה: בתי"מ מיותר קיים אלמנט שחוזר על עצמו בשתי צורות (בתוך ראשי תיבות או מילה קפואה ובתור המילה הרגילה), אבל כאן כל הביטוי כולו זהה במשמעותו לחלק מתוכו. שזה יכול להזכיר סינקדוכה (לא לבלבל עם הכינוי הנפוץ לאקדוחן סיני), התופעה שבה חלק מייצג את השלם או להפך (כשאומרים "אמריקה" ומתכוונים לארצות הברית של אמריקה; בעבר היה מקובל לומר "רוסיה" ולהתכוון לברית המועצות), אבל כאן יחסי החלק-שלם מתייחסים לביטויים הלשוניים ולא לישויות המיוצגות על-ידם. אז שלחתי מייל בהול בנושא לג'ף פולום, אבל אפילו הוא אבד עצות. אז אם בספינת האם נפלה שלהבת, זה הזמן של אזובי הקיר להמציא מונחים! ובכן, התופעה הכי קרובה שהצלחתי לחשוב עליה באיזושהי רמה של אנלוגיה היא גזירה-לאחור: יש לנו מילה שנראית כמו תוצר של הטיה, אפילו שהיא לא. נאמר פָּנים או שוליים. אם נחליט שיש לה צורת בסיס, כמו פן או שול בהתאמה, נסתדר כבר עם להתאים לה משמעות. אז במקרה שלנו, מדובר על צורה שהיא כן תוצר של פעולה לשונית (אבל לא בדיוק גזירה. "ראשי-תיבותיזציה"?) ובמקום לגזור אותה לאחור, גוזר אותה הדובר "לפנים". ממש כמו במשחק הדמקה! ובכן, חברים חברות, עוקבים ועוקבות, חברי האקדמיה, אני מתכבד בזאת להכריז על המושג גזירת-דמקה, שמצטרף לחבריו הגאים סתירונים, תי"מ מיותר, עצטרובל, סנובון, ובטח עוד כמה ששכחתי. [עדכון, 26/11: משאול!]

עם תמונת נצחון זו נסיים. הפסקת אש בלתי-מופרת שתהיה לכולנו.


רפרנס כותרת למי שפספס. ביזיון שאין את המילים בשירונט, או קליפ ביוטיוב שאינו בביצוע אסי כהן.

Read Full Post »

אורה פלד נקש ספק-שואלת-ספק-מלשינה בקו החם של טוויטר: "יואל מרקוס נופל בפח השלילה הכפולה?". כך כתב מרקוס כשנכנסו לטהר ויצאנו מטוהרים (ההדגשה שלי):

2. כל אימת שאנו מצויים בעימות צבאי, נוצרת אותה בעיה: אנו יודעים איך מתחילים, אך לא יודעים איך יוצאים. או שיוצאים מוקדם מדי ולטווח קצר מדי. דבר אחד צריך להיות ברור הפעם. א': לא יוצאים מעזה בלי שאנו יודעים בוודאות שלא נוטרלה אחרונת המנהרות. ב': צריך לפעול למען פירוז עזה מטילים. יש נטייה לשכוח שעזה אינה ישות עצמאית, אלא מפלגה־תנועת טרור בשם חמאס, שהשתלטה על חלק מהטריטוריה הפלסטינית. האם מישהו מעלה בדעתו, שאופוזיציה כלשהי, בצרפת למשל, היתה תופסת טרירטוריה מסוימת ומשליכה את שוטרי הרפובליקה מהגגות ומשתלטת כך על חלק מהמדינה?

אורה מתכוונת לתופעה המתסכלת שבה מרוב שלילות לא רואים את היער. לתופעה הזו אפשר לקרוא שלילה כפולה או שלילה שגויה והיא תועדה יפה על ידי עמיתיי לבליגה (במיוחד פינטר) שתיעדו יותר שלילות כפולות מאשר יש לנו מלחמות בעזה.

שלילות רבות ומרובות מתקילות את מרקוס בפיסקה הזו, משל היו שאלות על המצב שמופנות לראש הממשלה במסיבת עיתונאים דמיונית. ובכן. למה התכוון המשורר? טוב, ברור למה הוא התכוון: שהתנאי ליציאה מעזה הוא כזה — אין יותר מנהרות. טיהרנו את כולן. אבל האם זה באמת מה שמרקוס כתב? בואו נבדוק. העניין מסובך במיוחד משום שיש כאן שתי פסוקיות: זו שמתארת מה שאנחנו יודעים, וזו שמתארת את מה שקרה בשטח.

יוצאים כשיודעים בוודאות שנוטרלה אחרונת המנהרות – יוצאים מעזה אחרי שווידאנו שהמנהרות נוטרלו כולן.
יוצאים בלי שאנו יודעים בוודאות שנוטרלה אחרונת המנהרות – יוצאים בלי לוודא שהמנהרות מנוטרלות.
לא יוצאים בלי שאנו יודעים בוודאות שנוטרלה אחרונת המנהרות – יוצאים אחרי שווידאנו שהמנהרות נוטרלו כולן.

אבל עכשיו, חזיז ורעם, צצה לה שלילה בפסוקית המשועבדת.
לא יוצאים בלי שאנו יודעים בוודאות שלא נוטרלה אחרונת המנהרות – יוצאים אחרי שווידאנו שהמנהרות לא נוטרלו כולן.

כמעט! אבל שלילה אחת מיותרת הביאה למשמעות הפוכה. לא נורא, ננסה שוב בשנה הבאה.

[ת' לאורה]

Read Full Post »

אח, שלילה כפולה. ומשולשת ומרובעת. הלא-קרם-דה-לה-לא-קרם של טעויות הסמנטיקה.

צפו-צפו נא בהעלאת הגרה העונתית של המקור. הופסלך, כבר בדקה 2:07 מתחיל רזי ברקאי לשאול:

לא הגיע הזמן שהגוף הזה לא יהיה מבוקר כמו גופים אחרים?

בטוחני כי כל הצופים הבינו בדיוק למה רזי מתכוון. הוא פשוט לא התכוון לומר את ה-"לא" השני. איכשהו זה עובר חלק. מוחות הקוף האומללים שלנו עד כדי כך מתחסרי ישע כשמשפט טיפה מסובך מגיע אליהם, שכל הסמנטיקה נזרקת הפחה והפרגמטיקה הופכת לסמכות הבלבדית של מה-הרגע-אמרו-לנו. אני חושב שאני בעצמי שמתי לב לזה רק כי יש לי טריגר מיוחד לשלילה כפולה, שמופעל כשאני שומע פעמיים "לא" בקרבה מעוררת חשד.

כי המסך לא יצלם את עצמו

כי המסך לא יצלם את עצמו

מימונה שמחה לכל!

Read Full Post »

[בלה פוסט אורחת בלה גבי סטנובסקי בלה סטודנט לבלשנות בלה באוניברסיטת בת בלה]

לאחרונה נתקלתי ברשת במספר אלגוריתמים לשוניים מעניינים ומוזרים שהוצעו בשפה האנגלית. עניין אותי לנסות ולשחזר אותם עבור השפה העברית. רשומה זו סוקרת את האלגוריתמים, את הכלים החישוביים אשר נעשה בהם שימוש, ומספקת מקבילה עברית שלהם.

NURBLE

במקור

מן הקומיקס המעולה SMBC של הכותב והמאייר זק ווינר (Zach Weiner). בקומיקס מועלים לא פעם רעיונות מתחומים רבים, חלקם דמיוניים לחלוטין, וחלקם מתבררים כפרקטיים למדי.

באחד הקומיקסים הכותב העלה את הסברה כי ניתן לשפר טקסטים פוליטיים ע"י שינוי כל מילה שאינה שם עצם ל-NURBLE. עוקב טוויטר חרוץ לא איחר להגיב עם תוכנה קטנה שעושה בדיוק את זה – מקבלת טקסט, ומחזירה אותו "מנורבל".

הרעיון לא חמק מעינם של הכותבים של לאנגואג' לוג, אלו התייחסו בפוסט שבו הוצעו מספר "מנרבלים" נוספים.

איך זה נעשה

התוכנה הקטנה ששלח העוקב (שנכתבה בשפת PHP) עושה שימוש במשאב חיצוני – קובץ המכיל מאגר מילים וחלק הדיבר שלהם. התוכנה עוברת מילה-מילה על הטקסט אותו יש לנרבל, ובודקת לפי המאגר האם המילה היא שם עצם או לאו – בהתאם היא מחזירה Nurble, או את המילה עצמה.

התוצאה

מעניינת ומשעשעת למדי, ניתן להתרשם באותו הקומיקס מהרצה של האלגוריתם על נאום המצב לאומה של אובמה. באופן מפתיע ניתן להבין את רובו, גם כאשר הרוב המוחלט של המילים "מנורבל".

בעברית

כפי שראינו התוכנה המקורית עשתה שימוש במאגר מילים ממשאב חיצוני. למיטב ידיעתי משאב שכזה לא קיים בשפה העברית. בנוסף, כנראה שנטייתה של השפה העברית לעמימות תחבירית יקשה מאד על שימוש במשאב כזה, גם אם קיים. מסיבות אלו נעשה שימוש במתייג – פונקציה אשר בקבלת משפט מחזירה, בין השאר, את חלקי הדיבר של מילותיו (עוד על כך בהמשך) באחוזי ההצלחה מסוימים. בהינתן פונקציה כזו הפתרון למשימה נעשה טריוויאלי – נעבור על כל המשפטים בקלט, נזין אותם למתייג, ונברור את שמות העצם מתוכם.

התוצאה

התרשמו בעצמכם מ"נירבול" נאומו של יאיר לפיד במליאה:

מקור, ולאחר נירבול.

עינכם הרואות – ה"נארבל" עשה עלייה ל-"בלה", לדעתי גם במקרה הזה ניתן להבין את המסר בקווים כלליים.

נסו בעצמכם

אם אתם מעוניינים לבדוק בעצמכם את ההשפעה של הנירבול על טקסטים אחרים, העלתי מדגים של התוכנה (לאחר הכנסת הטקסט, סמנו את האופציה NURBLE).

אתנחתא – מתייגים, מפיגי עמימות ומודלים סטטיסטיים

בתחום הבלשנות החישובית קיימים מספר תחומים ובעיות אשר נחקרו רבות בשנים האחרונות – רובן בעיות בסיסיות אשר פתרון שלהן יהווה בסיס כמעט לכל מערכת אשר רוצה לעשות שימוש בשפה טבעית. בין אלו ניתן למצוא: תיוג חלקי דיבר (Part Of Speech Tagging), זיהוי ביטויים שמניים (NP Chuncking) וזיהוי ישויות (Named Entity Recognition). קל לראות כי אלו הן אבני הבסיס למשימות "מורכבות" יותר, דוגמת ניתוח תחבירי (Parsing), תרגום מכונה, סיכום אוטומטי, ועוד.

בניגוד למשימות ה"מורכבות", במשימות בסיס אלו קיימת לרוב הסכמה בין דוברי השפה לגבי הפלט הרצוי. כך, כל דובר שפה עברית יסכים כי חלק הדיבר של המילה "רץ" במשפט "גל רץ הביתה" הנו פועל (Verb), בעוד שספק אם קיימים שני אנשים שונים אשר יסכמו את הרשומה הזו לכדי אותו סיכום.

כמובן שבעיות אלו הנן תלויות שפה עד מאד, והאלגוריתמים אשר מנסים לפתור אותן חייבים להתייחס למאפייניה הייחודיים של השפה אליה הם מכוונים פתרונן. למשל אופייה הצירופי (word agglutination) של השפה העברית עלול להקשות רבות על כותבי אלגוריתמים כנ"ל לשפה העברית – אלגוריתמים אלו צריכים להפיג את העמימות באשר היא קיימת לגבי המילים במשפט. אם נסתכל שוב על המילה "רץ" הפעם במשפט "גל הזיז את הרץ למשבצת הסמוכה", ברור כי יש להתייחס למילה רץ בתור שם עצם, בניגוד לפועל שראינו במשפט לעיל – אלגוריתמים אלו יצטרכו לבחור את הפירוש הנכון למילה בהינתן ההקשר המתאים. [ראו גם כאן וכאן – א"ק]

המגמה הבולטת בשנים האחרונות לתקיפת בעיות אלו היא גישה הסתברותית (סטוכסטית). ניתן לייחס זאת להתחזקות כוח המחשוב, לקורפוסים העצומים והבלתי מעובדים (unstructured corpora) של שפה טבעית שמשתמשי האינטרנט מייצרים על בסיס יומיומי, ולאכזבה כללית ממודלים דטרמיניסטיים ו-"שלמים" יותר שהוצגו בעבר.

אלגוריתמים הנוקטים בגישה זו מניחים קיום של מודל כלשהו אשר ממנו מופקים משפטים תקינים בשפה או שבעזרתו ניתן לנתח משפטים בשפה טבעית. כך לדוגמא רשתות נוירונים מניחות קיומו של מודל המפשט את המוח האנושי לכדי נוירונים אשר מופעלים לפי פונקציות הפעלה מסוימות (activation function), ומודלי מרקוב חבויים (Hidden Markov Models) מניחים קיומו של מודל של מכונת מצבים, אשר המעבר בין המצבים תלוי במשפט הקלט ובהסתברות מסוימת.

מודלים אלו נמצאים בבסיס האלגוריתמים הסטוכסטיים. אופיינית, אלגוריתמים אלו יתחילו מתהליך של "אימון" על משפטי קלט משפה טבעית. תהליך זה מטרתו לכייל את הפרמטרים אשר מוטבעים במודל. כך ברשתות נוירונים יכוילו המשקלים אשר ניתנים לכל נוירון, ובמודלי מרקוב חבויים תכוילנה ההסתברויות למעבר בין המצבים.למעשה ניתן לומר כי תהליך האימון מתאים את המודל למשימה הספציפית מולה ניצבים.

לאחר שלב האימון, מפסיקים לכייל את הפרמטרים של המודל ומציגים בפניו משפטים שלא חזה בהם בשלב האימון. בתקווה, המודל אכן יודע להכליל איזושהי תחזית לגבי כלל המשפטים בשפה (או בחלק נרחב ממנה), ולכן יוכל לתת תשובות באמינות מסוימת גם עבור משפטים שלא ראה בעבר.

חלק מן החכמה בכתיבת מערכות שכאלו כוללת את בחירת המודל, אפיון הפרמטרים שלא ישתנו במהלך האימון (לדוגמא, טופולוגיית הרשת במקרה של רשתות נוירונים), ובחירת המאפיינים (features) שיהוו קלט למודל הנבחר.

עבור מימוש שני האלגוריתמים הפשוטים יחסית שמתוארים ברשומה זו, עשיתי שימוש במתייג ומפיג העמימות שנכתב על ידי מני אדלר מאוניברסיטת בן גוריון. משפטים שלמים מן הקלט מוזנים אליו, ובתמורה מקבלים עבור כל מילה בין השאר את חלק הדיבר שלה (בו כבר עשינו שימוש עבור אלגוריתם NURBLE) את הבניין, הזמן, המין, הגוף, ואת צורת הריבוי שלה – בכל אלו נעשה שימוש באלגוריתם הבא שיתואר.

Jailbreak the Patriarchy

במקור

במקרה הזה מדובר בתוסף לשוני מוזר לדפדפן chrome שמתיימר לשבור את הפטריארכיה השלטת ברשת.

התוסף מחליף בטקסט דפי האינטרנט שמות גוף זכריים לנקביים ולהיפך. בנוסף הוא מחפש ביטויים זכריים מסוימים ומחליף אותם במקבילה הנקבית שלהם, ולהיפך. כך לדוגמא "he loved his mother very much" יהפוך ל-"she loved her father very much" ו-"the patriarchy also hurts men" יומר ל- "the matriarchy also hurts women".

איך זה נעשה

לפי תיאור התוסף, נראה כי מדובר במשימת "חפש-החלף" פשוטה יחסית: התוסף עובר על הטקסט בדף, ומחפש ביטויים שנקבעו מראש. ברוב המשפטים אכן מושגת החלפת מין (gender swapping, לפי הכותב), זאת מכיוון שרוב חלקי הדיבר בשפה האנגלית הם ניטרליים מבחינת מין.

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

בעברית

בדומה לאלגוריתם הקודם, נראה כי הגישה שננקטה במקור לא תספק מענה הולם בעברית. נסתכל על הדוגמא שנתנה בחלק הקודם:

  • גל רץ הביתה.
  • גל הזיז את הרץ למשבצת הסמוכה.

נניח כי נבצע משימה של חיפוש והחלפה, ונרצה להחליף את "רץ" ב-"רצה", נקבל:

  • גל רצה הביתה
  • * גל הזיז את הרצה למשבצת הסמוכה

ברור כי זוהי אינה התנהגות רצויה, וכאמור, בשפה האנגלית לרוב לא נתקלים בקשיים שכאלו.

הדרך בה נקטתי לפתרון הבעיה הנה שימוש במתייג שהוזכר לעיל – ממנו דליתי עבור כל מילה בקלט את חלק הדיבר שלה, בהתאם הפעלתי עליה פונקציית החלפת מין. אתאר את הפונקציות עבור חלקי הדיבר שם-גוף ופעלים:

שמות גוף:
בהינתן הידע כי מילה מסוימת היא שם גוף, והעובדה כי שמות הגוף היא קבוצה סגורה וקטנה יחסית של מילים, ניתן להשתמש בטבלה פשוטה ולהמיר "הוא" <-> "היא", "הם" <->"הן" וכיו"ב.

פעלים:
בהינתן הפרמטרים הבאים עבור מילה: בניין, זמן, מין, גוף, ואת צורת הריבוי שלה. ניתן להשתמש בחוקי התחביר העברי, לגזור את השורש ולשתול אותו במקבילה הנקבית / זכרית.
בנוסף לאלו, הכנסתי גם רשימת ביטויים בעלי מין אותם האלגוריתם מחליף, בדומה לתוסף המקורי – "אמא" <->"אבא", "פטריארכיה" <-> "מטריארכיה" ועוד.

התוצאה

מעניינת, אך רחוקה מלהיות מושלמת. אם להמשיך באותו קו של דוגמאות, בחרתי את פוסט הפייסבוק שמשום מה התפרסם בזמן האחרון על ריקי כהן הדמיונית, וזוהי התוצאה: "אני רוצה שנדבר על מר כהן". ניתן לראות כי ביטויים רבים מבלבלים את התוכנה, אולם ברגעיה היפים יוצאים משפטים לתפארת מרב מיכאלי.

נסו בעצמכם

גם בתוכנה זו ניתן להתנסות בהמרת מינו של כל ביטוי העולה על רוחכם – כאן (לאחר הכנסת הטקסט, סמנו את האופציה Jailbreak).

[בלה בלה רשומת אורחת בלה גבי בלה בלה בלה פוסט אורחת בלה צרו בלה קשר בלה בלה דרך הטופס בעמוד בלה בלה]

Read Full Post »

הזמרת והשחקנית מירה עוואד מפרגנת לשלושה חברי כנסת טריים, בדרכה החיננית:

awad0313

שימו לב מה היא אומרת במאמר מוסגר על ח"כ רות קלדרון (ההדגשות שלי):

(הופעתי למען המרכז שלה "עלמא" פעם, שאמנם מלמד דת –ומה לי ולזה– אבל בצורה ליברלית ושוויונית ומבלי להדיר אף אחד על רקע ג'נדר או לאום או דת- ולזה יש לי ועוד איך!)

עוואד לוקחת את הביטוי השגור מה לי ולזה ומייצרת צורה מנוגדת: לזה יש לי ועוד איך. אני תוהה אם מישהו באמת מדבר ככה או שמדובר בהברקה של רגע. קשה למצוא הופעות של הצירופים האלה ברשת, אבל הנה למשל דוגמה אחת של "אני אגיד לך מה לי ולהם", שבאה בתשובה ישירה לשאלה "מה לך ולהם?".

(ובשולי הסטטוס שלה: התעתיקים המאולתרים ר'טאס ואינטיפאדה, והפיסוק שיוצר אווירה משוחררת ולא-רשמית)

Read Full Post »

ניחוחם של גורמי אכיפת חוק במדינות ערב תמיד הזכירו ליובל את עמימותו של התחביר. הפעם, בשולי פרשת האסיר X מדווח טמקא:

מפקד משטרת דובאי: "האסיר X" לא התאבד כי שיתף פעולה עימנו

אם אין צילומסך לי מי לי

אם אין צילומסך לי מי לי

מקריאה ראשונה ונטולת הקשר יכול אדם לחשוב "איזה יופי! כדאי לשתף פעולה עם משטרת דובאי, כך נמנעים מהתאבדות!", ולא היא. לקורא המיודע ידוע כי האסיר אכן התאבד, והשלילה שבכותרת מתיחסת לסיבת ההתאבדות ולא לעצם התרחשותה.

האם אכן מדובר פה בעמימות תחבירית בלבד? לא כל-כך. הפסקה הקודמת אמנם הבחינה בין "[לא התאבד] [כי שיתף פעולה]" לבין "[לא [התאבד כי שיתף פעולה]]", אבל גם תחת המבנה השני לא נעלם לגמרי הקרי שלפיו השלילה היא של ההתאבדות עצמה. הוא רק הופך בלתי סביר מסיבות פרגמטיות (כי אם הוא בכלל לא התאבד, מה זה משנה אם הוא לא התאבד מסיבה זו או מסיבה אחרת*. אם הגזוז בלי מיץ, מה זה משנה אם הוא בלי מיץ פטל או בלי מיץ ענבים. מעניין אם בעת אמיצה זו בה אנו עדים לתחייתו של הגזוז בקיוסקים גם הבדיחה הדלוחה הזו חזרה להיות מובנת. אגב, אני עדיין תקוע עם משהו כמו 2 ליטר תרכיז מיץ פטל בבית מימי טרום-דיאטה אם מישהו מעונין. אני חושב שאיבדתי את חוט המחשבה). אז לסיכום, שוב תודה לכוחות הבטחון המזרח-תיכוניים למיניהם שסיפקו לנו שיעור נוקב בעמימויות. לפי מקורות זרים.

* זה יכול לשנות, אם בהקשר החיצוני שלנו הסברה לפיה הוא התאבד מהסיבה המסוימת הזו עומדת בניגוד לגורל אחר כלשהו ולא בניגוד לסברות אחרות הנוגעות להתאבדות.

Read Full Post »

Older Posts »