Feeds:
רשומות
תגובות

Archive for מאי, 2010

התחלה לא שגרתית: אתן לכם משפט, ותגידו לי לאיזו סיטואציה הוא יותר הולם: (1) או (2).

  • במשפחתו יש מסורת ארוכה של שירות צבאי: אבי סביו נלחם עם נפוליאון.
  1. מדברים על רוסי.
  2. מדברים על צרפתי.

אני, לפחות, חשבתי על 2.

למה זה לא שגרתי, תשאלו? ובכן, קיראו את המשפט הבא והגידו לי:

  • המנהיג לא היסס מכניסה למערכת המלחמות האירופית: הוא הודיע כי יילחם עם נפוליאון.
  1. מדובר על מנהיג גרמני זוטר שכרת ברית עם אוסטרו-הונגריה.
  2. מדובר על מנהיג גרמני זוטר שכרת ברית עם צרפת.

כאן דווקא 1 בולט.

דוגמה "מינימלית" זו, וגם רוב מוחלט של תוצאות החיפוש הראשונות בגוגל, מסכימות שאחרי הביטוי "נלחם עם" מופיע האויב. שאר התוצאות מסכימות שאפשר "להילחם עם" כתחליף ל-"להילחם במצב של" או ל-"להילחם באמצעות". למשל "נלחם בנפש חשופה", או "נלחם בחרב שלופה". הדוגמא האחרונה הזו מקרבת אותנו ללב העניין פה: אחרי "עם" יכולים גם לבוא שותפים ללחימה! וכך נפתחת דו-משמעות מסקרנת ביותר – כזו של מובן והיפוכו.

איך נתקוף דבר כזה תחבירית? אני מניח שבכיוון הזה: יש כאן שני פעלים נפרדים. האחד הוא "להילחם עם", פועל יוצא שהוא נרדף ל-"להילחם ב-", והמושא שאחריו הוא היריב. זו הדוגמא של המנהיג הגרמני הזוטר.

האחר הוא "להילחם", פועל עומד שאינו דורש מושא, אך ניתן להעשיר אותו בתיאורי זמן, מקום ואופן. "עם" מתחילה במקרה זה תיאור אופן, וזוהי הדוגמא הראשונה עם הלוחם הפשוט. הוא נלחם, ולחימתו התרחשה במסגרת צבאו של נפוליאון.

Read Full Post »

ג'ון סטיינבק המהולל, מסעותי עם צ'רלי, עמוד 73 (הוצאת אחוזת בית, תירגמה צילה אלעזר):

בספרדית יש מילה שאינני מצליח למצוא לה מקבילה באנגלית. זה הפועל vacilar, שצורת הבינוני שלו היא vacilando. פירוש המילה בספרדית איננו כלל כפירושה באנגלית – vacillating, כלומר להתנועע או להיטלטל. אם מישהו הוא vacilando, זה אומר שהוא הולך למקום כלשהו, אבל לא אכפת לו במיוחד אם הוא יגיע לשם או לא, אם כי יש לו כיוון. ידידי ג'ק ואגנר אימץ לעצמו לעתים קרובות, במקסיקו, את מצב ההוויה הזה. נניח שרצינו לטייל ברחבות מקסיקו סיטי, אבל לא סתם כך. יכולנו לבחור לנו אובייקט מסוים שכמעט מובטח היה שלא יהיה קיים שם בכלל, ואחר כך לנסות בחריצות למצוא אותו.

איזו מילה תתאים בעברית?

[ת' לטליה]

Read Full Post »

קאפצ'ה

בדיחה פנימית לאנשי למידת מכונה: קאפצ'ה שנתקלתי בו לא מזמן.

(שרשראות מרקוב הן מודל מתמטי שמשמש לאומדן של הסתברויות שונות. משתמשים בהן גם כדי לזהות דואר-זבל בהסתמך על הסתברות ההופעה של רצף מילים כמו "ויאגרה רולקס עירום".)

Read Full Post »

[עדכון: אורן מבלה את הזמן בראיונות ועורך סיכום ביניים. המשך הסיפור כבר יתועד אצלו, אני מניח]

עמיתנו אורן צור חרג ממנהגו בשבוע שעבר והעיד על עיסתו; ליתר דיוק, העיסה שלו, של דמיטרי דוידוב ושל ארי רפופורט, מחקר מגניב למדי שהם ערכו על גילוי אוטומטי של סרקזם באמצעות האלגוריתם שֹשֹ"י (Semi-supervised Algorithm for Sarcastic Identification, שם נהדר: sassy באנגלית זה איפשהו בין "חצוף" ל"שנון"). עד כאן הכל טוב ויפה: רעיון ראוי, מחקר נחמד, ביצוע מוקפד, מאמר מהוקצע – כמקובל בענף.

סערה בענף

אבל אז, מעשה שטן, האינטרנט שם לב בהמוניו. סלאשדוט היה הראשון, כנראה, וגם במדע פופולרי התעניינו מאוד במחקר המקורי הזה. אחרי שהסיפור הגיע לבוינג-בוינג, גם דה-מרקר שמו לב והנה הדיווח שלהם בעברית. זה גם נתן לכל האתרים תירוץ לכתוב טקסטים מתחכמים כמו זה של cnet:

I'm just sooo happy to be sitting here reading through an eight-page PDF on algorithms. Seriously. Nothing in this world makes me happier than poring over phrases like "detailed results of the 5-fold cross validation of various components of the algorithm are summarized in Table 2."

על מה בעצם כל הרעש? על תוכנית שלומדת ביקורות גולשים מאמזון, מזהה באופן אוטומטי איך נראים משפטים סרקסטיים ובעזרת הידע החדש הזה מסוגלת למצוא משפטים סרקסטים באמזון ובטוויטר.

המחקר

המחקר מוצג בעצם בשני מאמרים. המאמר הראשון הוא אמזון ומתאר את המערכת בפרוטרוט (יש לו גם שם נחמד שצוחק על השם של הכנס, בדיחה שבגארדיאן בטלגרף לא הבינו). המאמר השני מיישם את המערכת גם על טוויטר, ואורן מספר עליו כך:

המאמר דחוס מאין כמוהו כדי להתאים לסד מכסת העמודים המוקצית. למרות זאת, המבוא, החלק על טוויטר והדיון על התוצאות (פרקונים 1,2 ו-5) קלים לקריאה גם למי שלא מבין במדעי המחשב ובעיבוד שפה. למעשה גם החלק האלגוריתמי הוא מעט טכני ומייגע אבל לא מסובך במיוחד. תהנו. בטח.

אורן מסביר יפה בבלוג שלו (וגם במאמרים, כמובן) בשביל מה זה טוב: יכולת להבין ביקורות גולשים, להבין טקסטים בכלל, ושאר דברים שימושיים שחברות ישלמו הרבה כסף עליהם. לטובת המפחדים מאלגוריתמים, נסכם כאן איך המערכת עובדת בקצרה.

המערכת לומדת לזהות, לפי ספירה של תדירויות מילים, איך נראים משפטים סרקסטיים כמו "חברה X כנראה לא Y על Z" ומה התפקיד של סימני פיסוק, וייצרו אוסף של מאפיינים טיפוסיים למשפט סרקסטי. כל משפט חדש שהמערכת רואה מושווה לרשימת המאפיינים ומקבל ניקוד לפי אלה שהופיעו בו. באמזון מצורף לכל ביקורת ציון בן 1-5 כוכבים, אז אפשר להשתמש גם בהם כדי ללמוד מתי יש ביקורת קטלנית שרק נראית כמו ביקורת טובה עם מילים כמו "מעולה" או "הכי".

התוצאות

איך יודעים כמה טוב אלגוריתם כזה עובד? לקחו 90 משפטים שזוהו אוטומטית כסרקסטים ו-90 משפטים שזוהו אוטומטית כלא-סרקסטים, כשבשתי הקבוצות מופיעות התייחסויות מפורשות לחברה או מוצר מסוימים. המשפטים הלא-סרקסטים באו מביקורות שליליות, כדי להפוך את העסק ליותר קשה. המשפטים האלה נבדקו על ידי אנשים שאינם קשורים לחוקרים ושהחליטו אם כל משפט הוא סרקסטי או לא. בסופו של דבר נתקבלו 180 משפטים עם שני סטים של ציונים: אלה ששש"י נתן להם, ואלה שבני אדם נתנו להם.

עכשיו צריך להגיד מילה על איך מודדים איכות של תוצאות בתחום שנקרא אחזור מידע; אם לא מעניין אתכם איך בדיוק מדדו את הביצוע, אתם יכולים לדלג לפסקה הבאה. ובכן, יש שני פרמטרים עיקריים: precision (נקרא לזה "דיוק") ו-recall (למיטב ידיעתי אין שם רשמי בעברית, אז אולי אפשר לקרוא לזה "להוחזר"). הרעיון הוא לבדוק כמה מטרות רלוונטיות נמצאו ע"י המערכת. ניתן דוגמה.
נגיד שהמערכת הסתכלה על 200 משפטים ואיתרה אוטומטית 50 מהם שלדעתה אמורים להיות סרקסטים, כך ש-150 אינם סרקסטים. עכשיו בודקים אם היא צדקה. קודם נבדוק את הדיוק (precision) שלה: כמה מתוך 50 המשפטים באמת סרקסטים? אם 40 מהם באמת סרקסטים ו-10 לא סרקסטים, יש למערכת דיוק של 80%. עקרונית, ניתן להשיג דיוק גבוה אם מגבילים את המערכת למצוא ביטויים כמו "עכשיו אני הולך לומר משהו סרקסטי, שימו לב!". אבל מה שמאזן את הדיוק הוא הלהוחזר (recall): בדוגמה שלנו, המערכת זיהתה ש-50 משפטים מתוך 200 הם סרקסטים. אבל אם בעצם 125 משפטים הם סרקסטים ו-75 אינם, זה אומר שהמערכת מצאה רק 50 מתוך 125 והלהוחזר שלה הוא 40%. אפשר להשיג להוחזר גבוה מאוד אם מחפשים ביטויים כללים מאוד: כמעט כל משפט יכלול את המילה "the" – אבל הרי חיפוש כזה יחזיר המון תוצאות לא רלוונטיות ויוריד את הדיוק. לרוב עורכים גם ממוצע משוקלל של השניים וקוראים לו F-measure.

חזרה למחקר. התוצאות היו, עבור אמזון: דיוק 77%, להוחזר 81%.
עבור טוויטר: דיוק 79%, להוחזר 86%.
אלה תוצאות טובות מאוד!

התוצאות מעניינות בין היתר משום שתהליך הלמידה נעשה מדוגמאות באמאזון, אבל האלגוריתם תיפקד מצוין גם על טוויטים. אחת הסיבות שהחוקרים נותנים היא שבגלל שטוויטים הם חסרי הקשר מטבעם, הם חייבים להיות ברורים יותר. בשביל שאר הסיבות תצטרכו לקרוא את המאמר(ים). כמובן שיש מקום לשיפור: צור/דוידוב/רפופורט מזכירים ששֹשֹ"י יתקשה להבחין בין "הספר היה מצוין עד שהגעתי לעמוד 2" ובין "הספר היה מצוין עד שהגעתי לעמוד 430", אבל מסבירים איך אפשר לעקוף את הבעיה הזו. כמובן שיש עוד הרבה פרטים שלא הזכרנו כאן – היתר במאמרים המלונקקים.

דוגמה לסרקזם

בשולי הדברים, יש לי עוד משהו אחד להגיד למר "TheMarker Online" שכתב את הידיעה הזו בדה-מרקר. כך כתב מר אונליין:

לפי [האתר] בואינג בואינג אחוז הדיוק של האלגוריתם עומד על 77%.

הם אפילו לא טרחו לבדוק דברים לבד! כן, בואו נצטט איזה אתר אינטרנט, כי לבדוק בעצמנו מה כתוב במאמר עצמו זה כ-ל  כ-ך  ק-ש-ה.

Read Full Post »

הודעה משמחת נחתה בדסק השוטף של הבלוג: הקיצוצים המתוכננים בתוכנית לבלשנות חישובית (ובתוכניות אחרות) ב-King's College London בוטלו! כנראה. [למסמך המתיש]

כפי שסיפרנו לכם לפני שלושה חודשים, ב-KCL החליטו להיפטר מכמה אנשי סגל בפילוסופיה, בלשנות חישובית ושאר תחומים מסקרנים. בלאנגואג' לוג סיפרו איך זה נראה מבפנים כאן וכאן.

בינתיים נראה שאחרי לחץ ציבורי לא קטן של סטודנטים, אנשי אקדמיה ובוגרי האוניברסיטה, ההנהלה מצאה דרכים אחרות "לחסוך", כהגדרתה, אפילו מבלי לבטל באופן שרירותי חוזים של כמה מהחוקרים המובילים בתחומיהם. נס שבועות. למרות החשיבות הגדולה של בלשנות תיאורטית הן למדעי הרוח והן למדעי המוח והקוגניציה, ועל אף החשיבות הברורה של בלשנות חישובית להנדסה, לקוגניציה ולמדעי המחשב, בלשנות עדיין נחשבת למקצוע "חלש" שאפשר להתעמר בו קצת (בדומה לשאר מדעי הרוח, חובה לציין). אז לפחות בינתיים, נראה שלא.

Read Full Post »

אתמול נמנעה כניסתו של נועם חומסקי לישראל מירדן, בדרך להרצאה מתוכננת באוניברסיטת ביר זית (כנראה בגלל שהוא סמולן עוכר ישראל, אבל מי יודע. משרד הפנים אמר שסיבה תינתן בהמשך, ואז טען שמדובר בטעות). למרות שהדעות הפוליטיות של חומסקי הן לא מעניין הבלוג, סביר להניח שאנשים רבים ירצו לדעת מה כל הרעש סביב החומסקי הזה ולמה הוא נחשב לבלשן כל כך גדול. זו אמנם עבודה לא פשוטה, לסכם מעל חצי מאה של עבודה בלשנית פורצת דרך; אבל גם בזמנים קשים כאלה צריך לשנס מותניים ולכתוב פוסט.

ההשפעה העיקרית של חומסקי נוגעת לאופן ההסתכלות על השפה כיכולת אנושית. רוצה לומר, בניית מערכת חוקים שיכולים לתאר תחביר של שפה טבעית. הרעיון הוא כזה: אם נולד תינוק בסין, הוא יגדל ויידע סינית בלי שאף אחד אי פעם לימד אותו סינית. הוא יידע לדבר עוד לפני שילך לבית הספר. אם נולדה תינוקת בישראל, היא תגדל ותדע עברית. כלומר, יש משהו משותף לעברית ולסינית, ובעצם לכל השפות הטבעיות. מעבר לכך: חומסקי אוהב לומר שהנכדה שלו יודעת לדבר אנגלית, אבל החתול של הנכדה שלו לא יודע, ולא משנה כמה תנסו ללמד אותו. העיקרון שחומסקי לומד מהתופעות האלה הוא ששפה היא עניין מוּלד – יש משהו במוח שלנו שמאפשר לנו לרכוש שפה על בסיס קלט מועט יחסית מהסביבה. חייו המקצועיים של חומסקי מוקדשים לנסיון להגדיר כיצד המנגנון הזה עובד.

קרדיט לאיור: אין לי מושג

חומסקי דיבר אנגלית, עברית ויידיש בילדותו. את התואר הראשון שלו עשה באוניברסיטת פנסילבניה אצל הבלשן זליג האריס, שעבד באותה תקופה על נסיון לאפיין את המבנה של השפה. חומסקי יישם את התיאוריה של האריס על עברית, ומאז לא הביט אחורה. אחד התוצרים החשובים של הדוקטורט שלו היה הספרון Syntactic Structures שהניח ב-1957 את היסודות למחקר בלשני שלם. בין היתר, מערכת האקסיומות שחומסקי הגדיר הצליחה לתאר במדויק בפעם הראשונה את מבנה מערכת פעלי העזר והפעלים המודאליים באנגלית (might have been going, should not have gone, did not go וכן הלאה).

מתוך אמונה ששפה היא יכולת מולד (ראו החתול של הנכדה שלו), חומסקי הפילוסוף כתב ביקורת חשובה על הגישה ההתנהגותית (behaviorism) של סקינר וטען שאין לה כל אחיזה במציאות בכל הנוגע לשפה, וכתוצאה מכך שהיא תיאורה חלשה באופן כללי. חומסקי המשיך לכתוב רבות בענייני פילוסופיה, למשל בנוגע להיסטוריה של המדע [גישה למנויים בלבד].

בחזרה לבלשנות, בשנות השמונים עולם התחביר יישר קו עם מסגרת ה-Government and Binding שחומסקי פיתח (ונטש עשור וחצי מאוחר יותר). אחד מעמודי התווך של הבלשנות החומסקיאנית הוא גישת Principles and Parameters (עקרונות ופרמטרים), ביטוי מפורש לעקרון המוּלדות: כשתינוק רוכש שפה אנושית, הוא כבר יודע מאליו מה העקרונות של כל שפה. למשל, שמשפט חייב לכלול נושא ונשוא. כל מה שנותר לו הוא ללמוד את ערכי המשתנים, או הפרמטרים: האם הפועל בא לפני הנושא כמו בעברית מקראית, או אחריו כמו באנגלית? האם שמות העצם קיימים בזכר ונקבה כמו בעברית, או גם במין סתמי כמו בגרמנית?

הכתיבה של חומסקי היא בעיה רצינית. לרוב היא מסובכת, מפותלת ודווקאית, וזה לא שהוא מפצה על כך בהרצאות שלו – הוא מרצה משעמם למדי, והוא אפילו מתגאה בזה; לדבריו, התוכן צריך להיות מעניין, לא המרצה.

בשנות התשעים חומסקי שינה כיוון ועבר לפתח את התוכנית המינימליסטית, שמרכיבה היום את הבסיס לרוב המחקר הבלשני התיאורטי. הרעיון המנחה במינימליזם הוא לשער מספר מינימלי של פעולות שהמוח עושה על מנת לבנות משפטים, ומהם לפתח את שאר התאוריה של התחביר. כמובן שמאז המינימליזם הפך להרבה יותר מורכב – פועל יוצא של הנסיון להכיל את כל התופעות של כל שפות העולם – אבל זו עדיין הגישה המובילה, גם אם חומסקי עצמו כבר בקושי מפרסם מאמרים בנושאי תחביר.

מפותל משהו

מי שקורא את הסיכום הזה עלול לטעות ולחשוב שחומסקי בא פעם בעשרים שנה, מנחית תיאוריה חדשה על עולם הבלשנות ומכתיב מה עושים הלאה. זה לא מדויק. ההשפעה של חומסקי עצומה, אין כל ספק, אבל זה בעיקר בגלל שהרעיונות שלו מושכים מאוד ומנוסחים בצורה שמעודדת שימוש בהם. עיקר העבודה הבלשנית נעשה ע"י בלשנים ברחבי העולם שאמנם מושפעים מחומסקי, אבל לא מהססים לשפר את הצעותיו ולפעמים להפוך אותן על ראשן. זה חלק מהיופי במחקר: לוקחים את מה שנראה נכון, זורקים את מה שלא.

כמובן שיש מי שלא מסכימים עם הדרך של חומסקי. בימיה הראשונים של התוכנית המינימליסטית טענו דיוויד ג'ונסון ושלום לפין שבעצם לא היתה שום סיבה לנטוש את מערכת Government and Binding. לטענתם, חומסקי החליט לשנות כיוון באופן שרירותי פשוט כי הוא חשב שמינימליזם הוא "נקי" יותר תיאורטית, ושאר עולם הבלשנות יישר קו באופן נרצע.

גם על המחקר הבלשני עצמו יש ביקורת רבה, כמתבקש בתחום מחקר אקדמי, ורבים מקוראינו ישמחו לספר עליה. אני יכול להעיד שלאחר שעיינתי הן בגישה הסטרוקטורליסטית (המנוגדת לחומסקי, אפשר לומר) והן בתיאוריות שנופלות תחת דקדוק גנרטיבי אבל אינן מינימליזם ושאר ירקות (כמו LFG), נראה לי שמינימליזם היא בכל זאת השיטה הטובה ביותר שיש לנו כרגע; אבל זה גם עניין של העדפה אישית. ניתֵן לוויכוח, אם וכאשר, להתחולל בתגובות.

אמנם ההשפעה של חומסקי על הבלשנות התיאורטית המודרנית לא תסולא בפז, אבל בעולם הוא מוכר בעיקר בתור הוגה דעות, פילוסוף ואפילו איש מדעי המחשב (בזכות היררכיית חומסקי המתארת את כושר הביטוי של שפות פורמליות שונות). וכן, חומסקי מבקר את מדיניות החוץ של ארה"ב על ימין ועל שמאל, הוא אנרכיסט, יש לו דעות מוצקות מאוד לגבי צרכנות ולגבי תקשורת המונים, אבל עבורנו הוא בראש ובראשונה בלשן. ולמי שבכל זאת מתעניין בפוליטיקה שלו: ראו פה.

Read Full Post »

שואל אביתר:

בשנה שנתיים האחרונות שמתי לב לתופעה לשונית מתרחבת – במקום להגיד או לכתוב "כש" (במובן "כאשר") אומרים "ש" (ש בסגול). למשל: "לפעמים שאני שולחת הודעות אס אם אס…" (במקום "לפעמים כשאני שולחת…").
בהתחלה חשבתי שזה סוג של דיבור נמוך שהתחיל מילדים שלא שמעו את העיצור של ה"כ" כשמישהו אחר דיבר, וחזרו על הביטוי ללא ה"כ". לאחרונה התחלתי למצוא את זה גם בעיתונים (למשל הדוגמה הזו שנתתי היא מתוך הפוסט של יובל דרור – שבו הוא מביא צילום של מוסף "ממון" של ידיעות אחרונות). יכול להיות שזה משהו תקני בעברית ורק אני לא ידעתי על זה? יכול להיות שזה שיבוש ידוע כבר הרבה שנים ורק אני נתקלתי בזה לראשונה לפני שנתיים?

אביתר צודק, כמובן: אחד המאפיינים הבולטים של עברית מדוברת עממית היא השחיקה של צורת "כש-". היום אנשים מתלוננים שנתקע להם שהם שולחים שיר, למשל. עם כל הזהירות מאשליית הטריות, אני חושב שמדובר בתופעה חדשה יחסית. אם מישהו מוצא תיארוכים מוקדמים, אנא חילקו עמנו.

מה שיותר מעניין (אותי) מהשאלה מתי זה התחיל הוא השאלה למה זה קורה. בניגוד לאביתר, הייתי מהסס לפני שאני קובע שהצורה הזו נוצרה בגלל שילדים לא שמעו את ה"כ". השמיעה של ילדים מצוינת והם יכולים ללמוד צורות פונטיות מורכבות הרבה יותר, וחוץ מזה, והצורה הזו מופיעה גם בכתב.

סיבה אפשרית אחת היא פונטית (סוג ההסבר המועדף על אנשים מסוימים): זה קצת קשה להגיד "כש-" והדובר מעדיף לשבור את רצף העיצורים ולהשמיט את ה"כ" המיותרת הזו בהתחלה.

ישנו גם עניין של האחדה: בשביל מה צריך שתי דרכים לשעבד פסוקית? אפשר לאחד את "כל פעם שאני הולך לישון" ו-"תמיד שאני הולך לישון", כשעצם העובדה ש"ש" פותחת פסוקית זיקה הופך את המעבר לחלק יותר. אפשר גם להשוות את המבנה עם "ש" לצירופים כמו "בפעם הקודם שראיתי את זה" שהם במובהק תיאורי זמן, מה שבטח עזר לטשטש את הגבולות.

עניין נוסף שעשוי להיות מעניין הוא מקרים של תיקון-יתר (ת' לבן לי על הרעיון), כלומר מקרים בהם אנשים שמודעים לשיבוש הזה מנסים לתקן משהו שלא צריך לתקן, ואומרים משהו בסגנון "כל פעם כשאני הולך לישון". כאן קצת קשה להבחין אם מדובר בתיקון-יתר או בנסיון להכניס תיאור זמן רגיל עם "כש".

Read Full Post »

Older Posts »