• ראשי
  • English
  • אודות
  • היכל התהילה
  • עוד בלשנות
  • צרו קשר

דגש קל

הגיע הזמן להפסיק עם כל הדמוקרטיה הזאת ולהקים כבר ממשלת שתנהל את המדינה

פידים:
רשומות
תגובות
« ניסו לקצץ אותנו, לא הצליחו, בואו נאכל
קאפצ'ה »

באופן אירוני ומודע לאחרים

21 במאי 2010 מאת איתמרק

[עדכון: אורן מבלה את הזמן בראיונות ועורך סיכום ביניים. המשך הסיפור כבר יתועד אצלו, אני מניח]

עמיתנו אורן צור חרג ממנהגו בשבוע שעבר והעיד על עיסתו; ליתר דיוק, העיסה שלו, של דמיטרי דוידוב ושל ארי רפופורט, מחקר מגניב למדי שהם ערכו על גילוי אוטומטי של סרקזם באמצעות האלגוריתם שֹשֹ"י (Semi-supervised Algorithm for Sarcastic Identification, שם נהדר: sassy באנגלית זה איפשהו בין "חצוף" ל"שנון"). עד כאן הכל טוב ויפה: רעיון ראוי, מחקר נחמד, ביצוע מוקפד, מאמר מהוקצע – כמקובל בענף.

סערה בענף

אבל אז, מעשה שטן, האינטרנט שם לב בהמוניו. סלאשדוט היה הראשון, כנראה, וגם במדע פופולרי התעניינו מאוד במחקר המקורי הזה. אחרי שהסיפור הגיע לבוינג-בוינג, גם דה-מרקר שמו לב והנה הדיווח שלהם בעברית. זה גם נתן לכל האתרים תירוץ לכתוב טקסטים מתחכמים כמו זה של cnet:

I'm just sooo happy to be sitting here reading through an eight-page PDF on algorithms. Seriously. Nothing in this world makes me happier than poring over phrases like "detailed results of the 5-fold cross validation of various components of the algorithm are summarized in Table 2."

על מה בעצם כל הרעש? על תוכנית שלומדת ביקורות גולשים מאמזון, מזהה באופן אוטומטי איך נראים משפטים סרקסטיים ובעזרת הידע החדש הזה מסוגלת למצוא משפטים סרקסטים באמזון ובטוויטר.

המחקר

המחקר מוצג בעצם בשני מאמרים. המאמר הראשון הוא אמזון ומתאר את המערכת בפרוטרוט (יש לו גם שם נחמד שצוחק על השם של הכנס, בדיחה שבגארדיאן בטלגרף לא הבינו). המאמר השני מיישם את המערכת גם על טוויטר, ואורן מספר עליו כך:

המאמר דחוס מאין כמוהו כדי להתאים לסד מכסת העמודים המוקצית. למרות זאת, המבוא, החלק על טוויטר והדיון על התוצאות (פרקונים 1,2 ו-5) קלים לקריאה גם למי שלא מבין במדעי המחשב ובעיבוד שפה. למעשה גם החלק האלגוריתמי הוא מעט טכני ומייגע אבל לא מסובך במיוחד. תהנו. בטח.

אורן מסביר יפה בבלוג שלו (וגם במאמרים, כמובן) בשביל מה זה טוב: יכולת להבין ביקורות גולשים, להבין טקסטים בכלל, ושאר דברים שימושיים שחברות ישלמו הרבה כסף עליהם. לטובת המפחדים מאלגוריתמים, נסכם כאן איך המערכת עובדת בקצרה.

המערכת לומדת לזהות, לפי ספירה של תדירויות מילים, איך נראים משפטים סרקסטיים כמו "חברה X כנראה לא Y על Z" ומה התפקיד של סימני פיסוק, וייצרו אוסף של מאפיינים טיפוסיים למשפט סרקסטי. כל משפט חדש שהמערכת רואה מושווה לרשימת המאפיינים ומקבל ניקוד לפי אלה שהופיעו בו. באמזון מצורף לכל ביקורת ציון בן 1-5 כוכבים, אז אפשר להשתמש גם בהם כדי ללמוד מתי יש ביקורת קטלנית שרק נראית כמו ביקורת טובה עם מילים כמו "מעולה" או "הכי".

התוצאות

איך יודעים כמה טוב אלגוריתם כזה עובד? לקחו 90 משפטים שזוהו אוטומטית כסרקסטים ו-90 משפטים שזוהו אוטומטית כלא-סרקסטים, כשבשתי הקבוצות מופיעות התייחסויות מפורשות לחברה או מוצר מסוימים. המשפטים הלא-סרקסטים באו מביקורות שליליות, כדי להפוך את העסק ליותר קשה. המשפטים האלה נבדקו על ידי אנשים שאינם קשורים לחוקרים ושהחליטו אם כל משפט הוא סרקסטי או לא. בסופו של דבר נתקבלו 180 משפטים עם שני סטים של ציונים: אלה ששש"י נתן להם, ואלה שבני אדם נתנו להם.

עכשיו צריך להגיד מילה על איך מודדים איכות של תוצאות בתחום שנקרא אחזור מידע; אם לא מעניין אתכם איך בדיוק מדדו את הביצוע, אתם יכולים לדלג לפסקה הבאה. ובכן, יש שני פרמטרים עיקריים: precision (נקרא לזה "דיוק") ו-recall (למיטב ידיעתי אין שם רשמי בעברית, אז אולי אפשר לקרוא לזה "להוחזר"). הרעיון הוא לבדוק כמה מטרות רלוונטיות נמצאו ע"י המערכת. ניתן דוגמה.
נגיד שהמערכת הסתכלה על 200 משפטים ואיתרה אוטומטית 50 מהם שלדעתה אמורים להיות סרקסטים, כך ש-150 אינם סרקסטים. עכשיו בודקים אם היא צדקה. קודם נבדוק את הדיוק (precision) שלה: כמה מתוך 50 המשפטים באמת סרקסטים? אם 40 מהם באמת סרקסטים ו-10 לא סרקסטים, יש למערכת דיוק של 80%. עקרונית, ניתן להשיג דיוק גבוה אם מגבילים את המערכת למצוא ביטויים כמו "עכשיו אני הולך לומר משהו סרקסטי, שימו לב!". אבל מה שמאזן את הדיוק הוא הלהוחזר (recall): בדוגמה שלנו, המערכת זיהתה ש-50 משפטים מתוך 200 הם סרקסטים. אבל אם בעצם 125 משפטים הם סרקסטים ו-75 אינם, זה אומר שהמערכת מצאה רק 50 מתוך 125 והלהוחזר שלה הוא 40%. אפשר להשיג להוחזר גבוה מאוד אם מחפשים ביטויים כללים מאוד: כמעט כל משפט יכלול את המילה "the" – אבל הרי חיפוש כזה יחזיר המון תוצאות לא רלוונטיות ויוריד את הדיוק. לרוב עורכים גם ממוצע משוקלל של השניים וקוראים לו F-measure.

חזרה למחקר. התוצאות היו, עבור אמזון: דיוק 77%, להוחזר 81%.
עבור טוויטר: דיוק 79%, להוחזר 86%.
אלה תוצאות טובות מאוד!

התוצאות מעניינות בין היתר משום שתהליך הלמידה נעשה מדוגמאות באמאזון, אבל האלגוריתם תיפקד מצוין גם על טוויטים. אחת הסיבות שהחוקרים נותנים היא שבגלל שטוויטים הם חסרי הקשר מטבעם, הם חייבים להיות ברורים יותר. בשביל שאר הסיבות תצטרכו לקרוא את המאמר(ים). כמובן שיש מקום לשיפור: צור/דוידוב/רפופורט מזכירים ששֹשֹ"י יתקשה להבחין בין "הספר היה מצוין עד שהגעתי לעמוד 2" ובין "הספר היה מצוין עד שהגעתי לעמוד 430", אבל מסבירים איך אפשר לעקוף את הבעיה הזו. כמובן שיש עוד הרבה פרטים שלא הזכרנו כאן – היתר במאמרים המלונקקים.

דוגמה לסרקזם

בשולי הדברים, יש לי עוד משהו אחד להגיד למר "TheMarker Online" שכתב את הידיעה הזו בדה-מרקר. כך כתב מר אונליין:

לפי [האתר] בואינג בואינג אחוז הדיוק של האלגוריתם עומד על 77%.

הם אפילו לא טרחו לבדוק דברים לבד! כן, בואו נצטט איזה אתר אינטרנט, כי לבדוק בעצמנו מה כתוב במאמר עצמו זה כ-ל  כ-ך  ק-ש-ה.

שיתוף קל:

  • דואר אלקטרוני
  • פייסבוק
  • טוויטר

Like this:

אהבתי
היה הראשון שאוהב את הpost.

פורסם באנגלית, בלשנות חישובית, שפה בתקשורת | 9 תגובות

9 תגובות

  1. ב 21 במאי 2010 בשעה 15:04 אורן

    תודה.


  2. ב 21 במאי 2010 בשעה 15:34 ל'

    שׂשׂ"י, לא שֹשֹ"י.
    ותודה על ההסבר, באמת התעצלתי לקרוא את המאמרים.


  3. ב 21 במאי 2010 בשעה 17:03 בין סרקזם לאירוניה

    [...] למאמר(ים) על זיהוי אוטומטי של סרקזם על ידי מחשב (בדגש קל פירגנו וגם אספו חלק מהלינקים, מגיזמודו, דרך הטלגרף ועד CNET). [...]


  4. ב 21 במאי 2010 בשעה 18:04 יובל

    להוחזר?? למה מי מת?
    למרות שהפוסט על לבוטל היה מאיר עיניים וסבבי, אני מציע תרגום צנוע-משהו ל-ריקול: איתור. ריקול הוא שיעור (יחס) הפריטים הרלוונטיים שאותרו (יחסית למספר הפריטים הרלוונטיים שיש לאתר — לא כל הפריטים שאפשר לאתר)

    התעצלתי לשאול, אבל אני בטוח שכל פיזיקאי דובר עברית (וגם מדענים אחרים) יוכלו להאיר את עיניינו לגבי המושגים העבריים שבשימוש.


  5. ב 21 במאי 2010 בשעה 23:47 אורן

    להוחזר נשמע לי שייך ל-recall האמריקאי במובן הצרכני. כמו למשל במקרה של הטויוטה עם ההילוכים הדפוקים שהיה להם recall, או במקרה אני יודע מהשבוע (בדיוק נסענו לארה"ב והדיוק הילד נהיה חולה) – recall של ה"אקמולי" מכל בתי המרקחת.

    אבל למען האמת אין לי מושג איך אומרים recall במובן של הערכת ביצועים. אנחנו פשוט אומרים ריקול.


  6. ב 22 במאי 2010 בשעה 01:01 יובל פינטר

    ניטפוק: אם הדוגמה שאתה משתמש בה היא אחת, אז הלהוחזר הוא 40 מתוך 125 ולא 50/125.


  7. ב 22 במאי 2010 בשעה 02:02 איתמרק

    כמו שיורם ארבל אמר: אתה חד עין. אני חושב שאני משנה את הדוגמה תוך כדי תנועה, אבל האמת שבינתיים גם אני התבלבלתי. העיקר שהעקרון ברור.


  8. ב 14 ביוני 2010 בשעה 12:02 מחול אחרון ופרידה

    [...] (עכשיו הם ב"סייפשל מונדיאל: רשומות על שפה טבעית!") פירגנו ואספו חלק מהאיזכורים (טרם הראיונות), כשהחביבים עלי הם [...]


  9. ב 17 ביוני 2010 בשעה 10:50 ISCOL הזין בתקופת מבחנים « דגש קל

    [...] שטחית: היה עודף קל של משפרי אלגוריתמים למיניהם ומוצאי יישומים חדשים על פני הצד הבלשני / התיאורטי של התחום, ובכל זאת האחרון [...]



סגור לתגובות.

  • בלוג קיבוצי על כל מיני דברים מעניינים שקשורים לבלשנות ולשפות. הציבור מוזמן לתרום מרשמיו והתרשמויותיו; קולגות שמעוניינים לכתוב אצלנו יתקבלו בברכה.
    @dageshkal
  • ידע כללי

    • אודות
    • English
    • עוד בלשנות
    • צרו קשר
    • היכל התהילה
  • הרשמה לעדכונים!

    לִחצו כאן על מנת לקבל הודעה על פוסטים חדשים בדוא"ל (מומלץ ביותר!) קבלו את הרשומות החדשות ביותר ללא צורך להיכנס לאתר כל הזמן. פוסטים חדשים באופן מוּלד!

    יש גם פיד עבור קוראי RSS (מומלץ עוד יותר!) אבל המונה מתעדכן לאט:
    להקליק עליי זה מגניב תרססו, מכפתלכם

    (חוצמזה יש גם פיד לתגובות)

  • רשומות אחרונות

    • חלקי משפט שנמצאו בכתבה, שאנחנו לא מבינים אותו
    • הקפיד לשמור מרחק מהתחביר שאותו נבחר להסביר
    • מינהלת
    • הולך להיות אח
    • לא משהו להתפעל ממנו
  • תגובות אחרונות

    פשוט יעל על הקפיד לשמור מרחק מהתחביר שאותו…
    פשוט יעל על הקפיד לשמור מרחק מהתחביר שאותו…
    איציק על הקפיד לשמור מרחק מהתחביר שאותו…
    יובלמוב על חלקי משפט שנמצאו בכתבה, שאנחנו…
    פשוט יעל על הקפיד לשמור מרחק מהתחביר שאותו…
  • מי בבולגים

    • איתמרק
    • בן לי
    • יובל פינטר
    • יאיר הנדלר
    • Tal Linzen
  • נושאים נבחרים בבלשנות בלוגיסטית

    • בילוי היום (28)
    • בלשנות השוואתית (16)
    • בלשנות חישובית (26)
    • דע את בלשנך (30)
      • בורודיצקי (6)
      • גיא דויטשר (7)
      • חומסקי (3)
      • יספרסן (2)
    • כתיב (6)
    • לינגוויפיקציה (8)
    • ללא נושא (22)
    • לקסיקוגרפיה (86)
    • מהנעשה בעירנו (73)
    • מוזיקה (17)
    • מורפולוגיה (47)
    • מנהלה (59)
      • מכתבים להעורך (24)
    • סוציולינגוויסטיקה (51)
    • סלנג (49)
    • סמנטיקה (73)
      • ביטויים גנריים (2)
    • סנובון/snowclone (9)
    • ספר (23)
    • עצות לשוניות גרועות (12)
    • עריכה לשונית בחינם (8)
    • פונולוגיה (43)
    • פוסט אורח (13)
    • פיסוק (4)
    • פסיכולינגוויסטיקה (36)
      • ספיר-וורף (21)
    • פרגמטיקה (36)
    • צחוקים (39)
    • קטנונולוגיה (30)
    • ריקודים משונים (6)
    • שפה בתקשורת (84)
    • שפות דבורות (285)
      • אינדונזית (1)
      • אנגלית (102)
      • אספרנטו (2)
      • בבלית (1)
      • גליציאנית (2)
      • גרמנית (26)
      • הונגרית (1)
      • טורקית (1)
      • יוונית (2)
      • יידיש (8)
      • לה צרפתית (12)
      • לטינית (6)
      • סינית (6)
      • ספרדית (15)
      • עברית (242)
      • ערבית (24)
      • צ'כית (3)
      • צ'חא (1)
      • קרואטית (1)
      • רוסית (12)
    • שפות סימנים (12)
      • אל-סייד (2)
      • דויטשע געבערדענשפראכע (1)
      • שפת הסימנים האמריקנית (4)
      • שפת הסימנים הישראלית (5)
    • תחביר (72)
      • משאולים (3)
      • משפטי חולצה (11)
    • תרגום (57)
  • גם הם כותבים על בלשנות

    • Arnold Zwicky
    • Balashon
    • Jabal al-Lughat
    • Language Log
    • languagehat
    • גבי דנון
    • השפה העברית
    • חיפושים כמשל
    • מאיר שטרית
    • מאיר שטרית 2
    • מדע בזיוני
    • עברית וחיות אחרות
    • עברית שפה קשה
  • גם הם מציירים על בלשנות

    • xkcd
    • קומיקס דינוזאורים
  • גנזך

    • מאי 2012 (3)
    • אפריל 2012 (3)
    • מרץ 2012 (5)
    • פברואר 2012 (4)
    • ינואר 2012 (4)
    • דצמבר 2011 (7)
    • נובמבר 2011 (5)
    • אוקטובר 2011 (4)
    • ספטמבר 2011 (6)
    • אוגוסט 2011 (7)
    • יולי 2011 (8)
    • יוני 2011 (6)
    • מאי 2011 (6)
    • אפריל 2011 (8)
    • מרץ 2011 (8)
    • פברואר 2011 (6)
    • ינואר 2011 (7)
    • דצמבר 2010 (10)
    • נובמבר 2010 (10)
    • אוקטובר 2010 (9)
    • ספטמבר 2010 (8)
    • אוגוסט 2010 (12)
    • יולי 2010 (13)
    • יוני 2010 (15)
    • מאי 2010 (12)
    • אפריל 2010 (18)
    • מרץ 2010 (4)
    • פברואר 2010 (10)
    • ינואר 2010 (14)
    • דצמבר 2009 (20)
    • נובמבר 2009 (16)
    • אוקטובר 2009 (14)
    • ספטמבר 2009 (27)
    • אוגוסט 2009 (23)
    • יולי 2009 (17)
  • עכשיו ב-LINGUIST list

    • 23.2499, Jobs: Phonetics; Psycholing; Clinical Ling: Two PhD Studentships (fees and support), Queen Margaret U: bit.ly/JR5qb8 1 day ago
    • 23.2498, Jobs: Japanese; Translation: Consultant Translator, Appen Butler Hill: bit.ly/JR5qb4 1 day ago
    • 23.2497, Jobs: General Linguistics: Consultant, Gap International, Pennsylvania, USA: bit.ly/KyxkXn 1 day ago
    • 23.2496, Review: Applied Ling; Language Acquisition; Syntax: Wilder & Åfarli (2010): bit.ly/Lip2Ua 1 day ago
    • 23.2495, Confs: Applied Ling/Macedonia: bit.ly/KLGD4s 1 day ago

בלוג בוורדפרס.קום.

ערכת עיצוב: MistyLook של Sadish


Follow

Get every new post delivered to your Inbox.

הצטרפו אל 165 שכבר עוקבים אחריו

Powered by WordPress.com
loading בטל
הרשומה לא נשלחה - בדוק את כתובות המייל בבקשה!
הפעולה נכשלה, בקשה נסה שוב
מצטערים, הבלוג שלך אינו יכול לשתף רשומות בדואר אלקטרוני.