• ראשי
  • English
  • אודות
  • היכל התהילה
  • עוד בלשנות
  • צרו קשר

דגש קל

דגש יא גולש

Feeds:
פוסטים
תגובות
« פיסוק מוצרך
בלשנותנ"כית »

כלים אוטומטיים לניתוח טקסט

25 ביוני 2011 על-ידי איתמרק

חברתנו תמר נשאלה לגבי "כלי אוטומטי לחקירת שפה" והבלוג שמח להחזיר לה טובה ולבדוק את הנושא. מכרתה ר' ביקשה לדעת על מנוע שיכול לעבור על טקסט שהיא כתבה, להציע מילים שונות לאלה שהשתמשו בהן ואפילו לתת ניתוח פסיכולוגי על בסיס המילים שנכתבו. בגלל שלפני כמה חודשים נשאלתי שאלה דומה אסקור בקצרה את מה שעניתי אז, אוסיף כמה דברים שמצאתי בינתיים ואפנה את הבמה לקוראינו שיספרו בתגובות על מה שהם מכירים או השתמשו בו.

לפני שמתחילים כדאי אולי לומר את המובן מאליו, והוא שאין באמת תוכנית שיכולה לעשות את זה בצורה מושלמת משום שאין תוכנית שמסוגלת לחשוב ולהיות יצירתית, והשאלה אם אי פעם תהיה תוכנית כזו עודנה שאלה פתוחה (להבדיל משאלה סתומה). נקודה חשובה נוספת היא שרוב הכלים מפותחים עבור שפות משעממות כמו אנגלית, ובכלל לא בטוח שהם יוכלו לעבוד עם טקסטים בעברית (תודה לאורן על התזכורת הזו).

התחום הקרוב ביותר לעניין הזה בבלשנות חישובית נקרא sentiment analysis, ניתוח רגשות. כשחיפשתי כלים כאלה שנגישים לציבור הרחב – ואינם רק אבות-טיפוס של קבוצות מחקר שונות – מצאתי כמה שאת טיבם אינני מכיר. למשל, יש כלי לכריית מידע שנקרא RapidMiner של איזו חברה גרמנית וניתן להוריד אותו בחינם, אבל הוא עשוי להיות מסובך עבור חסרי רקע בתחום.
מוצר מבטיח נוסף הוא OpenAmplify, שגם בו לא השתמשתי.

סוציובלשנים רבים משתמשים בכלי פופולרי בשם Wordsmith Tools. הוא אמנם לא עושה SA אבל יש בו כלי קונקורדנציה יעיל ויכולת להפיק מילות מפתח. אפשר להוציא ממנו תובנות יפות, גם אם בסיסיות. למשל, מכרה שלי מצאה שבקורפוס עיתונות קנדית מסוים, המילה "דו-לשוניות" בצרפתית מופיעה יותר בהקשרים שליליים מאשר בהקשרים חיוביים, ובעיתונות באנגלית המגמה הפוכה.

כאן בארץ, משה קופל מבר-אילן עובד על דברים דומים וגם הוזכר בתגובות לפוסט הזה של טל (אחד משלושת הטובים שלו, לדעתי). אורן ואני מזכירים שם בתגובות את העבודה הנהדרת של ראדה מיכלצ'אה שעסקה בדיוק בניתוח פסיכולוגי לפי מילים בטקסט.

את הזווית הישראלית משלים הפוסט הזה של גנאדי למברסקי שסקר את חברות עיבוד השפה הפעילות בארץ.

זו סקירה חלקית, כמובן, הן מבחינת ההיקף (התוכנות שאני מכיר) והן מבחינת העומק (עד כמה אני מכיר אותן). קוראינו מוזמנים להשלים את החסר.

[ת' ליותם ולאורן]

שיתוף קל:

  • דואר אלקטרוני
  • פייסבוק
  • טוויטר

אהבתי

אהבתי טוען...

קשור

פורסם באנגלית, בלשנות חישובית, מנהלה, סוציולינגוויסטיקה, סמנטיקה, עברית | 12 תגובות

12 תגובות

  1. ב- 25 ביוני 2011 בשעה 22:25 Kipod

    אני מניח שקודם צריך להגדיר מה זה "חקירת שפה". כי כמו שניתן לשאול "איזה רגש מובע במקטע הטקסט הזה", ניתן לשאול שאלות אינספור אחרות. האם הכותב דובר אמת? האם הטקסט נכתב ע"י מחשב, או ע"י אדם? האם הכותב גבר או אשה? או גיי? מה שפת אימו של הכותב?
    ומקרה קיצוני, שאני יכול אולי לחפור את המאמר המקורי בנוגע אליו – בניית רשת חברתית של דמויות מרומאנים אנגליים, כדי לסתור טענה ספרותית כלשהי.

    שאלות אחרות יכולות להיות לגבי איכות הטקסט. המרכז הארצי לבחינות והערכה טוען שיש לו כלי לשפיטת איכות חיבורים לצרכי הבחינה הפסיכומטרית (איני יודע אם זה אחד הלינקים שהובאו, לא עקבתי אחרי כולם). הנה, ישום, ובשפה השמית המחרידה שלנו.

    אז לפני שטוענים ש-"אין באמת תוכנית שיכולה לעשות את זה בצורה מושלמת משום שאין תוכנית שמסוגלת לחשוב ולהיות יצירתית", טענה שהיא כנראה נכונה, בכל זאת כדאי להבהיר יותר טוב מה זה "את זה".


  2. ב- 25 ביוני 2011 בשעה 22:40 elazar

    whitesmoke


  3. ב- 25 ביוני 2011 בשעה 22:41 Kipod

    סליחה, לא קראתי מספיק טוב.
    מייה קולפה.


  4. ב- 26 ביוני 2011 בשעה 09:13 אורן

    עוד כמה הערונות.
    1. מלבד היותם של מחשבים יצורים די מטופשים, צריך לזכור שהמשימה של "ניתוח שפה" (ויצירת פרופיל פסיכולוגי) היא משימה קשה במובן שגם בני אדם מתקשים בה ולא מסכימים על "ניתוח" מסויים.
    2. כל האלגוריתמים הם אלגוריתמים סטטיסטיים כך שהצלחה (?!) נמדדת על ידי ממוצע הטעות על קבוצת מבחן גדולה ואין שום ביטחון באשר לאיכות התוצאה על מסמך ספציפי (טוב, יש ביטחון, במובן הסטטיסטי).
    3. לתיוג טקסט (זיהוי ישויות) יש את open Calais שלclear forest.
    4. ככל כלי לומד-סטטיסטי, יש חשיבות מאוד גדולה לקורפוס עליו אומן האלגוריתם. היינו אלגוריתם שאומן ועובד נפלא על ביקורות מוצרים באמזון לא בהכרח יפעל כל כך טוב (אם לא יאומן ויכוונן מחדש) על בלוגים או על חיבורים של ילדי תיכון.
    5. חבילת תוכנה פתוחה ונחמדה היא GATE. יש בה מודולים שונים לעיבוד שפה ויש בה גם מודול לsentiment analysis. אין לי מושג אם הוא טוב ואין לי מושג על מה הוא אומן.


  5. ב- 26 ביוני 2011 בשעה 09:21 אורן

    ועוד כמה:

    -המחקר לגבי גרף חברתי של דמויות ספרותיות הוא של הקבוצה של קת'י מקאוון מקולומביה והוא התפרסם בשנה שעברה (ACL).
    – המחקר של המרכז הארצי התפרסם גם הוא בשנה שעברה (COLING או CONLL). ואני לא בטוח שהמחקר הוא על עברית.
    – לגבי מין של הכותב – יש על זה מגוון מאמרים של משה קופל (כמו שצויין בפוסט).
    – לגבי שפת המקור של הכותב – יש על זה מאמר של עבדכם הנאמן ומסתבר שאפשר לעשות את זה יפה מאוד עם נ-גרמים.
    – אה, ועוד כלי לעיבוד שפה – יש פרוייקט מקיף בפייתון NLTK שמספק מודולים להרבה מאוד משימות עיבוד שפה.


    • ב- 26 ביוני 2011 בשעה 11:32 איתמרק

      בהמשך לאורן וקיפוד,
      על דמויות ברומאנים כתבנו כאן. על המרכז הארצי כתבנו כאן וכאן.


    • ב- 27 ביוני 2011 בשעה 12:03 Kipod

      אורן – על שפת המקור של הכותב שמעתי דווקא מהמנחה שלך, בסמינר המרתק שלו.
      (כן, אני מניח שאתה עשית את רוב העבודה. עדיין, גם השם שלו על המאמר, לא?)


    • ב- 27 ביוני 2011 בשעה 12:23 Kipod

      ועל תוכניות המרכז, שמעתי לראשונה בדווקא בקורס (המרתק למדי) של ד"ר ענת בן-סימון, על תורת המבחנים.
      הלינק שלכם להרצאה של ד"ר כהן לא עובד. חפרתי טיפה באתר שם, ומצאתי הרצאה של בן-סימון – http://www.ispa.org.il/image/users/154293/ftp/my_files/convention/2011/presentations2011/moshavC-3.pdf?id=7759233
      (גם כאן קשה להבין הרבה מהמצגת ללא המרצה האנושי שאמור להיות נלווה אליה…)


  6. ב- 27 ביוני 2011 בשעה 12:35 Kipod

    בקשר לעבודתה של ראדה מיכלצ'אה, אני קצת מפקפק בה. לא על סמך קריאת מה שעשתה, אלא על סמך השורה הקצרה כאן המתארת אותה. והסוגייה, מבחינתי, לא קשורה לבלשנות חישובית על כל גווניה – היא קשורה ליסוד התיאורטי שבמקרה הזה הבלשנית לוקחת מתחום אחר, במקרה הזה פסיכולוגיה. הויכוח הוא ארוך בשנים, אבל כל שיטות סיווג – מההבלים הפרוידיאניים ועד לנסיונות המודרניים לסווג בני אדם באופן מדעי (Big 5) – כולם לוקים בחסר. הם לא מצליחים במבחן הפשוט ביותר – בהנתן אינדיוידואל א' מסיווג ב', אנא נבא איך הוא יתנהג בסיטואציה ג'. הויכוח התיאורטי כמובן נרחב בהרבה, אבל נראה לי שזאת דרך לא רעב לתמצת אותו לשורה.

    לא מצאתי את מאמריה של מיכלצ'אה, כדי לקורא על אילו תיאוריות היא התבססה. האתר שלה חסום בססמא לכל משאב מעבר לעמוד הראשון. אבל בכל זאת, כל עוד לא יציגו לי שיטה פסיכולוגית המסוגלת לנבא כיצד אדם יתנהג, אני אמשיך לפקפק בכך שבלשנים חישוביים יכולים לעשות זאת בעצמם. ברור הרי לכולנו שהם חייבים להתבסס על משהו, ולעבוד לפי הגדרות של קודמיהם בתחומים אחרים.


    • ב- 27 ביוני 2011 בשעה 14:21 איתמרק

      בתור התחלה, נסה ללחוץ על הלינק היחידי שמופיע באותו העמוד הראשון.


    • ב- 27 ביוני 2011 בשעה 17:58 אורן

      כל המאמרים שלה נמצאים וזמינים כאן: http://www.cse.unt.edu/~rada/papers.html
      במאמר המדובר היא לא עוסקת בניבוי ובטח לא בניתוח אישיות אלא במציאת קורלציה בין שימוש במילים מסויימות למצב רוח מסויים. כיוון שמדובר בבלוגים שמתארים אירועים או פנטזיות אזי המילים מהוות פרוקסי להערכת "מה גורם לאנשים למצב רוח כזה או אחר. ושוב, מדובר בסטטיסטיקה על הרבה משתמשים.

      המאמר הזה שלה באמת חמוד אבל העבודות שלה שאני אוהב באמת (למרות שלפעמים התוצאות לא מרשימות) הן העבודות שמנסות לאמץ מודל קוגניטיבי, למשל העבודה על ייצור אינדקסים לספרים.


  7. ב- 28 ביוני 2011 בשעה 09:27 רינה

    אני לא יודעת אם זה קשור לבקשה שאני העליתי לאחרונה להמלצות על כלי כזה (שכן תמר היא חברתי בפייסבוק), אבל בסוף מצאתי כלי שהיה מה שהייתי צריכה:
    http://crftagger.sourceforge.net
    הכלי הזה מתייג את הטקסט קטגוריות לקסיקליות בלי לתת את הדעת על התוכן – רק מעניין אותי אם מילה מסוימת היא שם עצם, פועל, וכו' כדי שאני אוכל לתת לה התנהגות שונה בממשק שאני בונה.



התגובות סגורות.

  • בלוג קיבוצי על כל מיני דברים מעניינים שקשורים לבלשנות ולשפות. הציבור מוזמן לתרום מרשמיו והתרשמויותיו; קולגות שמעוניינים לכתוב אצלנו יתקבלו בברכה.
    @dageshkal
  • ידע כללי

    • אודות
    • English
    • עוד בלשנות
    • צרו קשר
    • היכל התהילה
  • הרשמה לעדכונים!

    לִחצו כאן על מנת לקבל הודעה על פוסטים חדשים בדוא"ל (מומלץ ביותר!) קבלו את הרשומות החדשות ביותר ללא צורך להיכנס לאתר כל הזמן. פוסטים חדשים באופן מוּלד!

    יש גם פיד עבור קוראי RSS (מומלץ עוד יותר!) אבל המונה מתעדכן לאט:
    להקליק עליי זה מגניב תרססו, מכפתלכם

    (חוצמזה יש גם פיד לתגובות)

  • רשומות אחרונות

    • נוער מדבר מגניב
    • שש שלוש שמונה, אלפיים עשרים
    • ארמזים מאולצים בימי קורונה
    • על ניתוח בלשני בפרשת האונס באיה נאפה
    • כך תעשה
  • תגובות אחרונות

    רן על נוער מדבר מגניב
    ישראל ישראלי על נוער מדבר מגניב
    היא על שש שלוש שמונה, אלפיים עשר…
    רוני הפנר על שש שלוש שמונה, אלפיים עשר…
    דּוֹדָשְלָהּ על שש שלוש שמונה, אלפיים עשר…
  • מי בבולגים

    • בן לי
    • יובל פינטר
    • איתמרק
    • Tal Linzen
    • יאיר הנדלר
  • נושאים נבחרים בבלשנות בלוגיסטית

    • אטימולוגיה (10)
    • בילוי היום (39)
    • בלשנות השוואתית (17)
    • בלשנות חישובית (27)
    • דע את בלשנך (38)
      • בורודיצקי (6)
      • גיא דויטשר (7)
      • חומסקי (3)
      • יספרסן (2)
    • כתיב (20)
    • לינגוויפיקציה (10)
    • ללא נושא (21)
    • לקסיקוגרפיה (106)
    • מהנעשה בעירנו (105)
      • בחירות 2013 (8)
      • בחירות 2015 (3)
    • מוזיקה (23)
    • מורפולוגיה (72)
    • מנהלה (68)
      • מכתבים להעורך (27)
    • סוציולינגוויסטיקה (74)
    • סלנג (61)
    • סמנטיקה (123)
      • ביטויים גנריים (8)
      • עירוב ביטויים (6)
    • סנובון/snowclone (11)
    • ספר (24)
    • עצות לשוניות גרועות (15)
    • עצטרובל (3)
    • עריכה לשונית בחינם (38)
    • פונולוגיה (60)
    • פוסט אורח (24)
    • פיסוק (9)
    • פסיכולינגוויסטיקה (39)
      • ספיר-וורף (23)
    • פרגמטיקה (50)
    • צחוקים (48)
    • קטנונולוגיה (44)
    • ריקודים משונים (8)
    • רכישה (1)
    • שאילה (7)
    • שלילת יתר (11)
    • שפה בתקשורת (108)
    • שפות דבורות (399)
      • אינדונזית (2)
      • אנגלית (136)
      • אספרנטו (2)
      • בבלית (1)
      • גליציאנית (2)
      • גרמנית (27)
      • דנית (1)
      • הונגרית (1)
      • טורקית (1)
      • יוונית (4)
      • יידיש (10)
      • לה צרפתית (14)
      • לטינית (8)
      • סינית (8)
      • סיציליאנית (1)
      • ספרדית (15)
      • עברית (349)
      • ערבית (33)
      • צ'כית (3)
      • צ'חא (1)
      • קרואטית (1)
      • רוסית (14)
    • שפות סימנים (17)
      • אל-סייד (2)
      • דויטשע געבערדענשפראכע (1)
      • שפת הסימנים האמריקנית (6)
      • שפת הסימנים הישראלית (6)
    • תחביר (105)
      • זויגמה (3)
      • משאולים (5)
      • משפטי חולצה (12)
    • תחדישים (10)
    • תרגום (76)
  • גם הם כותבים על בלשנות

    • Arnold Zwicky
    • Balashon
    • Jabal al-Lughat
    • Language Log
    • languagehat
    • גבי דנון
    • השפה העברית
    • חיפושים כמשל
    • מאיר שטרית
    • מאיר שטרית 2
    • מדע בזיוני
    • עברית וחיות אחרות
    • עברית שפה קשה
  • גם הם מציירים על בלשנות

    • xkcd
    • קומיקס דינוזאורים
  • גנזך

    • מאי 2022 (1)
    • נובמבר 2021 (1)
    • מאי 2021 (1)
    • ינואר 2020 (1)
    • נובמבר 2019 (1)
    • מאי 2019 (1)
    • אפריל 2019 (1)
    • פברואר 2019 (1)
    • דצמבר 2018 (1)
    • אוקטובר 2018 (2)
    • אוגוסט 2018 (1)
    • יולי 2018 (1)
    • מאי 2018 (1)
    • מרץ 2018 (1)
    • ינואר 2018 (1)
    • דצמבר 2017 (1)
    • אוקטובר 2017 (1)
    • ספטמבר 2017 (1)
    • יולי 2017 (2)
    • יוני 2017 (1)
    • מאי 2017 (1)
    • פברואר 2017 (1)
    • אוקטובר 2016 (1)
    • ספטמבר 2016 (1)
    • יוני 2016 (2)
    • דצמבר 2015 (1)
    • נובמבר 2015 (1)
    • אוקטובר 2015 (1)
    • ספטמבר 2015 (1)
    • אוגוסט 2015 (2)
    • יוני 2015 (2)
    • אפריל 2015 (1)
    • מרץ 2015 (1)
    • פברואר 2015 (1)
    • ינואר 2015 (4)
    • דצמבר 2014 (1)
    • נובמבר 2014 (1)
    • אוקטובר 2014 (1)
    • אוגוסט 2014 (1)
    • יולי 2014 (2)
    • יוני 2014 (1)
    • מאי 2014 (2)
    • אפריל 2014 (1)
    • פברואר 2014 (3)
    • דצמבר 2013 (2)
    • נובמבר 2013 (1)
    • ספטמבר 2013 (1)
    • אוגוסט 2013 (1)
    • יולי 2013 (1)
    • יוני 2013 (4)
    • מאי 2013 (3)
    • אפריל 2013 (6)
    • מרץ 2013 (3)
    • פברואר 2013 (6)
    • ינואר 2013 (10)
    • דצמבר 2012 (5)
    • נובמבר 2012 (7)
    • אוקטובר 2012 (5)
    • ספטמבר 2012 (3)
    • אוגוסט 2012 (5)
    • יולי 2012 (6)
    • יוני 2012 (2)
    • מאי 2012 (4)
    • אפריל 2012 (3)
    • מרץ 2012 (5)
    • פברואר 2012 (4)
    • ינואר 2012 (4)
    • דצמבר 2011 (7)
    • נובמבר 2011 (5)
    • אוקטובר 2011 (4)
    • ספטמבר 2011 (6)
    • אוגוסט 2011 (7)
    • יולי 2011 (8)
    • יוני 2011 (6)
    • מאי 2011 (6)
    • אפריל 2011 (8)
    • מרץ 2011 (8)
    • פברואר 2011 (6)
    • ינואר 2011 (7)
    • דצמבר 2010 (10)
    • נובמבר 2010 (10)
    • אוקטובר 2010 (9)
    • ספטמבר 2010 (8)
    • אוגוסט 2010 (12)
    • יולי 2010 (13)
    • יוני 2010 (14)
    • מאי 2010 (12)
    • אפריל 2010 (18)
    • מרץ 2010 (4)
    • פברואר 2010 (9)
    • ינואר 2010 (14)
    • דצמבר 2009 (20)
    • נובמבר 2009 (16)
    • אוקטובר 2009 (14)
    • ספטמבר 2009 (27)
    • אוגוסט 2009 (23)
    • יולי 2009 (17)
  • עכשיו ב-LINGUIST list

    • Qs: Spanish, Swedish and Finnish Primary School Teachers needed for Online Study on English Teaching Practices: We,… twitter.com/i/web/status/1… 1 hour ago
    • FYI: Call for Practical Application Chapters | Critical Language Teacher Education: Call for Papers for an Edited V… twitter.com/i/web/status/1… 2 hours ago
    • FYI: Ampersand: An Open Access and Interdisciplinary Journal of Language Sciences and Bilingualism: Following the a… twitter.com/i/web/status/1… 2 hours ago
    • FYI: Call for Participation in the NLP Community Metasurvey: What do NLPers think about controversial NLP issues? A… twitter.com/i/web/status/1… 2 hours ago
    • RT @linguistlist: Review: How Emotions Are Made in Talk: SUMMARY Many scholars interested in emotions are familiar with Feldman Barrett’s (… 2 hours ago

בלוג בוורדפרס.קום.

WPThemes.


  • הרשמה רשום
    • דגש קל
    • הצטרפו אל 1,905 שכבר עוקבים אחריו
    • כבר יש לך חשבון ב-WordPress.com? זה הזמן להתחבר.
    • דגש קל
    • התאמה אישית
    • הרשמה רשום
    • הרשמה
    • להתחבר
    • העתקת קישור מקוצר
    • דווח על תוכן זה
    • View post in Reader
    • ניהול מינויים
    • צמצום סרגל זה
loading בטל
הרשומה לא נשלחה - בדוק את כתובות המייל בבקשה!
הפעולה נכשלה, בקשה נסה שוב
מצטערים, הבלוג שלך אינו יכול לשתף רשומות בדואר אלקטרוני.
%d בלוגרים אהבו את זה: