Feeds:
רשומות
תגובות

Archive for יוני, 2011

חברתנו תמר נשאלה לגבי "כלי אוטומטי לחקירת שפה" והבלוג שמח להחזיר לה טובה ולבדוק את הנושא. מכרתה ר' ביקשה לדעת על מנוע שיכול לעבור על טקסט שהיא כתבה, להציע מילים שונות לאלה שהשתמשו בהן ואפילו לתת ניתוח פסיכולוגי על בסיס המילים שנכתבו. בגלל שלפני כמה חודשים נשאלתי שאלה דומה אסקור בקצרה את מה שעניתי אז, אוסיף כמה דברים שמצאתי בינתיים ואפנה את הבמה לקוראינו שיספרו בתגובות על מה שהם מכירים או השתמשו בו.

לפני שמתחילים כדאי אולי לומר את המובן מאליו, והוא שאין באמת תוכנית שיכולה לעשות את זה בצורה מושלמת משום שאין תוכנית שמסוגלת לחשוב ולהיות יצירתית, והשאלה אם אי פעם תהיה תוכנית כזו עודנה שאלה פתוחה (להבדיל משאלה סתומה). נקודה חשובה נוספת היא שרוב הכלים מפותחים עבור שפות משעממות כמו אנגלית, ובכלל לא בטוח שהם יוכלו לעבוד עם טקסטים בעברית (תודה לאורן על התזכורת הזו).

התחום הקרוב ביותר לעניין הזה בבלשנות חישובית נקרא sentiment analysis, ניתוח רגשות. כשחיפשתי כלים כאלה שנגישים לציבור הרחב – ואינם רק אבות-טיפוס של קבוצות מחקר שונות – מצאתי כמה שאת טיבם אינני מכיר. למשל, יש כלי לכריית מידע שנקרא RapidMiner של איזו חברה גרמנית וניתן להוריד אותו בחינם, אבל הוא עשוי להיות מסובך עבור חסרי רקע בתחום.
מוצר מבטיח נוסף הוא OpenAmplify, שגם בו לא השתמשתי.

סוציובלשנים רבים משתמשים בכלי פופולרי בשם Wordsmith Tools. הוא אמנם לא עושה SA אבל יש בו כלי קונקורדנציה יעיל ויכולת להפיק מילות מפתח. אפשר להוציא ממנו תובנות יפות, גם אם בסיסיות. למשל, מכרה שלי מצאה שבקורפוס עיתונות קנדית מסוים, המילה "דו-לשוניות" בצרפתית מופיעה יותר בהקשרים שליליים מאשר בהקשרים חיוביים, ובעיתונות באנגלית המגמה הפוכה.

כאן בארץ, משה קופל מבר-אילן עובד על דברים דומים וגם הוזכר בתגובות לפוסט הזה של טל (אחד משלושת הטובים שלו, לדעתי). אורן ואני מזכירים שם בתגובות את העבודה הנהדרת של ראדה מיכלצ'אה שעסקה בדיוק בניתוח פסיכולוגי לפי מילים בטקסט.

את הזווית הישראלית משלים הפוסט הזה של גנאדי למברסקי שסקר את חברות עיבוד השפה הפעילות בארץ.

זו סקירה חלקית, כמובן, הן מבחינת ההיקף (התוכנות שאני מכיר) והן מבחינת העומק (עד כמה אני מכיר אותן). קוראינו מוזמנים להשלים את החסר.

[ת' ליותם ולאורן]

Read Full Post »

חברים שואלים אותי לא פעם על כללי כתיבה וסגנון, וחושבים שאני הכתובת כי אני לומד בלשנות, בעוד שבפועל לימודי בלשנות תיאורטית לא ממש עוזרים להכרת השימוש התקני בשפה. לרוב הם אפילו מזיקים לכך. זה לא שאני לא כתובת טובה לשאלות כאלה, פשוט הקישור הספציפי הזה מציק לי קלות. אז הנה, את האבן הזו גליתי מלבי כבר בהתחלה.

שאלה ששמעתי לא פעם נוגעת לפיסוק במשפטים ארוכים. באופן יותר ספציפי, לפני "ש" השימוש. אז לטובת השואלים, מצאתי דוגמה לא רעה לשימוש שגוי בפסיק לפני פסוקית: רביב דרוקר כותב בבלוגו היום:

שלא תבינו אותי לא נכון – בנקודה הזאת, אני מסכים לגמרי עם "מעריב". כחלון עשה הרבה דברים יפים בשוק התקשורת (אסור לשכוח שעוד לא היה לנו שר תקשורת לא פופולרי. מלימור לבנת וה"שמיים הפתוחים" ועד הרפורמות הצרכניות של אריאל אטיאס). למה הוא צריך להגזים בעוצמת ההתנגדות, שהוא עמד מולה?

הפסיק במשפט האחרון מעביר את המסר הלא נכון. לי עלו בראש המילה "מוקאוומה" ותמונה של בכירי חברות סלולר עטויי כאפייה מחזיקים קלאצ'ים. מה שהפסיק מרמז הוא שקיים מושג רלוונטי שניתן לקרוא לו "התנגדות", בהקשר זה, ואטיאס עמד מולה. הפסיק במקרה זה מקדים פסוקית לוואי לא-מוצרכת. שזו הדרך הבלשנית לומר שאם המשפט היה נגמר במילה "התנגדות", לא היתה בעיה. כמו שהמשפט "אליוט החביא את החייזר, שעדיין לא גילה לנו את שמו" יכול להיגמר במילה "חייזר". היתר פשוט מוסיף מידע.

המצב אינו כזה. תסכימו איתי שכשקוראים את המשפט של דרוקר, אחרי המילה "התנגדות" חסר משהו. מה שבא אחרי הפסיק הוא למעשה פסוקית לוואי מוצרכת. המילים "שהוא עמד מולה" מסבירים לנו באיזו התנגדות מדובר. כמו ש-"אליוט נכנס לבית שזהר באור ירוק" לא יכול סתם כך להיגמר במילה "בית", שכן סביר להניח שבהקשר יש כמה בתים, או בכל מקרה אין שום בית ספציפי. כך גם כאן. אמנם אפשר להשלים לבד את זהות ההתנגדות גם בלי הפסוקית, מתוך הקשר, אבל לפחות לדעתי ההקשר לא מספיק חזק כדי להבטיח הבנה מיידית לגבי זהות ההתנגדות המוזכרת.

Read Full Post »

[פוסט אורח של דפנה שיזף, בלשנית חישובית וספקנית]

התגובה הראשונה שלי כשראיתי שהספר "בראי השפה" של גיא דויטשר יצא בעברית היתה: שיט, סתם קראתי אותו באנגלית. התגובה הבוגרת ביותר, שבאה אחר כך, היתה שמחה על התרומה המבורכת למדף הבלשנות הפופולרית (והמדע הפופולרי בכלל) בעברית.

קודם כל, למי שטרם הספיק, רוצו לקרוא את הספר הקודם שלו, "גלגולי לשון". אחרי זה השאילו אותו לכמה שיותר אנשים. "גלגולי לשון", שעוסק בשינוי והתפתחות של שפות, הוא ניידת חילוץ והצלה מבורוּת בלשנית וטהרנות-רחוב.

"בראי השפה" מתעמת עם שאלה בלשנית נוספת שצצה הרבה בזירה הפופולרית, ובדרך כלל מתוך בורות בטוחה בעצמה: הקשר בין תרבות, שפה וחשיבה. הדבר הראשון שדויטשר עושה הוא לפרק את הנושא לשניים: המראָה והעדשה. החלק הראשון של הספר עוסק בשפה כמראה– האם שפות משקפות את החברות שמדברות אותן? חלקו השני דן בשאלת השפה כעדשה – האם שפות משפיעות על הדרך שבה דובריהן רואים את המציאות? הפרדה חשובה ולא טריוויאלית – אנשים נוטים לחשוב שאם לאסקימוסים יש הרבה מילים לשלג (שאלת "מראתית" שנויה במחלוקת) אז בהכרח אסקימוסים יודעים להבחין יותר טוב מאחרים בין סוגים שונים של שלג (שאלת "עדשתית" נפרדת).

בעניין המראה

אבל מספר המילים לשלג הוא טריוויה לשונית. סביר שאוצר המילים של שפה יושפע מהסביבה הפיזית והטכנולוגית של דובריה (ולכן דוברי עברית מודרנית לא זקוקים להבחנה בין "גדיד" ל"בציר"). החלק הראשון של "בראי השפה" לוקח את שאלת המראָה צעד אחד קדימה. נושא דיון ארבעה מחמשת פרקיו הוא: למה הומרוס דימה את צבע הים לצבע של יין? או באופן יותר כללי: האם בשפות שונות יש מספר שונה של מילים לצבעים, והאם זה קשור לרמת ההתפתחות האירגונית-טכנולוגית של החברה?

בקריאת ארבעת הפרקים האלה מתגלה סוד קטן על הספר: זה בעצם ספר על היסטוריה אינטלקטואלית, היסטוריה וסוציולוגיה של מדע הבלשנות לא פחות מאשר ספר על בלשנות. את התשובה לשאלת המילים לצבעים תוכלו, לכשתקראו, לנסח בפסקה. שאר 74 העמודים (במהדורה האנגלית) מגוללים 150 שנה של דיון מדעי רב תהפוכות בשאלה הזאת. זה סיפור מרתק, ודויטשר יודע לבנות דמויות, לשמור על מתח ולתבל בהומור. אנחנו לומדים לא מעט על העשייה המדעית ועל טיבו של ידע, אבל קצת פחות על בלשנות.

הפרק החמישי הוא מסע צלב נגד הטענה שמבחינה דקדוקית "כל השפות מורכבות באותה מידה". דויטשר מראה שזאת טענה דוגמטית חסרת בסיס אמפירי. הביקורת של דויטשר כל כך חריפה, שאפשר לדמיין אותו מתקתק את הפרק הזה בחמת זעם שמאיימת לשבור את המקלדת (וזאת עדות לכישרון הכתיבה שלו). אבל חמת הזעם הזאת נראית לי קצת פונה פנימה, לקהילת הבלשנים. לא ברור לי עד כמה שכיחות מבנה שיעבוד בשפות עתיקות (לדוגמה) היא שאלה מרתקת עבור הקהל הרחב.

בעניין העדשה

ובשלב זה אנחנו מגיעים לשאלה הטעונה יותר: שאלת העדשה. בחלק השני של הספר דויטשר מתאר את המסלול שעברה הטענה שהשפה משפיעה על החשיבה שלנו, מוורפיזם, לאנטי-וורפיזם לנאו-וורפיזם.

וורפיזם, על-שם בנג'מין לי וורף והשערת ספיר-וורף, הוא הטענה שהשפה שאנחנו מדברים מגבילה את הדרך שבה אנחנו תופסים, מבינים או חושבים. הטענה זכתה לפופולריות מסוימת בחצי הראשון של המאה ה-20, אבל עם הזמן התברר שאין לה שום בסיס ראייתי ושהיא די מנוגדת לעובדות ולהיגיון, והיא הפכה לסוג של אמונה תפלה שחוגים בלשניים מזלזלים בה.

בשנים האחרונות התחילו לצוץ עבודות שזוכות לכותרת "נאו-וורפיזם". הנאו-וורפיזם, מבחין דויטשר, שונה מהוורפיזם לפחות בשתי דרכים. הוא מבוסס על ראיות ולא על השערות פרועות (שזה לא רע עבור משהו שרוצה להיות מדע). חוץ מזה, הנאו-וורפיזם לא תופס את השפה כבית-כלא שמגביל את החשיבה שלנו, אלא כמאמנת שמרגילה אותנו לחשוב בדרכים מסוימות. דוברי שפות שיש בהן יותר הבחנות כרומטיות לא רואים יותר צבעים מדוברי שפות עניות-בגוונים, אבל מסתמן שהם מסוגלים להבחין בין גוונים יותר מהר. דוברי ספרדית וגרמנית מבינים היטב שהמין הדקדוקי של המילה "גשר" בלשונותיהם הוא שרירותי, אבל דוברי ספרדית נוטים לחשוב שגשרים (זכרים) הם חזקים, ודוברי גרמנית חושבים שגשרים (נקבות) הם אלגנטיים. ויש כמה מחקרים עם ממצאים שישאירו אתכם פעורי פה, על שפות שאין להן "ימין" ו"שמאל", רק "צפון" ו"דרום" ו"מזרח" ו"מערב" – ואני בכוונה נמנעת מלספיילר לכם את הנושא הזה.

בינתיים, בעוד שהגלגל המדעי מסתובב והידע נצבר, בציבור הרחב ממשיך לשרור וורפיזם נאיבי, בסגנון האקסימוסים והשלג. הפרק שבו דויטשר מפרק לוורפיזם המקורי את הצורה, ואז מניח מחדש את היסודות לנאו-וורפיזם הוא נפלא. ברצינות. צריך להקים תנועת גרילה שתצלם עותקים שלו ותתלה על עצים ולוחות מודעות.

הבעיה היא שכמות הממצאים לנאו-וורפיזם עדיין דלה. שלושת התחומים שבהם הספר מביא (צבעים, מינים וכיוונים) הם שלוש הדוגמאות הקלאסיות שמוזכרות בכל פעם שהנושא עולה. מתוכן, רק דוגמת הכיוונים היא מסעירה באמת (בעיני). בשתי הדוגמאות האחרות, ההשפעה של השפה על התפיסה על קטנה, כמעט נקודתית, ונדרשים כלים מחקריים די כבדים כדי לגלות אותה. זה קצת הר שהוליד עכבר.

אני מלאת כבוד והערכה לכל מי שמנסה להביא מדע לציבור הרחב. אני מעריצה את גיא דויטשר כי הוא עושה את זה בכישרון ובהצלחה. אבל נראה לי שהנושא שבחר הפעם צעיר מדי (בגלגולו המדעי הנוכחי) ולא מבוסס מספיק כדי להצדיק ספר שלם. התוצאה היא העיסוק הרב בהיסטוריה, סוציולוגיה ומתודולוגיה, בהעדר כמות מספיקה של ממצאים בלשניים ממשיים. מבחינה זו הקריאה איכזבה אותי. אבל זה עדיין ספר מרתק ומומלץ. אולי הבעיה שלי היתה יותר בעיה של תיאום ציפיות; מי שייקרא את הספר אחרי שקרא את הביקורת הזאת והבין מי נגד מי, יידע למה לצפות ויהנה הנאה שלמה.

[עדכון 24/6 – דויטשר מצטרף לדיון בתגובות.]

גיא דויטשר (2011). בראי השפה. מאנגלית: עמרי אשר. הוצאת חרגול, 311 עמ'.

Read Full Post »

איזה שטויות, בחיי.

[ההשראה: כאן.]

Read Full Post »

כתבי השטח שלנו חורשים לאחרונה את הארץ לאורכה ולרוחבה, בעיקר לרוחבה, כדי ללמוד ממיטב כנסי הבלשנות שיש לקהילה הישראלית להציע.
יובל נכח לאחרונה בסמינר הבלשנות החישובית ISCOL וחלק עמנו מרשמיו הרבים ב טוויטר .
ומהיום ולמשך שאר השבוע אהיה אני באוניברסיטה העברית לכנס Roots ‎3 (או בשמו הרשמי: Approaches to the Lexicon‏) שמתמקד במורפולוגיה ובממשקיה עם התחביר. גם התרשמויותיי יצויצו; צריך רק ללחוץ כאן ולקרוא. אם אתם בסביבה אתם מוזמנים לבוא ולומר שלום. היום אקל עליכם את הזיהוי – אני לובש חולצה‎ ‎של קומיקס דינוזאורים .

ובינתיים, אחרי שנהניתי ממיטב פקקי ארצנו, הגעתי באיחור קל להרצאת הפתיחה של היידי הארלי מאונ' אריזונה, מבט מקיף ומאלף על השורש במובנו הבסיסי ביותר. יאללה בלגאן.

Posted by Wordmobi

Read Full Post »

תקופת יובש זו בפרסום רשומות חדשות (שאינה נובעת חלילה מהיעדר רצון או מהיעדר חיבה לקהל קוראינו העצום, אלא רק מהבעיה המוכרת לכל של מחסור בזמן פנוי) מהווה עבורי הזדמנות טובה להיזכר בשורת-סטטוס שפרסמתי לא מזמן באחת הרשתות החברתיות (אני מוסיף קישורים כדי להבהיר במה מדובר):

‏‫‏‫לעזאזל הכיבוש, לעזאזל סוריה, לעזאזל פשיזם, לעזאזל אםתרצו, לעזאזל הביומטרי, לעזאזל עם הכבילה, לעזאזל עם היתושים, לעזאזל העולם. יש אליפות!

כבר כשכתבתי את הסטטוס הזה הבנתי שאני צריך לנסח מחדש חלקים ממנו. לא כדי לחוס על נפשותיהם השמרניות של חבריי אלא בגלל שבקריאה חוזרת, וחוזרת ונשנית, לא הסתדרו לי הלעזאזלים. 'לעזאזל סוריה'? 'לעזאזל עם סוריה'? יש הבדל? כלומר, האם חלים כללים מסוימים על המבע לעזאזל X במשמעות 'אני מתוסכל עמוקות על ידי X'?

אז כמיטב המסורת, אבקש היום את חוות דעתכם. תפוצו בקרוב ברשומה ארוכה על בלשנות תיאורטית, בלשנות חישובית והיתרונות של כל אחת מהן כדיסיפלינה מדעית. או כמו שאומרים בימינו – אני הולך לאכול לכם את הראש. אבל זה בהמשך. בינתיים, לעזאזל (עם) חומסקי.

בואו נסתכל על מספר דוגמיות. השיפוטים שלי פריכים מהרגיל:

  1. א) לעזאזל הכיבוש.
    ב) *לעזאזל עם הכיבוש.
    ג) לעזאזל עם הכיבוש הזה.
    ד) אני הולך לים ולעזאזל עם הכיבוש.
    ה) *אני הולך לים ולעזאזל עם הכיבוש הזה.
  2. א) לעזאזל סוריה.
    ב) ?לעזאזל עם סוריה.
    ג) *לעזאזל עם סוריה הזו.
  3. א) לעזאזל פשיזם.
    ב) ?לעזאזל עם הפשיזם.
    ג) לעזאזל עם הפשיזם הזה.
  4. א) *לעזאזל הכבילה.
    ב) לעזאזל עם הכבילה.
  5. א) לעזאזל העולם.
    ב) *לעזאזל עם העולם (#הזה).

אני לא בטוח שיש כאן מגמה של ממש אבל עושה רושם שסוריה ואםתרצו – בהיותן שמות – מתנהגות אחרת. המקור באנגלית, to hell with, דורש את הכללת מילת היחס.

בכינויי גוף המצב חד-משמעי יותר ומילת היחס הכרחית:

  1. א) לעזאזל איתך
    ב) *לעזאזל אתה

יש למישהו אינטואיציות חד-משמעיות על הצירופים האלה? נראה לי שיש כאן משהו אבל אני לא משוכנע. למעשה, הדבר היחידי שבטוח הוא:

  1. יש אליפות!

Read Full Post »