[פוסט אורח מאת אדם מתן]
האם אפשר להגדיר את מידת הדמיון בין שפות, שלא דרך מחקר בלשני?
נחשוב לרגע על קרבה בין שפות (ותרבויות). אפשר להניח, למשל, ששפות שדובריהן שוכנים זה בקרבת זה, תהיינה קרובות יותר זו לזו מאשר שפות הנמצאות ביבשות שונות. הקשר הלשוני בין שפות שונות נחקר מזה מאות שנים; אותי עניין לחקור את הנושא מזווית אחרת, של קיום מונחים זהים בשתי השפות.
נגדיר את המרחק בין שפות כסבירות לכך שמונח שקיים באחת קיים גם בשניה. כך למשל, יש סיכוי טוב שהביטוי "חמסין" יהיה קיים גם בעברית וגם בערבית, אבל סיכוי נמוך לכך שהוא קיים גם בשפת הנאוואחו. זו גישה שמתעלמת לגמרי ממבנה המילה, מהתקופה בה המילה נכנסה לשפה וממספר הדוברים הילידים המכירים את המילה; השיטה חוקרת רק את כמות המונחים משותפים לשתי השפות, ואולי גם את איכותם ותפוצתם.
מכיוון שסריקה מילונית היא עסק מסובך מאוד, החלטתי לעשות לעצמי הנחה מסויימת ולהשתמש בערכים בויקיפדיה כמקור. כלומר, הקשר בין שתי שפות ייקבע לפי מספר הערכים המשותפים לשתיהן. אפשר, כמובן, להרחיב את הבדיקה הזו למשפחות של שפות, כלומר לנסות למצוא קבוצות של שפות שמאופיינות על ידי מילים משותפות. חשוב גם לציין שבבדיקה הזו יש לא מעט בעיות והטיות סטטיסטיות – אבל הנושא עדיין מעניין מספיק בשביל לבדוק אותו.
כדי לבדוק את העניין כתבתי סקריפט קטן בפייתון. הסקריפט לוקח בכל פעם ערך אקראי מויקיפדיה העברית, ושומר בטבלה את רשימת השפות בהן מופיע הערך, למשל:
http://he.wikipedia.org/wiki/תא_אפנדימלי
en, ar, de, es, fa, fr, it, ja, pl, ru, sk, sl, sv
כלומר, הערך "תא אפנדימלי" קיים גם באנגלית, ערבית, גרמנית, ספרדית, פרסית, צרפתית, איטלקית, יפנית, פולנית, רוסית, סלובקית, סלובנית ושוודית. לעומתו, הערך "כ"ו בכסלו" קיים רק בעברית וביידיש (כן, יש פרייער ענציקלאפעדיע גם ביידיש, עם יותר מ7,000 ערכים – עסק מעניין בפני עצמו).
נצא מנקודת הנחה שמספר השפות אליהן מתורגם הערך הופכי לחשיבותו. כלומר, הערך על התא האפנדימלי תורגם ל13 שפות ולכן מספק אישוש חלש לקשר בין השפות, ואילו "כו בכסל"ו" תורגם רק לשפה אחת, ומספק לנו אישוש חזק בהרבה על הקשר בין עברית ליידיש.
כדי לכמת את הקשר, נגדיר את המקדם של כל ערך בויקיפדיה להיות ריבוע מספר השפות אליו מתורגם הערך. המקדם של הערך על התא האפנדימלי הוא 169 (13 בריבוע), ואילו המקדם של "כו בכסלו" הוא 1 (1 בריבוע). עבור כל ערך שנדגם, כל אחת משפות התרגום קיבלה ניקוד ההופכי למקדם. כלומר, סלובנית, שוודית ושאר השפות שהערך על התא האפנדימלי תורגם אליהן קיבלו 1/169≈0.00592 נקודות כל אחת עבור הערך, ואילו יידיש קיבלה נקודה אחת עבור כ"ו בכסלו.
צברתי את הערכים עבור 4,003 ערכים אקראיים מהויקיפדיה העברית (שהם כ4% מהערכים) והרי התוצאות:
ro 6.238
fi 6.302
sv 8.027
ar 8.420
ja 10.426
cs 10.829
pt 10.914
nl 13.281
es 14.357
it 15.747
yi 19.878
pl 20.503
ru 22.485
fr 30.873
de 31.004
en 290.949
831.000
קצת פרשנות
את מספר הנקודות הרב ביותר קיבל ה"אין תרגום", כלומר ערכים שאינם קיימים בשפות אחרות. צריך להזהר מעט מהנתון הזה, משום שיכול מאוד להיות שהערכים קיימים בשפות אחרת אך אף ויקיפד לא יצר קישור ביניהן. בכל מקרה, הנתון הזה מעניין כי הוא יכול לאפיין את היחידאות, או הבידוד, של שפה מסויימת.
השפות הבאות בתור, לפי סדר ניקוד יורד, הן אנגלית (290.9), גרמנית (31.0), צרפתית (30.87), רוסית (22.49), פולנית (20.50), יידיש (19.88) ואיטלקית (15.74). מעניין לשים לב לכך שהשפות הנפוצות בויקיפדיה, לפי סדר יורד, הן אנגלית, גרמנית, צרפתית, פולנית, איטלקית, יפנית וספרדית. הנתון המעניין כאן הוא שתי השפות שמספר הערכים המשותפים להן ולעברית גדול בהרבה מהסבירות הסטטיסטית – יידיש ורוסית. וכאן נראה לי שהצלחנו לקלוע יפה.
רעיונות…
- עוד הרצות: אני מחכה בכליון עיניים להרצה הבאה של הסקריפט – על היידיש (אני מצפה לד מיון לעברית ולגרמנית), על שפה סקנדינבית ועל שפה מזרח אירופית.
- ללמוד על מנגנון הקישורים הבין-לשוניים בויקיפדיה. איך נוצרים קישורים בין שפות? האם מדובר בתהליך חצי אוטומטי, או ידני לחלוטין?
- התאמה סטטיסטית: לעבוד על ניתוח סטטיסטי תקף יותר לנתונים.
- העלאת התוצאות לרשת בצורה מסודרת, אולי דרך אפליקציה בגוגל.
- ויזואליזציה, אולי באמצעות דיאגרמות ון.
- תרבויות ושפות: האם ייתכן שלא מדובר בקרבה בין שפות, אלא גם בקרבה בין תרבויות? למשל, הקשר בין רוסית לעברית יכול לנובע מקיומה של קהילה גדולה הדוברת את שתי השפות, ומתרגמת ערכים. זו מחשבה שהופכת את הפרוייקט, בעיני, למעניין הרבה יותר.
אשמח לתגובות.
[פוסט אורח מאת אדם מתן, מפתח תוכנה במקצועו, וסקרן תמידי בזמנו הפנוי. בוגר (בקרוב) של לימודי מדעי המחשב ותכנית כללית למדעי הרוח באוניברסיטה העברית. הפוסט פורסם במקור בבלוגו "הבלוג הכחול"]
מרבית הקישורים נוצרים אוטומטית, ובד"כ דרך השפה האנגלית: כותבי הערך, או העורכים, מקשרים אותו לאנגלית, וכך גם הכותבים והעורכים במרבית השפות האחרות; סקריפטים אוטומטיים מזהים שערך X בעברית וערך Y בצרפתית מקושרים לאותו ערך אנגלי, ויוצרים את הקשר בין הערך העברי לצרפתי.
לכן, אפשר לפסול מראש את הדירוג הגבוהה של האנגלית. מצד שני, לערכים שאין בהם קישור לאנגלית אבל יש קישור לשפות אחרות יש כנראה משקל גבוה בהרבה.
א. אין סיבה לעבוד על 'ערך אקראי'- אפשר לעבוד ישירות על טבלת האינטרויקי (כאן לעברית, אפשר לשחק עם ה-URL לשפות אחרות)
ב. אולי לחלק את הציון של השפה במס' הערכים? חילוק נראה קצת פשטני, אפשרו אולי למצוא תרגיל אחר…
טל: מסכים לחלוטין. בגלל האוטומציה אנגלית לא יכולה לשמש כשפת ייחוס.
נדב: צודק לגמרי, זו גישה נכונה הרבה יותר (שגם תיתן לי גישה מהירה בהרבה מאשר הבאת ערכים אקראיים שלמים): http://download.wikimedia.org/enwiki/20100817/
בגרסא הבאה.
אני תוהה אם המחקר הזה אומר בכלל משהו על שפות, ולא – כפי שהועלה כאפשרות – על תרבויות. הערבית, למשל, קרובה בהרבה לעברית מאשר הרוסית, אבל דורגה די נמוך. זאת מכיוון שרוב-רובם של הערכים בוויקיפדיה אינם מושגים אלא שמות, מקומות, אירועים היסטוריים – והסיכוי שיהיה על אלה ערך בוויקיפדיה מסוימת תלוי בקשר של אותם אנשים, מקומות אירועים וכד' לאותה תרבות. כתוצאה, האלגוריתם מגלה שיש עולם-מושגים משותף ל*תרבויות* מסוימות, ולא ל*שפות* מסוימות.
רונן – אולי המחקרון מעיד גם על קיומן של קהילות דו לשוניות (שאולי בעצמן מרמזות על קשר בין תרבויות).
יותר מספירה של ערכים המתורגמים בין השפות, נראה לי הגיוני להשתמש באיזה מקדם של אחוזים מכלל הערכים בשפה.
אם נניח יש לנו שפת א' עם 10 ערכים, שפת ב' עם 1000 ערכים, ושפת ג' עם 100000 ערכים, הרי שעשרה ערכים משותפים בין א' ל-ב' מהווים דמיון חזק בהרבה מאשר עשרה ערכים משותפים בין ב' ל-ג'.
אבל רעיון מעניין ביותר, ואני מצפה לראות גרף יפה על הקשרים בין שפות העולם כולו. בנוסח עדות informationisbeautiful.
אסף – ברור, צריך לנרמל. השאלה היא איך, ואני צריך עוד להבין את מנגנון האינטרויקי ואת ההטיות הסטטיסטיות המובנות בו. השיטה שהצעת כנראה תהיה הבסיס.
לגבי הגרף – אני דווקא חשבתי על GraphViz, אבל אשמח לרעיונות. האם ל informationisbeautiful יש קוד חופשי או API? מצאתי באתר שלהם רק תרשימים יפהפיים, אבל בלי פיסה אחת של קוד.
מספר מחשבות –
1. נראה לי שמה שבעצם הצלחת לגלות, זה לא קשר בין שפות, אלא קשר בין שכיחות של שפות נוספות לשפת אם, כששפת האם היא עברית…
כלומר, לא שרוסית ועברית הן קרובות באופן מפתיע, אלא שיש הרבה יותר דוברי רוסית ועברית שתורמים לויקיפדיה ותרגמו את המונחים הידועים להם בשתי השפות, מאשר דוברי צרפתית ועברית למשל באופן יחסי…
וזה לא ממש מעיד על קשר תרבותי בעיני… (למשל, יש לדעתי יותר יפנים דוברי איטלקית, מאשר יפנים דוברי גרמנית, ועדיין נראה לי שמבחינה תרבותית, יפן וגרמניה יותר דומות… )
2. יש ערכים, כמו באמת תא אפנדימלי, שהם לא *באמת, מילים בעברית. זה שלקחו את המונח הרפואי, וכתבו אותו באותיות עבריות לא ממש הופך מילה למילה בעיני.
(נכון שכולנו אומרים סמס, אבל המילה העברית היא מסרון…). ויקיפדיה עושה שינויים לפעמים כשהיא מפנה אותך בין השפות בין מונחים, וחוסר התאמה טוטאלי הוא לפעמים לא מחוייב המציאות, אלא ממש שגוי… למשל בדוגמא שנתת – ותא היא מילה בפני עצמה. ואפנדימה היא מילה שלא קיימת בויקיפדיה עברית… אבל מבחינה תוכנית-סמנטית, (שזה להבנתי מה שרצית לבדוק), כמובן שהיא קיימת, כי הרי, האפנדימה, היא רקמה של תאים אפנדימלים…. ויש הבדל מהותי בין רקמה שלמה, לתא בודד אחד….
3. יש יותר מידי נושאים בויקיפדיה עברית, שהם לחלוטין חסרים או לא ממוצים למרות שהם לא נדירים לעומת נושאים אחרים… ואז שוב, המחקר בודק את האוריינטציה התרבותית ספציפית של האנשים שכתבו ערכים בויקיפדיה, ואם תחומי העניין שלהם יותר מתרכזים במחשבים, לעומת בוטניקה, למשל, למרות שיכול להיות ששפתית בפועל, המאזן אמור להיות הפוך….
אני לא חושב שיש לו קוד לחלוקה. הוא אומן, ונראה לי שחלק ניכר ממה שהוא עושה זאת עבודה ידנית.
מצד שני, אם באמת יהיה לך דטסט נאה ומקיף, הוא בטח ישמח לשתף פעולה.
גוטגליק: אם כולנו אומרים SMS, המילה העברית היא SMS.
אם אף אחד מאיתנו לא משתמש ב"מסרון" בשפת היום-יום (או בכלל), הרי שמסרון אינה באמת מילה בשפה.
אסף, זה בגדול מה שאמרתי….
מה משמעות משהו שאומנם בויקיפדיה הוא הגדרה, ולכן מבחינת המחקר הוא מילה בעברית, אם הוא לא למעשה מילה בעברית?
SMS למשל אתה בכלל לא כותב בעברית, ועדיין, זאת המילה.
אומנם במונח הזה, ויקיפדיה יודעת לקשר בין כל צורות הכתיב השונות, אבל זה רחוק מלהיות המצב עבור שאר המילים…
ובתא אפנדמלי כמו שכתבתי, תא זאת מילה עברית. אפנדימה לא (לפי ויקי, היא לא קיימת). אבל תא אפנדימלי, לפי המחקר הוא מילה, בגלל שהוא מקושר למונח האנגלי – אפנדימה, אף על פי שהם לא שווי ערך.
(אגב, גם אם אף אחד לא משתמש במילה בשפת היום יום, אני חושבת שמבחינה מחקרית, זה לא משנה. אנחנו גם לא אומרים זרבובית, או צפיחית. ואני בספק אם בעוד חמישים שנה, יכתבו את נטיית הגוף הראשון בזמן עתיד עם א' ולא י' בהתחלה… אז הן לא בעברית מבחינתך, או שמא, לא מתאימות למה שנחקר כאן? ולא, קשר בין שפות כפי שהן מדוברות כיום… ).
אני אולי לא כותב באותיות עבריות, אבל אני כותב את זה בשורה בעברית. זאת מילה בשפה העברית.
ואני לא בטוח באשר לזרבובית, אבל צפיחית אינה מילה בשפה העברית העכשווית. "צפיחית בדבש", כביטוי כבול, דווקא כן.
קודם כל רק אומר שאני מאוד מחבב מחקרים שכאלו.
דבר שני אומר – שחרר את הקוד. פרסם את הפייתון.
דבר שלישי – יש כאן בעיה מתודולוגית מסויימת. השיטה הזו יכולה לתת עוד אינדיקציה ששפות שידוע שהן קשורות הן אכן קשורות או לחלופין – לכוון את הזרקור אל שפות שלא ידוע קשר בינהן ולשלוח חוקרי שפה לבדוק אם אכן יש קשר. מה שאני בעצם אומר כאן שצריך לבצע טסט ולהשוות לגולד-סטנדרט.
gutglik:
לגבי 1: אני חושב שקיומה של קהילה דו לשונית גדולה, מעיד על קשר מסויים גם בין התרבויות וגם, בסופו של דבר, בין השפות.
לגבי 2: אפשר להגדיר את המחקרון כקשר בין מונחים, ולא כקשר בין מילים.
לגבי 3: נכון, אבל גם אם נושאי העניין נגועים בהטייה, מה שמעניין הוא הלשונות שאליהם נושאי העניין האלו מתרגמים. כפי שצויין רבות, כל הנושא נוגע בכל כך הרבה הטיות עד שהוא קרוב יותר לאנקדוטה מעניינת מאשר למחקר אמיתי.
אורן: תודה. לגבי הקוד – בשמחה, אשים אותו בבלוג שלי בקרוב. הרעיון שלך לגבי כיוון הזרקור נוגע פחות למחקרון הזה ויותר לשימושים האפשריים שלו.
אדם, נזכרתי בשיטה (כמעט) לא-בלשנית אחרת למציאת דמיון בין שפות:
אל-יניב, פיין ותשבי מדדו את המרחק בין התפלגויות אותיות בטקסטים בשפות שונות,
וקיבלו עץ "התפתחותי" של שפות:
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.18.9629