Feeds:
רשומות
תגובות

Archive for the ‘קרואטית’ Category

  • פורסם לראשונה בשיחה: עיתון התוכנית הבין-תחומית, אוניברסיטת תל-אביב, גיליון 11 ביוני 2009
  • חלק ראשון נמצא כאן, חלק שני כאן וחלק שלישי כאן. נו, איפה שאתם עכשיו. החלק הרביעי כאן.

סמנטיקה ותחביר

מחקר שנערך בקרואטיה (תמיד חלמתי להתחיל ככה פוסט) העלה ממצאים מרתקים: מערכת הזמנים הסטנדרטית בשפה הכתובה עוברת שינויים בלתי-צפויים כאשר היא מיושמת במסרונים. בפרט, מספר צורות זמן שכמעט אינן בשימוש כלל בכתב הרגיל (לא ניכנס לפרטים, בשביל זה קישרתי) מקבלות ייצוג-יתר מופרז במסרונים, זאת בנוסף לייצוג-היתר הצפוי של צורת הזמן הנפוצה ביותר. הצפי נבע מההנחה שבעת כתיבה מהירה ללא פנאי לעריכה אנו נוטים לגשת לצורות שהכי נפוצות עבורנו. התוצאות לא שיקפו את ההנחה, וההצעה לחוסר ההתאמה הניתן ע"י החוקרים הוא שההקשר הפרגמטי שבהם נכתבים מסרונים שונה מאוד מכתיבה רגילה (פרוזה, עיתונות, אקדמית) ולכן מעלה לפני השטח צורות ביטוי שונות.

ניסיתי לדלות מההודעות שברשותי בשפה העברית נתונים שיורו על תופעה דומה, למשל שימוש נפוץ יותר בבניין שאינו נפוץ בכתיבה רגילה (נפעל, למשל) או משקל שכזה, וזאת כיוון שמערכת הזמנים בעברית דלה. מאמציי לא צלחו, ואולי ניתן להסביר זאת בכך שהבניינים והמשקלים הם מערכות שיוצרות משמעויות חדשות ("גזירה") ולא משליכות משמעויות קיימות לתבנית מוכרת ("נטייה").

קצרנות תחבירית וריכוז מידע סמנטי בולטים מאוד בכתיבת מסרונים (ומסרים מיידיים באופן כללי). הדוגמה הבולטת היא הודעת הקלישאה "ער/ה?", משפט שנמחקו ממנו מילת השאלה "האם", שלרוב לא תבוטא גם בדיבור, וכינוי הגוף "את/ה", שדווקא כן (סימן השאלה נשאר – אחד מסימני הפיסוק הבודדים ששומרים על מעמדם בצורות התקשורת המיידיות). אך זה אינו המדיום היחיד בו צורת כתיבה זו בשימוש. על קצה המזלג ניתן למנות כותרות בעיתונים, מצגות, תמרורים ושלטי דרכים, כולם מקרים בהם מסר חד צריך לעבור בזמן קצר. זו גם אינה תופעה מודרנית: שלטי דרכים התנהגו כך עוד בימי האימפריה הרומית.

זיהוי מילים (T-9)

היישום המתקדם הנפוץ ביותר בתחום המסרונים הינו T-9, מנגנון המתרגם סדרת לחיצות בודדות על מקשי הטלפון למילה שלמה ובכך חוסך מהמשתמש את הצורך בלחיצה עד ארבע פעמים על כל מקש כדי לעבור בין אותיות, ובהמתנה קצרה בין כתיבה רצופה של שתי אותיות הנמצאות על אותו מקש. יעילות האלגוריתם הוכחה לגבי האנגלית כבר בתחילת העשור, כל עוד הכותב אינו שוגה לעתים קרובות והמילון בו משתמש היישום כולל מספיק מילים. נצרף לכך את האבחנה שמנגנון שכזה מעודד שימוש במילים ארוכות: ככל שמוסיפים אותיות למילה אמנם מספר האפשרויות לרצף אותיות עולה (פי שלושה או ארבעה, תלוי במקש) אבל שיעור המילים הקיימות בשפה מתוך כלל האפשרויות פוחת באופן ניכר.

ומה באשר לעברית? תחילה נשים לב, כי מבנה המילים בעברית הוא חופשי ביותר: למעשה, כל רצף עיצורים הוא בר-הגייה, כיוון שניתן להניח תנועות בלתי-כתובות בין עיצור לעיצור. לראייה, כמעט כל ראשי התיבות בעברית מבוטאים כמילים, אפילו חמישה עיצורים ברצף (סמנכ"ל). לכן, למנגנון זיהוי אוטומטי אין "רמזים" כמו באנגלית, שם אפשר לנחש שאחד מחמשת המקשים שבהם חיות אותיות הניקוד aeiou יהיה תנועה כאשר הוא מוכנס בתוך רצף מקשים המייצגים רק עיצורים. הדבר מקשה מאוד על הזיהוי בעברית, וזה כאין וכאפס לעומת הבעיה העיקרית, היא אותיות השימוש החבורות (מש"ה וכל"ב, זוכרים?): אלה יכולות להופיע בראש כמעט כל מילה וללא חציצה, מה שלא מאפשר למנגנון לזהות אותן בקלות. הרי לא יעלה על הדעת לכלול במילון כל וריאציה של מילה עם מיליות חבורות ("וְלִכְשֶׁמֵּהַגַּן" היא אחת מהן), וכל מילה שמתחילה ברצף של חמשת המקשים עליהן שבע האותיות הללו מופיעות מחייבת את המנגנון לחיפוש כפול, משולש או אף מרובע במילון, אחד לכל רצף מקשים המתחיל בנקודה הבאה ברצף שהוקש. לדוגמה, שימו לב לחיתוכי התחיליות שרצף מקשים פשוט כמו 24272 יכול ליצור: "דמותה", "ה-מורה", "ו-מ-דתה", "ו-מ-ה-תו", וזאת לפני שהתייחסנו לכינוי גוף חבור בסוף ("דמות-ה"). אז הנה, מצאנו עוד סיבה לשימוש ההולך וגובר בצורות כמו "וגם", "אל", "שלה".


Read Full Post »