Feeds:
פוסטים
תגובות

Archive for the ‘בלשנות חישובית’ Category

[בלה פוסט אורחת בלה גבי סטנובסקי בלה סטודנט לבלשנות בלה באוניברסיטת בת בלה]

לאחרונה נתקלתי ברשת במספר אלגוריתמים לשוניים מעניינים ומוזרים שהוצעו בשפה האנגלית. עניין אותי לנסות ולשחזר אותם עבור השפה העברית. רשומה זו סוקרת את האלגוריתמים, את הכלים החישוביים אשר נעשה בהם שימוש, ומספקת מקבילה עברית שלהם.

NURBLE

במקור

מן הקומיקס המעולה SMBC של הכותב והמאייר זק ווינר (Zach Weiner). בקומיקס מועלים לא פעם רעיונות מתחומים רבים, חלקם דמיוניים לחלוטין, וחלקם מתבררים כפרקטיים למדי.

באחד הקומיקסים הכותב העלה את הסברה כי ניתן לשפר טקסטים פוליטיים ע"י שינוי כל מילה שאינה שם עצם ל-NURBLE. עוקב טוויטר חרוץ לא איחר להגיב עם תוכנה קטנה שעושה בדיוק את זה – מקבלת טקסט, ומחזירה אותו "מנורבל".

הרעיון לא חמק מעינם של הכותבים של לאנגואג' לוג, אלו התייחסו בפוסט שבו הוצעו מספר "מנרבלים" נוספים.

איך זה נעשה

התוכנה הקטנה ששלח העוקב (שנכתבה בשפת PHP) עושה שימוש במשאב חיצוני – קובץ המכיל מאגר מילים וחלק הדיבר שלהם. התוכנה עוברת מילה-מילה על הטקסט אותו יש לנרבל, ובודקת לפי המאגר האם המילה היא שם עצם או לאו – בהתאם היא מחזירה Nurble, או את המילה עצמה.

התוצאה

מעניינת ומשעשעת למדי, ניתן להתרשם באותו הקומיקס מהרצה של האלגוריתם על נאום המצב לאומה של אובמה. באופן מפתיע ניתן להבין את רובו, גם כאשר הרוב המוחלט של המילים "מנורבל".

בעברית

כפי שראינו התוכנה המקורית עשתה שימוש במאגר מילים ממשאב חיצוני. למיטב ידיעתי משאב שכזה לא קיים בשפה העברית. בנוסף, כנראה שנטייתה של השפה העברית לעמימות תחבירית יקשה מאד על שימוש במשאב כזה, גם אם קיים. מסיבות אלו נעשה שימוש במתייג – פונקציה אשר בקבלת משפט מחזירה, בין השאר, את חלקי הדיבר של מילותיו (עוד על כך בהמשך) באחוזי ההצלחה מסוימים. בהינתן פונקציה כזו הפתרון למשימה נעשה טריוויאלי – נעבור על כל המשפטים בקלט, נזין אותם למתייג, ונברור את שמות העצם מתוכם.

התוצאה

התרשמו בעצמכם מ"נירבול" נאומו של יאיר לפיד במליאה:

מקור, ולאחר נירבול.

עינכם הרואות – ה"נארבל" עשה עלייה ל-"בלה", לדעתי גם במקרה הזה ניתן להבין את המסר בקווים כלליים.

נסו בעצמכם

אם אתם מעוניינים לבדוק בעצמכם את ההשפעה של הנירבול על טקסטים אחרים, העלתי מדגים של התוכנה (לאחר הכנסת הטקסט, סמנו את האופציה NURBLE).

אתנחתא – מתייגים, מפיגי עמימות ומודלים סטטיסטיים

בתחום הבלשנות החישובית קיימים מספר תחומים ובעיות אשר נחקרו רבות בשנים האחרונות – רובן בעיות בסיסיות אשר פתרון שלהן יהווה בסיס כמעט לכל מערכת אשר רוצה לעשות שימוש בשפה טבעית. בין אלו ניתן למצוא: תיוג חלקי דיבר (Part Of Speech Tagging), זיהוי ביטויים שמניים (NP Chuncking) וזיהוי ישויות (Named Entity Recognition). קל לראות כי אלו הן אבני הבסיס למשימות "מורכבות" יותר, דוגמת ניתוח תחבירי (Parsing), תרגום מכונה, סיכום אוטומטי, ועוד.

בניגוד למשימות ה"מורכבות", במשימות בסיס אלו קיימת לרוב הסכמה בין דוברי השפה לגבי הפלט הרצוי. כך, כל דובר שפה עברית יסכים כי חלק הדיבר של המילה "רץ" במשפט "גל רץ הביתה" הנו פועל (Verb), בעוד שספק אם קיימים שני אנשים שונים אשר יסכמו את הרשומה הזו לכדי אותו סיכום.

כמובן שבעיות אלו הנן תלויות שפה עד מאד, והאלגוריתמים אשר מנסים לפתור אותן חייבים להתייחס למאפייניה הייחודיים של השפה אליה הם מכוונים פתרונן. למשל אופייה הצירופי (word agglutination) של השפה העברית עלול להקשות רבות על כותבי אלגוריתמים כנ"ל לשפה העברית – אלגוריתמים אלו צריכים להפיג את העמימות באשר היא קיימת לגבי המילים במשפט. אם נסתכל שוב על המילה "רץ" הפעם במשפט "גל הזיז את הרץ למשבצת הסמוכה", ברור כי יש להתייחס למילה רץ בתור שם עצם, בניגוד לפועל שראינו במשפט לעיל – אלגוריתמים אלו יצטרכו לבחור את הפירוש הנכון למילה בהינתן ההקשר המתאים. [ראו גם כאן וכאן – א"ק]

המגמה הבולטת בשנים האחרונות לתקיפת בעיות אלו היא גישה הסתברותית (סטוכסטית). ניתן לייחס זאת להתחזקות כוח המחשוב, לקורפוסים העצומים והבלתי מעובדים (unstructured corpora) של שפה טבעית שמשתמשי האינטרנט מייצרים על בסיס יומיומי, ולאכזבה כללית ממודלים דטרמיניסטיים ו-"שלמים" יותר שהוצגו בעבר.

אלגוריתמים הנוקטים בגישה זו מניחים קיום של מודל כלשהו אשר ממנו מופקים משפטים תקינים בשפה או שבעזרתו ניתן לנתח משפטים בשפה טבעית. כך לדוגמא רשתות נוירונים מניחות קיומו של מודל המפשט את המוח האנושי לכדי נוירונים אשר מופעלים לפי פונקציות הפעלה מסוימות (activation function), ומודלי מרקוב חבויים (Hidden Markov Models) מניחים קיומו של מודל של מכונת מצבים, אשר המעבר בין המצבים תלוי במשפט הקלט ובהסתברות מסוימת.

מודלים אלו נמצאים בבסיס האלגוריתמים הסטוכסטיים. אופיינית, אלגוריתמים אלו יתחילו מתהליך של "אימון" על משפטי קלט משפה טבעית. תהליך זה מטרתו לכייל את הפרמטרים אשר מוטבעים במודל. כך ברשתות נוירונים יכוילו המשקלים אשר ניתנים לכל נוירון, ובמודלי מרקוב חבויים תכוילנה ההסתברויות למעבר בין המצבים.למעשה ניתן לומר כי תהליך האימון מתאים את המודל למשימה הספציפית מולה ניצבים.

לאחר שלב האימון, מפסיקים לכייל את הפרמטרים של המודל ומציגים בפניו משפטים שלא חזה בהם בשלב האימון. בתקווה, המודל אכן יודע להכליל איזושהי תחזית לגבי כלל המשפטים בשפה (או בחלק נרחב ממנה), ולכן יוכל לתת תשובות באמינות מסוימת גם עבור משפטים שלא ראה בעבר.

חלק מן החכמה בכתיבת מערכות שכאלו כוללת את בחירת המודל, אפיון הפרמטרים שלא ישתנו במהלך האימון (לדוגמא, טופולוגיית הרשת במקרה של רשתות נוירונים), ובחירת המאפיינים (features) שיהוו קלט למודל הנבחר.

עבור מימוש שני האלגוריתמים הפשוטים יחסית שמתוארים ברשומה זו, עשיתי שימוש במתייג ומפיג העמימות שנכתב על ידי מני אדלר מאוניברסיטת בן גוריון. משפטים שלמים מן הקלט מוזנים אליו, ובתמורה מקבלים עבור כל מילה בין השאר את חלק הדיבר שלה (בו כבר עשינו שימוש עבור אלגוריתם NURBLE) את הבניין, הזמן, המין, הגוף, ואת צורת הריבוי שלה – בכל אלו נעשה שימוש באלגוריתם הבא שיתואר.

Jailbreak the Patriarchy

במקור

במקרה הזה מדובר בתוסף לשוני מוזר לדפדפן chrome שמתיימר לשבור את הפטריארכיה השלטת ברשת.

התוסף מחליף בטקסט דפי האינטרנט שמות גוף זכריים לנקביים ולהיפך. בנוסף הוא מחפש ביטויים זכריים מסוימים ומחליף אותם במקבילה הנקבית שלהם, ולהיפך. כך לדוגמא "he loved his mother very much" יהפוך ל-"she loved her father very much" ו-"the patriarchy also hurts men" יומר ל- "the matriarchy also hurts women".

איך זה נעשה

לפי תיאור התוסף, נראה כי מדובר במשימת "חפש-החלף" פשוטה יחסית: התוסף עובר על הטקסט בדף, ומחפש ביטויים שנקבעו מראש. ברוב המשפטים אכן מושגת החלפת מין (gender swapping, לפי הכותב), זאת מכיוון שרוב חלקי הדיבר בשפה האנגלית הם ניטרליים מבחינת מין.

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

(אובמה נפגש עם קבוצת ה-KINGS/QUEENS, הכתבה המקורית (מימין) מול התוצר של התוסף (משמאל). מקור

בעברית

בדומה לאלגוריתם הקודם, נראה כי הגישה שננקטה במקור לא תספק מענה הולם בעברית. נסתכל על הדוגמא שנתנה בחלק הקודם:

  • גל רץ הביתה.
  • גל הזיז את הרץ למשבצת הסמוכה.

נניח כי נבצע משימה של חיפוש והחלפה, ונרצה להחליף את "רץ" ב-"רצה", נקבל:

  • גל רצה הביתה
  • * גל הזיז את הרצה למשבצת הסמוכה

ברור כי זוהי אינה התנהגות רצויה, וכאמור, בשפה האנגלית לרוב לא נתקלים בקשיים שכאלו.

הדרך בה נקטתי לפתרון הבעיה הנה שימוש במתייג שהוזכר לעיל – ממנו דליתי עבור כל מילה בקלט את חלק הדיבר שלה, בהתאם הפעלתי עליה פונקציית החלפת מין. אתאר את הפונקציות עבור חלקי הדיבר שם-גוף ופעלים:

שמות גוף:
בהינתן הידע כי מילה מסוימת היא שם גוף, והעובדה כי שמות הגוף היא קבוצה סגורה וקטנה יחסית של מילים, ניתן להשתמש בטבלה פשוטה ולהמיר "הוא" <-> "היא", "הם" <->"הן" וכיו"ב.

פעלים:
בהינתן הפרמטרים הבאים עבור מילה: בניין, זמן, מין, גוף, ואת צורת הריבוי שלה. ניתן להשתמש בחוקי התחביר העברי, לגזור את השורש ולשתול אותו במקבילה הנקבית / זכרית.
בנוסף לאלו, הכנסתי גם רשימת ביטויים בעלי מין אותם האלגוריתם מחליף, בדומה לתוסף המקורי – "אמא" <->"אבא", "פטריארכיה" <-> "מטריארכיה" ועוד.

התוצאה

מעניינת, אך רחוקה מלהיות מושלמת. אם להמשיך באותו קו של דוגמאות, בחרתי את פוסט הפייסבוק שמשום מה התפרסם בזמן האחרון על ריקי כהן הדמיונית, וזוהי התוצאה: "אני רוצה שנדבר על מר כהן". ניתן לראות כי ביטויים רבים מבלבלים את התוכנה, אולם ברגעיה היפים יוצאים משפטים לתפארת מרב מיכאלי.

נסו בעצמכם

גם בתוכנה זו ניתן להתנסות בהמרת מינו של כל ביטוי העולה על רוחכם – כאן (לאחר הכנסת הטקסט, סמנו את האופציה Jailbreak).

[בלה בלה רשומת אורחת בלה גבי בלה בלה בלה פוסט אורחת בלה צרו בלה קשר בלה בלה דרך הטופס בעמוד בלה בלה]

Read Full Post »

וואו. כריס מאנינג ודן ג'ורפסקי, שני בלשנים חישוביים מוערכים מסטנפורד, מלמדים קורס בעיבוד שפה טבעית, בחינם, דרך האינטרנט, החל מה-23 לחודש. הם חוקרים כל כך מוכשרים, והרעיון הזה כל כך מלהיב, שזה שווה פוסט שלם רק בשביל קישור אחד: כל הפרטים כאן.

מומלץ לצפות גם בסרטון הקצר שבו שני החוקרים מזמינים אתכם לקורס; הוא נראה בדיוק כמו שהייתם מצפים משני מדעני מחשב שמושיבים אותם מול מצלמה ונותנים להם לדקלם טקסט. זה כה חמוד.
אז כדי שהפוסט הזה לא יהיה חסר כל תוכן משל עצמו, הנה חידה: ישנן 4 טעויות בכתוביות (האוטומטיות?) של הסרטון ביוטיוב. מה הן?

רמז: שלוש הן של מאנינג — כנראה בגלל המבטא האוסטרלי — ואחת של ג'ורפסקי.


Read Full Post »

נראה שהחומסקיבוט, אותו מנגנון פשוט שמצרף חלקים ממשפטים לא קשורים לכדי פארודיה שלמה אחת, זוכה לאחרונה לעדנה ברשת הישראלית. אני חושב שתיארנו את החומסקיבוטים לראשונה בתגובות כאן; האתר שולף משפטים או חלקי משפטים ממאמרים שונים של חומסקי ומחבר אותם לפסקה משעשעת אחת. בדומה לזה נוצר גם מחולל הפוסט מודרניזם, שמחבר מאמרים שלמים בעלי ניחוח אקדמי.

מה יש לאינטרנט העברי להציע לאחרונה? די הרבה.

נתחיל עם אתר שעלה לאחרונה לרגל התחדשות גל החקיקה האנטי-דמוקרטית, מחולל החוקים הרשמי של מדינת ישראל. חוק לדוגמה: "חוק איסור התחזות. יוזם החוק: מאיר שטרית. סטטוס: קריאה ראשונה. תמצית החוק: ייאסר על אזרחים ממוצא מוסלמי לקרוא לילדיהם בשמות אשר עלולים להתפרש גם כשמות יהודיים כגון אדם, אמיר או רני. אזרחים אשר כבר מחזיקים בשם שכזה יחויבו להחליף את שמם לשם הולם יותר, דוגמת עבדאללה נסראללה."
הערכה: צחוק, צחוק, בסוף לא הפסקנו לבכות. אל תפספסו את סדרת חוקי 'חוק בנות ישראל לא לישמעאל', 'חוק ישראל היום' וחוקי 'חוק היורד הבוגד'/'מי צריך אתכם יבוגדים'. מהבחינה הטכנית החוקים יחסית קבועים, רק שם היוזם והסטטוס משתנים. ובכל זאת לפעמים יש שינוי או שניים בגוף החוק עצמו, כדי לשמור על הגיוון.

נמשיך עם מחולל ההתרשמות הקולינרית של השף אייל שני, או האיילשניבוט, שיוצר משפטים כמו "הכבד ברוטב סוסוני ים שהכנת מעלה בי זכרונות של תקופת הטירונות. זה כמו להקליד את שמך במהופך אף על פי שמקובל לפתוח בהורה סוערת."
הערכה: מצד אחד, מי שלא ראה תוכנית של אייל שני מימיו (כמוני) עשוי לא להבין על מה המהומה. מצד שני, די קל להבין את הקטע. מהבחינה הטכנית זה לא חומסקיבוט מתוחכם מדי, פשוט בוחרים באקראי מתוך רשימה מה משלים את המשפט "ה-א' שהכנת עושה לי ב'. זה כמו ג' בלי ד'".

התגובמולטור עובד בצורה דומה ומחולל טוקבקים לתפארת: "560. המשטרה מתנהגת כמו פושעים. אבא לחייל קרבי, בושה וחרפה (09.10.10): האשכנזים ההומואים מלאים בשנאה עצמית ושונאים כל דבר שקשור ליהדות. גלעד שליט בשבי כבר יותר משלוש שנים וזה מה שאתם מתעסקים איתו? בושה כרגיל ברק וצהל חכמים על יהודים".
הערכה: כנראה המדויק מכל החומסקיבוטים. ניתן לקרוא את התגובמולטור ולא צריך אפילו לדבר עם אנשים ברחוב. מהבחינה הטכנית מסביר היוצר, ארז וולף, מה קורה בפשטות: "התגובמולטור מבוסס על אלגוריתם חזק שיודע להרכיב מבנה זהה של תגובה: מישהו (משתנה A) עכירת ישראל (משתנה B) עושה משהו (משתנה C)"

על הגל הזה רוכב גם היערימט, מחולל משפטי אהוד יערי, שמספק פרשנויות לתפארת דוגמת "ללא ספק יאיר, נצרף גם את דברי סלאם פיאד: 'ראלבין פיל קיסקוס, אינתי עומרי עחוש' או בתרגום חופשי – אין הכבשה פוסעת, זה לעולם לא יהיה זאבת".
הערכה: חוזר על עצמו די מהר, ויש כמות גדולה מהרגיל של ג'יבריש שפשוט נשמע מצחיק, אבל עושה את העבודה. מהבחינה הטכנית זה אותו השטיק כמו בשני החומסקיבוטים הקודמים.

נמשיך הלאה למחולל חדשות הפועל פתח תקוה, כנראה החומסקיבוט האהוב עלי. העמוד הנהדר הזה, חלק מאתר אוהדים, מייצר חדשות אמינות למדי כמו: "שחקני הפועל פ"ת נדרשו לקצץ 70% משכרם. דני לוי כינס את שחקני הקבוצה באמצע הלילה ובישר להם כי שכרם יקוצץ באופן חד צדדי. "ניסינו להבין מה קרה", אמר שחקן בקבוצה, "אבל הוא קרא לנו חבורה של כפויי טובה והוסיף שאנחנו צריכים להגיד תודה שבכלל משלמים לנו"."
הערכה: מעולה. לא רק שהסיטואציות המובעות באתר מצחיקות גם עבור מי שאינם חובבי כדורגל, מחולל החדשות גם מאפשר לנו לחוש את התסכול העצום שהוא מנת חלקם של אוהדי הקבוצה שירדה מגדולתה. מהבחינה הטכנית מדובר במספר כתבות שמועלות בכל פעם, ובכל אחת יש כמה פרטים שמשתנים – מספיק בשביל לגרום לי ללחוץ על "עוד חדשות" שוב ושוב.

מפתח תקוה נעבור לעוד עיר שלא באמת קיימת עם העיר שחוברה לה יחדיו, מחולל השכונות הירושלמיות. עם כל רענון של האתר תקבלו שם של שכונה ירושלמית דמיונית המורכב משתי מילים: תל הזיתים. צמרת חיים. מעוז מנחם. מעלה שאננים. הר שמעון.
הערכה: האתר הזה עושה בדיוק דבר אחד והוא עושה אותו מצוין. מהבחינה הטכנית אין יותר מדי מה להגיד – היופי הוא בפשטות. זה מזכיר לי שידידתי מיכל הציעה לבנות מחולל שמות תחנות רכבת בחיפה ('חוף השמונה' וכן הלאה).

את החומסקיבוט המתוחכם ביותר שמרתי לסוף – מדובר בגיספנומטור המפורסם, שאף זכה לאיום בתביעה ממחבר הלהיטים המזרחיים יוסי גיספן שאותו הוא מחקה. שיר לדוגמה: "לא קלה. לחן: מסורתי.
כולם חושבים שאת מכשפה / ושאת לא מתחברת לצלילי המוסיקה /אבל אני אורח בליבך
אז תתני לי את החום שבליבך /ותראי לי שאת המלכה שלי
אמא אומרת שאת לא קלה / ושאת עושה לי בלאגנים מכל שטות / אבל ההוא שלמעלה / רק ההוא שלמעלה במרומים".
הערכה: אות ומופת לחומסקיבוטים באשר הם. לא ניתן לדעת מה המקור ומה החיקוי. מהבחינה הטכנית יש כאן יותר מכמה משפטים שמתחלפים ביניהם בצורה צפויה – באמת יפה.

ובונוס אחרון שמצאתי בסימניות, של מישהו שדווקא כן עובר מסך ועובר מיקרופון.

[ת' לליאור, הופ ואופיר]

Read Full Post »

חברתנו תמר נשאלה לגבי "כלי אוטומטי לחקירת שפה" והבלוג שמח להחזיר לה טובה ולבדוק את הנושא. מכרתה ר' ביקשה לדעת על מנוע שיכול לעבור על טקסט שהיא כתבה, להציע מילים שונות לאלה שהשתמשו בהן ואפילו לתת ניתוח פסיכולוגי על בסיס המילים שנכתבו. בגלל שלפני כמה חודשים נשאלתי שאלה דומה אסקור בקצרה את מה שעניתי אז, אוסיף כמה דברים שמצאתי בינתיים ואפנה את הבמה לקוראינו שיספרו בתגובות על מה שהם מכירים או השתמשו בו.

לפני שמתחילים כדאי אולי לומר את המובן מאליו, והוא שאין באמת תוכנית שיכולה לעשות את זה בצורה מושלמת משום שאין תוכנית שמסוגלת לחשוב ולהיות יצירתית, והשאלה אם אי פעם תהיה תוכנית כזו עודנה שאלה פתוחה (להבדיל משאלה סתומה). נקודה חשובה נוספת היא שרוב הכלים מפותחים עבור שפות משעממות כמו אנגלית, ובכלל לא בטוח שהם יוכלו לעבוד עם טקסטים בעברית (תודה לאורן על התזכורת הזו).

התחום הקרוב ביותר לעניין הזה בבלשנות חישובית נקרא sentiment analysis, ניתוח רגשות. כשחיפשתי כלים כאלה שנגישים לציבור הרחב – ואינם רק אבות-טיפוס של קבוצות מחקר שונות – מצאתי כמה שאת טיבם אינני מכיר. למשל, יש כלי לכריית מידע שנקרא RapidMiner של איזו חברה גרמנית וניתן להוריד אותו בחינם, אבל הוא עשוי להיות מסובך עבור חסרי רקע בתחום.
מוצר מבטיח נוסף הוא OpenAmplify, שגם בו לא השתמשתי.

סוציובלשנים רבים משתמשים בכלי פופולרי בשם Wordsmith Tools. הוא אמנם לא עושה SA אבל יש בו כלי קונקורדנציה יעיל ויכולת להפיק מילות מפתח. אפשר להוציא ממנו תובנות יפות, גם אם בסיסיות. למשל, מכרה שלי מצאה שבקורפוס עיתונות קנדית מסוים, המילה "דו-לשוניות" בצרפתית מופיעה יותר בהקשרים שליליים מאשר בהקשרים חיוביים, ובעיתונות באנגלית המגמה הפוכה.

כאן בארץ, משה קופל מבר-אילן עובד על דברים דומים וגם הוזכר בתגובות לפוסט הזה של טל (אחד משלושת הטובים שלו, לדעתי). אורן ואני מזכירים שם בתגובות את העבודה הנהדרת של ראדה מיכלצ'אה שעסקה בדיוק בניתוח פסיכולוגי לפי מילים בטקסט.

את הזווית הישראלית משלים הפוסט הזה של גנאדי למברסקי שסקר את חברות עיבוד השפה הפעילות בארץ.

זו סקירה חלקית, כמובן, הן מבחינת ההיקף (התוכנות שאני מכיר) והן מבחינת העומק (עד כמה אני מכיר אותן). קוראינו מוזמנים להשלים את החסר.

[ת' ליותם ולאורן]

Read Full Post »

כתבי השטח שלנו חורשים לאחרונה את הארץ לאורכה ולרוחבה, בעיקר לרוחבה, כדי ללמוד ממיטב כנסי הבלשנות שיש לקהילה הישראלית להציע.
יובל נכח לאחרונה בסמינר הבלשנות החישובית ISCOL וחלק עמנו מרשמיו הרבים ב טוויטר .
ומהיום ולמשך שאר השבוע אהיה אני באוניברסיטה העברית לכנס Roots ‎3 (או בשמו הרשמי: Approaches to the Lexicon‏) שמתמקד במורפולוגיה ובממשקיה עם התחביר. גם התרשמויותיי יצויצו; צריך רק ללחוץ כאן ולקרוא. אם אתם בסביבה אתם מוזמנים לבוא ולומר שלום. היום אקל עליכם את הזיהוי – אני לובש חולצה‎ ‎של קומיקס דינוזאורים .

ובינתיים, אחרי שנהניתי ממיטב פקקי ארצנו, הגעתי באיחור קל להרצאת הפתיחה של היידי הארלי מאונ' אריזונה, מבט מקיף ומאלף על השורש במובנו הבסיסי ביותר. יאללה בלגאן.

Posted by Wordmobi

Read Full Post »

החוג לבלשנות של אוניברסיטת תל-אביב (שם אני ממסטר לי להנאתי) פתח השנה סוויטת קורסים בנושאי בלשנות חישובית: בלשנות חישובית מתחילים + מתקדמים, קורס בשפות פורמליות (שניתן בעבר וחזר השנה) וסמינר. המרצים בקורסים הללו הם דר' רוני קציר ופרופ' פרד לנדמן.

התשע"ב הבאה עלינו לטובה מבשרת תוכנית לימודים חדשה בשם בלשנות חישובית, שמשלבת את הקורסים האלה עם מערך משופץ של המסלול הדו-חוגי הרגיל של בלשנות (פטור מחלק מהקורסים, הקדמת אחרים) ושילוב מערכת שעות מלא עם המסלול הדו-חוגי של מדעי המחשב. מומלץ למי שמתעניין בשפה ומחפש את הצד היישומי-מחשובי שלה.

לפרטים נוספים (מעבר להקישור לעיל), וגם למי שמתעניין בשאר התוכניות בהחוג (או בשאר החוגים בהאוניברסיטה, אבל זה שולי), אפשר להגיע להיום הפתוח בבניין גילמן ב-11/02/2011. כן כן, הפלינדרום שהוא יום השנה להקרנת הבכורה של "אסקימו לימון" בישראל.

[עדכון 19/1: הוד מתרגליותו עזר ראסין מוסר שהוא ישהה במהלך היום הפתוח בבניין שרייבר דווקא, ושם יוכל לתת מידע על המסלול]

Read Full Post »

עולם הבלשנות הבלוגיסטית כמרקחה: גוגל החליטו לעוף על פורמט גוגל-מגמות המוצלח, והביאו את אין-גראמים (NGrams). מי לא כתב על זה? בול העץ (ושוב), הכובע, דוד (תכתובת פרטית). וכאן מקלקליםתקציר מנהלים: חיפוש כל רצף של מילה עד חמש העולה על רוחכם, מתוך קורפוס של המוני המוני ספרים שיצאו במאתיים השנים האחרונות. אחד השימושים המעניינים הוא כמובן להשוות בין שינויי התדירות של מונחים שונים. גוגל כבר עשו את זה על סלבז, צנזורה ועוד.

אני, מרוצה ממעמדנו הרם כבלוג גיקי קליל וקריא, ביליתי לי כמה שעות בחברת הכלי החביב הזה (ועוד כמה שעות בחיפוש אחר קישור לכל מילה בפוסטחבר'ה, אתם חוזים בהיסטוריה). להלן ממצאי (הרחפת עכבר מעל התמונה תציג מקרא).

ראשית, מחווה ליהודה נוריאל:

ויהודה יהודה, גש הלום

וזה בצרפתית

ואם כבר צרפתית, אז זה בשביל החבר'ה ב"היפה והחנון":

סי וו פליי! כמו שאומר פיני

הלאה: מה קרה שם, במלחמת העולם השנייה? האם הבריטים הפסיקו להוציא ספרים?

אמרנו גיקיות בלשנית: חומסקי הוא טרנד חולף.

כאילו הם בחרו מקסימום של 5 מילים בשביל הדוגמה הזו

כמה אנשים מתחכמים יש שג'ף פולום מעוניין להרוג? האם ה"ציטוט" של צ'רצ'יל באמת לא היה בסביבה לפני שנות הארבעים? נראה שלא:

וכאן 5 מילים לא מספיקות, אז השתמשתי בשיטת השמיכה הקצרה

עכשיו ניתן למישהו חומר לדוקטורט:

קן של צרעות, מישהו?

מוזר, חשבתי שאת המספר גוגל כותבים googol. היתה למישהו סיבה לכתוב Google לפני 1998?

אולי טעות בזיהוי אותיות. או משו

וזה מוכוון-יישום. שימו לב כמה זה נקי, קצת מחשיד.

ולסיום, אכזבה לאור העובדה שעד לרגע סגירת הגליון לא ניתן היה לחפש בעברית, בניגוד לטענות של גוגל:

עברית זה כבר לא סקסי

(בון היבר לכולם, ושוב תודה לדוד)

Read Full Post »

Older Posts »