• עמוד הבית
  • English
  • אודות
  • היכל התהילה
  • עוד בלשנות
  • צרו קשר

דגש קל

כתב על מקף מעריב – ובאו כל הערסים?

פידים:
רשומות
תגובות
« באופן פשוט יותר תודה
נהפוך הוא »

אין על אין-גראם

21 בדצמבר 2010 מאת יובל פינטר

עולם הבלשנות הבלוגיסטית כמרקחה: גוגל החליטו לעוף על פורמט גוגל-מגמות המוצלח, והביאו את אין-גראמים (NGrams). מי לא כתב על זה? בול העץ (ושוב), הכובע, דוד (תכתובת פרטית). וכאן מקלקלים. תקציר מנהלים: חיפוש כל רצף של מילה עד חמש העולה על רוחכם, מתוך קורפוס של המוני המוני ספרים שיצאו במאתיים השנים האחרונות. אחד השימושים המעניינים הוא כמובן להשוות בין שינויי התדירות של מונחים שונים. גוגל כבר עשו את זה על סלבז, צנזורה ועוד.

אני, מרוצה ממעמדנו הרם כבלוג גיקי קליל וקריא, ביליתי לי כמה שעות בחברת הכלי החביב הזה (ועוד כמה שעות בחיפוש אחר קישור לכל מילה בפוסט – חבר'ה, אתם חוזים בהיסטוריה). להלן ממצאי (הרחפת עכבר מעל התמונה תציג מקרא).

ראשית, מחווה ליהודה נוריאל:

ויהודה יהודה, גש הלום

וזה בצרפתית

ואם כבר צרפתית, אז זה בשביל החבר'ה ב"היפה והחנון":

סי וו פליי! כמו שאומר פיני

הלאה: מה קרה שם, במלחמת העולם השנייה? האם הבריטים הפסיקו להוציא ספרים?

אמרנו גיקיות בלשנית: חומסקי הוא טרנד חולף.

כאילו הם בחרו מקסימום של 5 מילים בשביל הדוגמה הזו

כמה אנשים מתחכמים יש שג'ף פולום מעוניין להרוג? האם ה"ציטוט" של צ'רצ'יל באמת לא היה בסביבה לפני שנות הארבעים? נראה שלא:

וכאן 5 מילים לא מספיקות, אז השתמשתי בשיטת השמיכה הקצרה

עכשיו ניתן למישהו חומר לדוקטורט:

קן של צרעות, מישהו?

מוזר, חשבתי שאת המספר גוגל כותבים googol. היתה למישהו סיבה לכתוב Google לפני 1998?

אולי טעות בזיהוי אותיות. או משו

וזה מוכוון-יישום. שימו לב כמה זה נקי, קצת מחשיד.

ולסיום, אכזבה לאור העובדה שעד לרגע סגירת הגליון לא ניתן היה לחפש בעברית, בניגוד לטענות של גוגל:

עברית זה כבר לא סקסי

(בון היבר לכולם, ושוב תודה לדוד)

שיתוף קל:

  • דוא"ל
  • פייסבוק
  • טוויטר

Like this:

אהבתי
היה הראשון שאוהב את הpost.

פורסם באנגלית, בלשנות חישובית, לה צרפתית, לקסיקוגרפיה, מהנעשה בעירנו | 13 תגובות

13 תגובות

  1. ב 21 בדצמבר 2010 בשעה 00:14 איתמרק

    מצאתי לינק בן יותר מחמש מילים.
    בכל מקרה, יופי יובל. גם לי יש צילום מסך בשבילך.


  2. ב 21 בדצמבר 2010 בשעה 00:18 ערןב

    כל מיני תוצאות מוזרות (כמו Google לפני 2000. נסה גם לחפש Disco – תגלה פריחה בתחילת המאה ה-19) הן תוצר של בעיות בזיהוי הטקסט שיוצרות ארטיפקטים כאלו.


    • ב 21 בדצמבר 2010 בשעה 21:01 דודי

      יש גם מופעים ל-internet מתחילת המאה ה-20.

      אפשר גם להיכנס ולראות את התוצאות לפי זמן. התוצאה הראשונה של internet בטווח 1900-1910 היא זיוף – טקסט שמתחזה לעיתון מהתקופה, וגוגל טעו בו:

      http://books.google.com/books?id=FkMuAAAAMAAJ&dq=%22internet%22&sitesec=reviews


  3. ב 21 בדצמבר 2010 בשעה 00:47 ערןב

    ואגב, אפשר להקליק על הקישורים מתחת לגרף כדי לקבל חיפוש בגוגל בוקס ולראות איפה באמת נמצאו אותם דברים מוזרים, למשל Google-eyed במילון משנת 1862.


  4. ב 21 בדצמבר 2010 בשעה 12:24 יעלת

    לגבי Google לפני האינטרנט – היתה סיבה מצוינת, והיא לא קשורה לשגיאות כתיב.
    http://en.wikipedia.org/wiki/Barney_Google_and_Snuffy_Smith
    הקומיקס 'בארני גוגל' התחיל ב-1919, ומתפרסם עד היום (אם כי הדמות הראשית, שבמקור היתה סתם כלומניק עירוני אבל עברה לכפר של הילביליז כשהומור-הילביליז התחיל להיות פופולרי, נשכחה די מזמן, וסנאפי סמית', או סמיף כפי ששמו נכתב לעתים קרובות, הפך להיות דמות מרכזית הרבה יותר). אני לא לגמרי בטוחה למה נבחר דווקא השם הזה, ואם זה היה שם משפחה קיים עוד לפני כן או שהוא סתם נראה להם מצחיק (ודומה ל-goggle – או goole-eyed כפי שמציין ערן), אבל הנה סיבה אחת טובה שהמלה הזו תופיע בספרים.


  5. ב 21 בדצמבר 2010 בשעה 12:28 יעלת

    (אה – והסיבה שהבאתי כמובן לא מסבירה תוצאות מלפני 1919, אבל יפה לראות איך הגרף עולה מסביבות התקופה הזו.)


  6. ב 21 בדצמבר 2010 בשעה 12:36 יובל פינטר

    אבל יעלת, אחד הקישורים כבר שולח לשם.
    מה, לא פתחת את כולם?


  7. ב 21 בדצמבר 2010 בשעה 12:38 יעלת

    …לא.


  8. ב 21 בדצמבר 2010 בשעה 14:01 נמי

    http://www.nekudotaim.co.il/?p=199


  9. ב 21 בדצמבר 2010 בשעה 14:27 יובל פינטר

    אהההההההההההההההההההההההההההההההההההההההההה


  10. ב 21 בדצמבר 2010 בשעה 21:06 איתמרק

    אל תיעצב, יובל, שלך הרבה יותר טוב משום שהוא לא היה מטרה בפני עצמו.
    יש גם כזה למיטיבי לכת.


  11. ב 21 בדצמבר 2010 בשעה 21:23 דודי

    חיפשתי תימוכין לטענות של אורוול ב"פוליטיקה והשפה האנגלית", על עלייה בשכיחות של מילים מסוימות' שהוא לא אהב.

    http://www.mtholyoke.edu/acad/intrel/orwell46.htm

    לא מצאתי הרבה מילים מהרשימה השנואה עליו ששכיחותן עלתה בתקופה הרלוונטית. אחת שכן מצאתי היא deregionalize שצצה קצת לפני כתיבת המסה:
    http://ngrams.googlelabs.com/graph?content=deregionalize&year_start=1920&year_end=1990&corpus=0&smoothing=3

    הדוגמה הבאה מחזקת איכשהו טענה כללית יותר שלו (אם אני זוכר נכון) על נטייה גוברת להעדיף מילה ארוכה על צירוף של מילים קצרות.

    http://ngrams.googlelabs.com/graph?content=to+participate%2C+to+take+part+in&year_start=1800&year_end=2000&corpus=0&smoothing=3


  12. ב 22 בדצמבר 2010 בשעה 10:46 יעל

    אני לא יודעת עד כמה זה עניין של מלה ארוכה אחת לעומת כמה קצרות, אבל זה עניין ידוע כבר מזה זמן רב שבאנגלית המלים שהן ממקור לטיני משויכות למשלב גבוה יותר מאלה שהן ממקור סקסוני (נדמה לי – אם כי אני מסייגת כי אני לא ממש מבינה בעניין ורק זוכרת בערך כמה דברים שקראתי פה ושם – שזה קשור לתקופה שבה בני המעמד הגבוה היו הנורמנים, שהביאו איתם את הצרפתית, בזמן שעם הארץ עדיין דיבר אנגלוסקסונית). כך למשל commence לעומת start, או masticate לעומת chew, וכו' וכו'. כמובן ש-participate לעומת take a part in זו רק דוגמא נוספת של אותו עקרון. נדמה לי שזה קורה גם כשהמלים הלטיניות הן קצרות, ולאו דווקא ארוכות, אבל אני לא מצליחה לחשוב על דוגמאות עכשיו.



סגור לתגובות.

  • בלוג קיבוצי על כל מיני דברים מעניינים שקשורים לבלשנות ולשפות. הציבור מוזמן לתרום מרשמיו והתרשמויותיו; קולגות שמעוניינים לכתוב אצלנו יתקבלו בברכה.
    @dageshkal
  • ידע כללי

    • אודות
    • English
    • עוד בלשנות
    • צרו קשר
    • היכל התהילה
  • הרשמה לעדכונים!

    לִחצו כאן על מנת לקבל הודעה על פוסטים חדשים בדוא"ל (מומלץ ביותר!) קבלו את הרשומות החדשות ביותר ללא צורך להיכנס לאתר כל הזמן. פוסטים חדשים באופן מוּלד!

    יש גם פיד עבור קוראי RSS (מומלץ עוד יותר!) אבל המונה מתעדכן לאט:
    להקליק עליי זה מגניב תרססו, מכפתלכם

    (חוצמזה יש גם פיד לתגובות)

  • רשומות אחרונות

    • טיורינג עדיין אשם בהומוסקסואליות
    • אתפוס רימון ביום שמש יפה
    • אני ידבר איתך – וכל הערסים יבואו
    • לחבק את משפחות הבוגרים
    • המספר אליו חייגת איננו מחויג
  • תגובות אחרונות

    ערימה משהו על אתפוס רימון ביום שמש יפה
    צפריר כהן על טיורינג עדיין אשם בהומוסק…
    אורן על טיורינג עדיין אשם בהומוסק…
    הדס על טיורינג עדיין אשם בהומוסק…
    Dhyan על טיורינג עדיין אשם בהומוסק…
  • מי בבולגים

    • איתמרק
    • בן לי
    • יובל פינטר
    • יאיר הנדלר
    • Tal Linzen
  • נושאים נבחרים בבלשנות בלוגיסטית

    • בילוי היום (26)
    • בלשנות השוואתית (15)
    • בלשנות חישובית (26)
    • דע את בלשנך (30)
      • בורודיצקי (6)
      • גיא דויטשר (7)
      • חומסקי (3)
      • יספרסן (2)
    • כתיב (5)
    • לינגוויפיקציה (8)
    • ללא נושא (22)
    • לקסיקוגרפיה (80)
    • מהנעשה בעירנו (72)
    • מוזיקה (17)
    • מורפולוגיה (44)
    • מנהלה (58)
      • מכתבים להעורך (24)
    • סוציולינגוויסטיקה (47)
    • סלנג (46)
    • סמנטיקה (72)
      • ביטויים גנריים (2)
    • סנובון/snowclone (9)
    • ספר (21)
    • עצות לשוניות גרועות (12)
    • עריכה לשונית בחינם (7)
    • פונולוגיה (40)
    • פוסט אורח (12)
    • פיסוק (4)
    • פסיכולינגוויסטיקה (36)
      • ספיר-וורף (21)
    • פרגמטיקה (35)
    • צחוקים (39)
    • קטנונולוגיה (30)
    • ריקודים משונים (6)
    • שפה בתקשורת (81)
    • שפות דבורות (273)
      • אינדונזית (1)
      • אנגלית (100)
      • אספרנטו (2)
      • בבלית (1)
      • גליציאנית (2)
      • גרמנית (26)
      • הונגרית (1)
      • טורקית (1)
      • יוונית (1)
      • יידיש (8)
      • לה צרפתית (11)
      • לטינית (6)
      • סינית (6)
      • ספרדית (12)
      • עברית (230)
      • ערבית (23)
      • צ'כית (3)
      • צ'חא (1)
      • קרואטית (1)
      • רוסית (11)
    • שפות סימנים (12)
      • אל-סייד (2)
      • דויטשע געבערדענשפראכע (1)
      • שפת הסימנים האמריקנית (4)
      • שפת הסימנים הישראלית (5)
    • תחביר (70)
      • משאולים (3)
      • משפטי חולצה (11)
    • תרגום (55)
  • גם הם כותבים על בלשנות

    • Arnold Zwicky
    • Balashon
    • Jabal al-Lughat
    • Language Log
    • languagehat
    • גבי דנון
    • השפה העברית
    • חיפושים כמשל
    • מאיר שטרית
    • מאיר שטרית 2
    • מדע בזיוני
    • עברית וחיות אחרות
    • עברית שפה קשה
  • גם הם מציירים על בלשנות

    • xkcd
    • קומיקס דינוזאורים
  • גנזך

    • פברואר 2012 (3)
    • ינואר 2012 (4)
    • דצמבר 2011 (7)
    • נובמבר 2011 (5)
    • אוקטובר 2011 (4)
    • ספטמבר 2011 (6)
    • אוגוסט 2011 (7)
    • יולי 2011 (8)
    • יוני 2011 (6)
    • מאי 2011 (6)
    • אפריל 2011 (8)
    • מרץ 2011 (8)
    • פברואר 2011 (6)
    • ינואר 2011 (7)
    • דצמבר 2010 (10)
    • נובמבר 2010 (10)
    • אוקטובר 2010 (9)
    • ספטמבר 2010 (8)
    • אוגוסט 2010 (12)
    • יולי 2010 (13)
    • יוני 2010 (15)
    • מאי 2010 (12)
    • אפריל 2010 (18)
    • מרץ 2010 (4)
    • פברואר 2010 (10)
    • ינואר 2010 (14)
    • דצמבר 2009 (20)
    • נובמבר 2009 (16)
    • אוקטובר 2009 (14)
    • ספטמבר 2009 (27)
    • אוגוסט 2009 (23)
    • יולי 2009 (17)
  • עכשיו ב-LINGUIST list

    • 23.923, Calls: General Linguistics/USA: http://t.co/7AVVmiw2 1 hour ago
    • 23.922, FYI: Endangered Language Fund: Language Legacies Grants: http://t.co/058MlSqA 1 hour ago
    • 23.921, Software: KwicKwic Document Analysis Tool: Free Full Version: http://t.co/E8YdxikD 3 hours ago
    • 23.920, Software: A Simple Syntax Tree Generator: http://t.co/FhQxDGB9 3 hours ago
    • 23.919, TOC: Proceedings of ConSOLE XVII (2012): http://t.co/ZYixlFBZ 3 hours ago

בלוג בוורדפרס.קום.

ערכת עיצוב: MistyLook של Sadish


Follow

Get every new post delivered to your Inbox.

הצטרפו אל 124 שכבר עוקבים אחריו

Powered by WordPress.com
loading לבטל
הרשומה לא נשלחה - נא לבדוק את כתובת האימייל!
Email check failed, please try again
Sorry, your blog cannot share posts by email.