• ראשי
  • English
  • אודות
  • היכל התהילה
  • עוד בלשנות
  • צרו קשר

דגש קל

דגש יא גולש

Feeds:
פוסטים
תגובות
« באופן פשוט יותר תודה
נהפוך הוא »

אין על אין-גראם

21 בדצמבר 2010 על-ידי יובל פינטר

עולם הבלשנות הבלוגיסטית כמרקחה: גוגל החליטו לעוף על פורמט גוגל-מגמות המוצלח, והביאו את אין-גראמים (NGrams). מי לא כתב על זה? בול העץ (ושוב), הכובע, דוד (תכתובת פרטית). וכאן מקלקלים. תקציר מנהלים: חיפוש כל רצף של מילה עד חמש העולה על רוחכם, מתוך קורפוס של המוני המוני ספרים שיצאו במאתיים השנים האחרונות. אחד השימושים המעניינים הוא כמובן להשוות בין שינויי התדירות של מונחים שונים. גוגל כבר עשו את זה על סלבז, צנזורה ועוד.

אני, מרוצה ממעמדנו הרם כבלוג גיקי קליל וקריא, ביליתי לי כמה שעות בחברת הכלי החביב הזה (ועוד כמה שעות בחיפוש אחר קישור לכל מילה בפוסט – חבר'ה, אתם חוזים בהיסטוריה). להלן ממצאי (הרחפת עכבר מעל התמונה תציג מקרא).

ראשית, מחווה ליהודה נוריאל:

ויהודה יהודה, גש הלום

וזה בצרפתית

ואם כבר צרפתית, אז זה בשביל החבר'ה ב"היפה והחנון":

סי וו פליי! כמו שאומר פיני

הלאה: מה קרה שם, במלחמת העולם השנייה? האם הבריטים הפסיקו להוציא ספרים?

אמרנו גיקיות בלשנית: חומסקי הוא טרנד חולף.

כאילו הם בחרו מקסימום של 5 מילים בשביל הדוגמה הזו

כמה אנשים מתחכמים יש שג'ף פולום מעוניין להרוג? האם ה"ציטוט" של צ'רצ'יל באמת לא היה בסביבה לפני שנות הארבעים? נראה שלא:

וכאן 5 מילים לא מספיקות, אז השתמשתי בשיטת השמיכה הקצרה

עכשיו ניתן למישהו חומר לדוקטורט:

קן של צרעות, מישהו?

מוזר, חשבתי שאת המספר גוגל כותבים googol. היתה למישהו סיבה לכתוב Google לפני 1998?

אולי טעות בזיהוי אותיות. או משו

וזה מוכוון-יישום. שימו לב כמה זה נקי, קצת מחשיד.

ולסיום, אכזבה לאור העובדה שעד לרגע סגירת הגליון לא ניתן היה לחפש בעברית, בניגוד לטענות של גוגל:

עברית זה כבר לא סקסי

(בון היבר לכולם, ושוב תודה לדוד)

שיתוף קל:

  • דואר אלקטרוני
  • פייסבוק
  • טוויטר

אהבתי

אהבתי טוען...

קשור

פורסם באנגלית, בלשנות חישובית, לה צרפתית, לקסיקוגרפיה, מהנעשה בעירנו | 13 תגובות

13 תגובות

  1. ב- 21 בדצמבר 2010 בשעה 00:14 איתמרק

    מצאתי לינק בן יותר מחמש מילים.
    בכל מקרה, יופי יובל. גם לי יש צילום מסך בשבילך.


  2. ב- 21 בדצמבר 2010 בשעה 00:18 ערןב

    כל מיני תוצאות מוזרות (כמו Google לפני 2000. נסה גם לחפש Disco – תגלה פריחה בתחילת המאה ה-19) הן תוצר של בעיות בזיהוי הטקסט שיוצרות ארטיפקטים כאלו.


    • ב- 21 בדצמבר 2010 בשעה 21:01 דודי

      יש גם מופעים ל-internet מתחילת המאה ה-20.

      אפשר גם להיכנס ולראות את התוצאות לפי זמן. התוצאה הראשונה של internet בטווח 1900-1910 היא זיוף – טקסט שמתחזה לעיתון מהתקופה, וגוגל טעו בו:

      http://books.google.com/books?id=FkMuAAAAMAAJ&dq=%22internet%22&sitesec=reviews


  3. ב- 21 בדצמבר 2010 בשעה 00:47 ערןב

    ואגב, אפשר להקליק על הקישורים מתחת לגרף כדי לקבל חיפוש בגוגל בוקס ולראות איפה באמת נמצאו אותם דברים מוזרים, למשל Google-eyed במילון משנת 1862.


  4. ב- 21 בדצמבר 2010 בשעה 12:24 יעלת

    לגבי Google לפני האינטרנט – היתה סיבה מצוינת, והיא לא קשורה לשגיאות כתיב.
    http://en.wikipedia.org/wiki/Barney_Google_and_Snuffy_Smith
    הקומיקס 'בארני גוגל' התחיל ב-1919, ומתפרסם עד היום (אם כי הדמות הראשית, שבמקור היתה סתם כלומניק עירוני אבל עברה לכפר של הילביליז כשהומור-הילביליז התחיל להיות פופולרי, נשכחה די מזמן, וסנאפי סמית', או סמיף כפי ששמו נכתב לעתים קרובות, הפך להיות דמות מרכזית הרבה יותר). אני לא לגמרי בטוחה למה נבחר דווקא השם הזה, ואם זה היה שם משפחה קיים עוד לפני כן או שהוא סתם נראה להם מצחיק (ודומה ל-goggle – או goole-eyed כפי שמציין ערן), אבל הנה סיבה אחת טובה שהמלה הזו תופיע בספרים.


  5. ב- 21 בדצמבר 2010 בשעה 12:28 יעלת

    (אה – והסיבה שהבאתי כמובן לא מסבירה תוצאות מלפני 1919, אבל יפה לראות איך הגרף עולה מסביבות התקופה הזו.)


  6. ב- 21 בדצמבר 2010 בשעה 12:36 יובל פינטר

    אבל יעלת, אחד הקישורים כבר שולח לשם.
    מה, לא פתחת את כולם?


  7. ב- 21 בדצמבר 2010 בשעה 12:38 יעלת

    …לא.


  8. ב- 21 בדצמבר 2010 בשעה 14:01 נמי

    http://www.nekudotaim.co.il/?p=199


  9. ב- 21 בדצמבר 2010 בשעה 14:27 יובל פינטר

    אהההההההההההההההההההההההההההההההההההההההההה


  10. ב- 21 בדצמבר 2010 בשעה 21:06 איתמרק

    אל תיעצב, יובל, שלך הרבה יותר טוב משום שהוא לא היה מטרה בפני עצמו.
    יש גם כזה למיטיבי לכת.


  11. ב- 21 בדצמבר 2010 בשעה 21:23 דודי

    חיפשתי תימוכין לטענות של אורוול ב"פוליטיקה והשפה האנגלית", על עלייה בשכיחות של מילים מסוימות' שהוא לא אהב.

    http://www.mtholyoke.edu/acad/intrel/orwell46.htm

    לא מצאתי הרבה מילים מהרשימה השנואה עליו ששכיחותן עלתה בתקופה הרלוונטית. אחת שכן מצאתי היא deregionalize שצצה קצת לפני כתיבת המסה:
    http://ngrams.googlelabs.com/graph?content=deregionalize&year_start=1920&year_end=1990&corpus=0&smoothing=3

    הדוגמה הבאה מחזקת איכשהו טענה כללית יותר שלו (אם אני זוכר נכון) על נטייה גוברת להעדיף מילה ארוכה על צירוף של מילים קצרות.

    http://ngrams.googlelabs.com/graph?content=to+participate%2C+to+take+part+in&year_start=1800&year_end=2000&corpus=0&smoothing=3


  12. ב- 22 בדצמבר 2010 בשעה 10:46 יעל

    אני לא יודעת עד כמה זה עניין של מלה ארוכה אחת לעומת כמה קצרות, אבל זה עניין ידוע כבר מזה זמן רב שבאנגלית המלים שהן ממקור לטיני משויכות למשלב גבוה יותר מאלה שהן ממקור סקסוני (נדמה לי – אם כי אני מסייגת כי אני לא ממש מבינה בעניין ורק זוכרת בערך כמה דברים שקראתי פה ושם – שזה קשור לתקופה שבה בני המעמד הגבוה היו הנורמנים, שהביאו איתם את הצרפתית, בזמן שעם הארץ עדיין דיבר אנגלוסקסונית). כך למשל commence לעומת start, או masticate לעומת chew, וכו' וכו'. כמובן ש-participate לעומת take a part in זו רק דוגמא נוספת של אותו עקרון. נדמה לי שזה קורה גם כשהמלים הלטיניות הן קצרות, ולאו דווקא ארוכות, אבל אני לא מצליחה לחשוב על דוגמאות עכשיו.



התגובות סגורות.

  • בלוג קיבוצי על כל מיני דברים מעניינים שקשורים לבלשנות ולשפות. הציבור מוזמן לתרום מרשמיו והתרשמויותיו; קולגות שמעוניינים לכתוב אצלנו יתקבלו בברכה.
    @dageshkal
  • ידע כללי

    • אודות
    • English
    • עוד בלשנות
    • צרו קשר
    • היכל התהילה
  • הרשמה לעדכונים!

    לִחצו כאן על מנת לקבל הודעה על פוסטים חדשים בדוא"ל (מומלץ ביותר!) קבלו את הרשומות החדשות ביותר ללא צורך להיכנס לאתר כל הזמן. פוסטים חדשים באופן מוּלד!

    יש גם פיד עבור קוראי RSS (מומלץ עוד יותר!) אבל המונה מתעדכן לאט:
    להקליק עליי זה מגניב תרססו, מכפתלכם

    (חוצמזה יש גם פיד לתגובות)

  • רשומות אחרונות

    • קו האימות
    • נוער מדבר מגניב
    • שש שלוש שמונה, אלפיים עשרים
    • ארמזים מאולצים בימי קורונה
    • על ניתוח בלשני בפרשת האונס באיה נאפה
  • תגובות אחרונות

    דובי על נוער מדבר מגניב
    רן על נוער מדבר מגניב
    ישראל ישראלי על נוער מדבר מגניב
    היא על שש שלוש שמונה, אלפיים עשר…
    רוני הפנר על שש שלוש שמונה, אלפיים עשר…
  • מי בבולגים

    • בן לי
    • יובל פינטר
    • איתמרק
    • Tal Linzen
    • יאיר הנדלר
  • נושאים נבחרים בבלשנות בלוגיסטית

    • אטימולוגיה (10)
    • בילוי היום (39)
    • בלשנות השוואתית (17)
    • בלשנות חישובית (27)
    • דע את בלשנך (38)
      • בורודיצקי (6)
      • גיא דויטשר (7)
      • חומסקי (3)
      • יספרסן (2)
    • כתיב (20)
    • לינגוויפיקציה (10)
    • ללא נושא (21)
    • לקסיקוגרפיה (107)
    • מהנעשה בעירנו (106)
      • בחירות 2013 (8)
      • בחירות 2015 (3)
      • קורונה (2)
    • מוזיקה (23)
    • מורפולוגיה (72)
    • מנהלה (68)
      • מכתבים להעורך (27)
    • סוציולינגוויסטיקה (74)
    • סלנג (61)
    • סמנטיקה (124)
      • ביטויים גנריים (8)
      • עירוב ביטויים (6)
    • סנובון/snowclone (11)
    • ספר (24)
    • עצות לשוניות גרועות (15)
    • עצטרובל (3)
    • עריכה לשונית בחינם (38)
    • פונולוגיה (60)
    • פוסט אורח (24)
    • פיסוק (9)
    • פסיכולינגוויסטיקה (39)
      • ספיר-וורף (23)
    • פרגמטיקה (50)
    • צחוקים (48)
    • קטנונולוגיה (44)
    • ריקודים משונים (8)
    • רכישה (1)
    • שאילה (7)
    • שלילת יתר (11)
    • שפה בתקשורת (108)
    • שפות דבורות (400)
      • אינדונזית (2)
      • אנגלית (136)
      • אספרנטו (2)
      • בבלית (1)
      • גליציאנית (2)
      • גרמנית (27)
      • דנית (1)
      • הונגרית (1)
      • טורקית (1)
      • יוונית (4)
      • יידיש (10)
      • לה צרפתית (14)
      • לטינית (8)
      • סינית (8)
      • סיציליאנית (1)
      • ספרדית (15)
      • עברית (350)
      • ערבית (33)
      • צ'כית (3)
      • צ'חא (1)
      • קרואטית (1)
      • רוסית (14)
    • שפות סימנים (17)
      • אל-סייד (2)
      • דויטשע געבערדענשפראכע (1)
      • שפת הסימנים האמריקנית (6)
      • שפת הסימנים הישראלית (6)
    • תחביר (105)
      • זויגמה (3)
      • משאולים (5)
      • משפטי חולצה (12)
    • תחדישים (10)
    • תרגום (76)
  • גם הם כותבים על בלשנות

    • Arnold Zwicky
    • Balashon
    • Jabal al-Lughat
    • Language Log
    • languagehat
    • גבי דנון
    • השפה העברית
    • חיפושים כמשל
    • מאיר שטרית
    • מאיר שטרית 2
    • מדע בזיוני
    • עברית וחיות אחרות
    • עברית שפה קשה
  • גם הם מציירים על בלשנות

    • xkcd
    • קומיקס דינוזאורים
  • גנזך

    • יוני 2022 (1)
    • מאי 2022 (1)
    • נובמבר 2021 (1)
    • מאי 2021 (1)
    • ינואר 2020 (1)
    • נובמבר 2019 (1)
    • מאי 2019 (1)
    • אפריל 2019 (1)
    • פברואר 2019 (1)
    • דצמבר 2018 (1)
    • אוקטובר 2018 (2)
    • אוגוסט 2018 (1)
    • יולי 2018 (1)
    • מאי 2018 (1)
    • מרץ 2018 (1)
    • ינואר 2018 (1)
    • דצמבר 2017 (1)
    • אוקטובר 2017 (1)
    • ספטמבר 2017 (1)
    • יולי 2017 (2)
    • יוני 2017 (1)
    • מאי 2017 (1)
    • פברואר 2017 (1)
    • אוקטובר 2016 (1)
    • ספטמבר 2016 (1)
    • יוני 2016 (2)
    • דצמבר 2015 (1)
    • נובמבר 2015 (1)
    • אוקטובר 2015 (1)
    • ספטמבר 2015 (1)
    • אוגוסט 2015 (2)
    • יוני 2015 (2)
    • אפריל 2015 (1)
    • מרץ 2015 (1)
    • פברואר 2015 (1)
    • ינואר 2015 (4)
    • דצמבר 2014 (1)
    • נובמבר 2014 (1)
    • אוקטובר 2014 (1)
    • אוגוסט 2014 (1)
    • יולי 2014 (2)
    • יוני 2014 (1)
    • מאי 2014 (2)
    • אפריל 2014 (1)
    • פברואר 2014 (3)
    • דצמבר 2013 (2)
    • נובמבר 2013 (1)
    • ספטמבר 2013 (1)
    • אוגוסט 2013 (1)
    • יולי 2013 (1)
    • יוני 2013 (4)
    • מאי 2013 (3)
    • אפריל 2013 (6)
    • מרץ 2013 (3)
    • פברואר 2013 (6)
    • ינואר 2013 (10)
    • דצמבר 2012 (5)
    • נובמבר 2012 (7)
    • אוקטובר 2012 (5)
    • ספטמבר 2012 (3)
    • אוגוסט 2012 (5)
    • יולי 2012 (6)
    • יוני 2012 (2)
    • מאי 2012 (4)
    • אפריל 2012 (3)
    • מרץ 2012 (5)
    • פברואר 2012 (4)
    • ינואר 2012 (4)
    • דצמבר 2011 (7)
    • נובמבר 2011 (5)
    • אוקטובר 2011 (4)
    • ספטמבר 2011 (6)
    • אוגוסט 2011 (7)
    • יולי 2011 (8)
    • יוני 2011 (6)
    • מאי 2011 (6)
    • אפריל 2011 (8)
    • מרץ 2011 (8)
    • פברואר 2011 (6)
    • ינואר 2011 (7)
    • דצמבר 2010 (10)
    • נובמבר 2010 (10)
    • אוקטובר 2010 (9)
    • ספטמבר 2010 (8)
    • אוגוסט 2010 (12)
    • יולי 2010 (13)
    • יוני 2010 (14)
    • מאי 2010 (12)
    • אפריל 2010 (18)
    • מרץ 2010 (4)
    • פברואר 2010 (9)
    • ינואר 2010 (14)
    • דצמבר 2009 (20)
    • נובמבר 2009 (16)
    • אוקטובר 2009 (14)
    • ספטמבר 2009 (27)
    • אוגוסט 2009 (23)
    • יולי 2009 (17)
  • עכשיו ב-LINGUIST list

    • Jobs: Postdoctoral Co-funded Project, Nankai University: Instruction on Application of Postdoctoral Co-funded Proje… twitter.com/i/web/status/1… 12 hours ago
    • RT @linguistlist: Review: An Introduction to Conversation Analysis: SUMMARY Liddicoat’s 3rd edition expands on the previous 2007 and 2011 e… 2 days ago
    • Calls: Canadian Journal of Applied Linguistics / Revue canadienne de linguistique appliquée: Revue canadienne de li… twitter.com/i/web/status/1… 2 days ago
    • Calls: ESP Across Cultures: Proposals for papers would be most welcome for volume 20 (2023) of ESP Across Cultures… twitter.com/i/web/status/1… 2 days ago
    • Calls: Journal for the Psychology of Language Learning: The Journal for the Psychology of Language Learning (PLL) i… twitter.com/i/web/status/1… 2 days ago

בלוג בוורדפרס.קום.

WPThemes.


  • הרשמה רשום
    • דגש קל
    • הצטרפו אל 1,907 שכבר עוקבים אחריו
    • כבר יש לך חשבון ב-WordPress.com? זה הזמן להתחבר.
    • דגש קל
    • התאמה אישית
    • הרשמה רשום
    • הרשמה
    • להתחבר
    • העתקת קישור מקוצר
    • דווח על תוכן זה
    • View post in Reader
    • ניהול מינויים
    • צמצום סרגל זה
 

טוען תגובות...
 

    %d בלוגרים אהבו את זה: