עולם הבלשנות הבלוגיסטית כמרקחה: גוגל החליטו לעוף על פורמט גוגל-מגמות המוצלח, והביאו את אין-גראמים (NGrams). מי לא כתב על זה? בול העץ (ושוב), הכובע, דוד (תכתובת פרטית). וכאן מקלקלים. תקציר מנהלים: חיפוש כל רצף של מילה עד חמש העולה על רוחכם, מתוך קורפוס של המוני המוני ספרים שיצאו במאתיים השנים האחרונות. אחד השימושים המעניינים הוא כמובן להשוות בין שינויי התדירות של מונחים שונים. גוגל כבר עשו את זה על סלבז, צנזורה ועוד.
אני, מרוצה ממעמדנו הרם כבלוג גיקי קליל וקריא, ביליתי לי כמה שעות בחברת הכלי החביב הזה (ועוד כמה שעות בחיפוש אחר קישור לכל מילה בפוסט – חבר'ה, אתם חוזים בהיסטוריה). להלן ממצאי (הרחפת עכבר מעל התמונה תציג מקרא).
ואם כבר צרפתית, אז זה בשביל החבר'ה ב"היפה והחנון":
הלאה: מה קרה שם, במלחמת העולם השנייה? האם הבריטים הפסיקו להוציא ספרים?
אמרנו גיקיות בלשנית: חומסקי הוא טרנד חולף.
כמה אנשים מתחכמים יש שג'ף פולום מעוניין להרוג? האם ה"ציטוט" של צ'רצ'יל באמת לא היה בסביבה לפני שנות הארבעים? נראה שלא:
עכשיו ניתן למישהו חומר לדוקטורט:
מוזר, חשבתי שאת המספר גוגל כותבים googol. היתה למישהו סיבה לכתוב Google לפני 1998?
ולסיום, אכזבה לאור העובדה שעד לרגע סגירת הגליון לא ניתן היה לחפש בעברית, בניגוד לטענות של גוגל:
מצאתי לינק בן יותר מחמש מילים.
בכל מקרה, יופי יובל. גם לי יש צילום מסך בשבילך.
כל מיני תוצאות מוזרות (כמו Google לפני 2000. נסה גם לחפש Disco – תגלה פריחה בתחילת המאה ה-19) הן תוצר של בעיות בזיהוי הטקסט שיוצרות ארטיפקטים כאלו.
יש גם מופעים ל-internet מתחילת המאה ה-20.
אפשר גם להיכנס ולראות את התוצאות לפי זמן. התוצאה הראשונה של internet בטווח 1900-1910 היא זיוף – טקסט שמתחזה לעיתון מהתקופה, וגוגל טעו בו:
http://books.google.com/books?id=FkMuAAAAMAAJ&dq=%22internet%22&sitesec=reviews
ואגב, אפשר להקליק על הקישורים מתחת לגרף כדי לקבל חיפוש בגוגל בוקס ולראות איפה באמת נמצאו אותם דברים מוזרים, למשל Google-eyed במילון משנת 1862.
לגבי Google לפני האינטרנט – היתה סיבה מצוינת, והיא לא קשורה לשגיאות כתיב.
http://en.wikipedia.org/wiki/Barney_Google_and_Snuffy_Smith
הקומיקס 'בארני גוגל' התחיל ב-1919, ומתפרסם עד היום (אם כי הדמות הראשית, שבמקור היתה סתם כלומניק עירוני אבל עברה לכפר של הילביליז כשהומור-הילביליז התחיל להיות פופולרי, נשכחה די מזמן, וסנאפי סמית', או סמיף כפי ששמו נכתב לעתים קרובות, הפך להיות דמות מרכזית הרבה יותר). אני לא לגמרי בטוחה למה נבחר דווקא השם הזה, ואם זה היה שם משפחה קיים עוד לפני כן או שהוא סתם נראה להם מצחיק (ודומה ל-goggle – או goole-eyed כפי שמציין ערן), אבל הנה סיבה אחת טובה שהמלה הזו תופיע בספרים.
(אה – והסיבה שהבאתי כמובן לא מסבירה תוצאות מלפני 1919, אבל יפה לראות איך הגרף עולה מסביבות התקופה הזו.)
אבל יעלת, אחד הקישורים כבר שולח לשם.
מה, לא פתחת את כולם?
…לא.
http://www.nekudotaim.co.il/?p=199
אהההההההההההההההההההההההההההההההההההההההההה
אל תיעצב, יובל, שלך הרבה יותר טוב משום שהוא לא היה מטרה בפני עצמו.
יש גם כזה למיטיבי לכת.
חיפשתי תימוכין לטענות של אורוול ב"פוליטיקה והשפה האנגלית", על עלייה בשכיחות של מילים מסוימות' שהוא לא אהב.
http://www.mtholyoke.edu/acad/intrel/orwell46.htm
לא מצאתי הרבה מילים מהרשימה השנואה עליו ששכיחותן עלתה בתקופה הרלוונטית. אחת שכן מצאתי היא deregionalize שצצה קצת לפני כתיבת המסה:
http://ngrams.googlelabs.com/graph?content=deregionalize&year_start=1920&year_end=1990&corpus=0&smoothing=3
הדוגמה הבאה מחזקת איכשהו טענה כללית יותר שלו (אם אני זוכר נכון) על נטייה גוברת להעדיף מילה ארוכה על צירוף של מילים קצרות.
http://ngrams.googlelabs.com/graph?content=to+participate%2C+to+take+part+in&year_start=1800&year_end=2000&corpus=0&smoothing=3
אני לא יודעת עד כמה זה עניין של מלה ארוכה אחת לעומת כמה קצרות, אבל זה עניין ידוע כבר מזה זמן רב שבאנגלית המלים שהן ממקור לטיני משויכות למשלב גבוה יותר מאלה שהן ממקור סקסוני (נדמה לי – אם כי אני מסייגת כי אני לא ממש מבינה בעניין ורק זוכרת בערך כמה דברים שקראתי פה ושם – שזה קשור לתקופה שבה בני המעמד הגבוה היו הנורמנים, שהביאו איתם את הצרפתית, בזמן שעם הארץ עדיין דיבר אנגלוסקסונית). כך למשל commence לעומת start, או masticate לעומת chew, וכו' וכו'. כמובן ש-participate לעומת take a part in זו רק דוגמא נוספת של אותו עקרון. נדמה לי שזה קורה גם כשהמלים הלטיניות הן קצרות, ולאו דווקא ארוכות, אבל אני לא מצליחה לחשוב על דוגמאות עכשיו.