מילים רבות כבר נשפכו אודות שירות סריקת וחיפוש הספרים השימושי של גוגל, Google Books. גם בבלוג זה עשינו בו שימוש לא פעם, אך לפני מספר ימים הפנה הקורא עמית את תשומת לבי לתופעה מעניינת. הביטו-נא, למשל, בשם הספר הבא:
שם הספר המקורי, כמובן, הוא "קנאת דוד – חיי דוד בן גוריון", ולסופר קוראים שבתי טבת. אך חלקים גדולים מהקטלוג של גוגל יובאו מקטלוגים של אוניברסיטאות דוברות אנגלית, שם, סביר להניח, השם בעברית תועתק לאנגלית באופן מסויים. לאלגוריתם של גוגל שמטפל בנתוני המסגרת של ספרים, מתברר, נוסף רכיב שמתעתק את שמות הספרים וסופרים בחזרה לעברית. באופן ברור, האלגוריתם הזה עדיין זקוק ללא מעט אימון בשביל לתפקד בצורה אמינה, ועל כך יעידו גם הסופרים תהודור הרזל, ש"י אגנון, אברהם ב. יהושוא ואסתהר סתרית-וורזל (קהל המגיבים מוזמן למצוא שיבושים מוצלחים במיוחד ולשתף אותנו בתגובות).
בעיות באלגוריתם שמנתח את נתוני המסגרת בגוגל ספרים אינן חדשות, וקיימות גם באנגלית. לאור ההסדרים שאליהם גוגל מנסה להגיע עם הוצאות הספרים, בנוגע לסריקת והצגת הספרים, נודעת חשיבות רבה למיון נכון של נתוני המסגרת שלהם, וזאת בהנחה הסבירה שאף אחד לא יסרוק בעתיד מחדש את כל הספרים וימיינם. בספינת האם Language Log עסקו בנושא רבות: הבלשן ג'פרי נונברג ערך רשימה מפורטת של תקלות בנושאים שונים: תארוך לא נכון (ספרים ששנת הפרסום שלהם היתה לפני שנת הלידה של המחבר), קטלוּג נושאי שגוי, ואף טעויות בשמות הספרים (הנה מצגת קצרה שמסכמת את הטענות). מהנדסי גוגל, יש לומר, היו קשובים לטענות. האם יש בכוחנו לגרום להם לטפל גם באלגוריתם התעתוק לעברית? ובכן, אינני יכול לחשוב על אפשרות פעולה משמעותית יותר מאשר קריאה נרגשת בבלוג "דגש קל".

