במחשבה שניה אני מוצא לנכון לחזור בי מהטענה שכתבתי בתגובה הקודמת, ועל פיה "אינני יודע האם ואיך האלגוריתמים של גוגל יכולים להגיע באופן אוטומטי לשיפוט האנושי שאני ביצעתי".
הנימוק הוא שמזה זמן רב מקדמי האתרים שאלו את עצמם מה הוא תוכן טקסט שהוא רלוונטי לתוכן הטקסט של דף באתר אחר, כדי שלקישור היוצא מהדף הראשון יהיה ערך נוסף בהשוואה לקישור שיוצא מדף שתוכן הטקסט שלו איננו רלוונטי. הפתרון שאומץ על ידי מרבית מקדמי האתרים, כמעט ללא יוצא מן הכלל, הוא שתוכן הטקסט יהיה "מאותו התחום".
על פי ההצעה המגוחכת הזו דף שעוסק בספא רלוונטי לדף שעוסק במדרסים, ולהפך, כי שניהם "בתחום" הבריאות. אבל לא ככה שפטה המערכת האוטומטית של גוגל, עוד לפני 12 שנים, האם קיימת רלוונטיות הדדית, או אפילו חד-כיוונית או עצמית: היא ביצעה את מה שנקרא Cluster Analysis, וההסבר הפשטני, מה לעשות, של המונח הזה הוא חישוב ההסתברות ששני ביטויי החיפוש המאפיינים את שני הדפים לצורך הערכת הרלוונטיות ביניהם מופיעים יחד בטקסט טבעי שאיננו מתוך דף שנכתב לאינטרנט (כי בדף אינטרנט הם עלולים להופיע יחד באופן מלאכותי לצורך "בניית" קישורים, או כמו ב"דפי הערים" שבאתר שלך). אם הסתברות הופעת יחד אפסית או נמוכה ביותר אין רלוונטיות.
מה שהמערכת האוטומטית של גוגל צריכה לבדוק, אם כן, בניתוח מידת ה"טבעיות העצמית" של טקסט "דפי הערים" שלך הוא האם הביטוי [ניקוי שטיחים בהרצליה] למשל (שהוא ביטוי מרכזי בשל הופעתו ב-Title) מרבה להופיע יחד עם שאר הביטויים שבאותו הטקסט בטקסטים שמחוץ לאינטרנט. אבל מסתבר שהביטוי החלקי [ניקוי שטיחים] הוא טבעי, בעוד שהביטוי המלא [ניקוי שטיחים בהרצליה] איננו טבעי, ולכן אפשר שהדף כולו מקוטלג כדף ב"חוות תוכן" שכמותן נענשות מזה 3 שנים (שינוי האלגוריתם "פנדה"), ואולי גם מונעות אינדוקס.