הנושאים בדף זה:

כללי

ניתן לחלק את מנועי החיפוש לשני סוגים עיקריים: אינדקסים ומדריכים, על פי עקרונות ומנגנוני הכנסת האתרים השונים למנוע כפי שיפורט להלן. בשל הבדלים בסיסיים אלו, מס' האתרים במפתח של מדריך קטן בהרבה ממס' האתרים באינדקסים, וגם קצב העדכון שלהם קטן יותר.

ההבדל מתחיל להצטמצם בשנים האחרונות, לאחר שאינדקסים הכניסו קטגוריות חיפוש שונות, כולל מדריכים, המקלות את החיפוש.

אינדקסים

המנוע מפעיל תוכנת רובוט (Robot), הסורק אתרים ברשת באופן שיטתי תוך מעבר מאתר לאתר על פי הקישורים המופיעים באתר. כאשר הרובוט מגלה אתר חדש, הוא בודק אם הוא מורשה למפתח את האתר (ראה כיצד לא להגיע אל מנועי החיפוש), ואם כן, הוא מעתיק את כל תוכן האתר, או חלקו, אל השרת של המנוע, והמנוע ממפתח את המידע שנאסף. כל המילים בתוכן האתר נשמרות במסד הנתונים של המנוע. מלבד תוכן האתר, נשמרים במסד הנתונים גם נתונים נוספים כגון תאריך "הורדת" האתר, תאריך עדכון אחרון של האתר, תמצית אוטומטית קצרה, כותרת האתר ועוד. בגלל שאתרי אינטרנט הם דינמיים, כלומר, מתעדכנים מזמן לזמן, רובוטים גם מעדכנים את האתרים שכבר מופתחו בעבר. קישורים הנמצאים באתר מוכנסים למבנה נתונים דמוי תור (Queue) ומשם גם נלקחים האתרים הבאים ל"ביקור".

באופן תיאורטי, רובוט יכול להתחיל ממען מסוים ולמפתח את האתר, אח"כ לעבור לאתרים המקושרים ישירות לאתר זה וכך הלאה והלאה ולבסוף למפתח את כל המידע באינטרנט. אולם, המציאות שונה. ישנם אתרים שלא מקושרים לאף אתר, כך שהרובוט לא יכול להגיע אליהם, ישנם "מסלולי" אתרים שהרובוטים מתקשים למצוא וגם כוח המחשוב וגודל מסד הנתונים הנדרש למפתוח כל הרשת עצומים.

בשלב הבא, המנוע מקבל שאילתות ומחפש אותן באינדקס (Index) שבנה. האתרים שנמצאו מתאימים למחרוזת החיפוש מסודרים באמצעות מנגנון מיוחד לפי מידת שייכותם לנושא, וכך מתקבלת רשימת התוצאות (ראה - דירוג תוצאות חיפוש).

ישנם שני סוגים של רובוטים (אספנים): אספנים מקומיים וכלליים. חלק מהאספנים תוכננו כך שהם לא "יתעו" הרחק מנקודת הפתיחה שלהם. ניתן למצוא אספנים כאלו באתרים מסחריים, המאפשרים לחפש מידע במסגרת האתר. האספן מתעלם מקישורים לאתרים החורגים מגבולות האתר. בד"כ אספנים כאלו הם שירות לגולשים, המאפשר למצוא במהירות מידע על מוצר מסוים, למצוא תשובות לשאלות - במסגרת האתר. אספנים כלליים "משוטטים" ברחבי האינטרנט ומנסים למצוא מידע רב ככל שניתן כדי להוסיפו למסד הנתונים שלהם. מנועים אלו משתמשים בכוח מחשובי עצום (באופן ממוצע כ-4GB זיכרון פנימי) ובנפח אחסון תואם (כ-1000GB). משאבי מחקר ופיתוח עצומים הושקעו בהם כדי לשפר את מהירות המנגנון.

צורת הפעולה של כל האינדקסים דומה, אבל לכל אחד מהם ייחוד משלו. הייחודיות היא קודם כל באתרים שהאספן סורק: חלקם סורקים רק שרתי WWW, וחלקם גם שרתי FTP או קבוצות דיון. יש אספנים הסורקים כל אתר, ויש הסורקים רק אתרים בעלי מס' כניסות רב וקצב עדכון גבוה. ייחודיות המנוע היא גם גודל המאגר שלו. כן יש הבדלים במידע שהמנוע שומר בשרת שלו: יש מנועים השומרים את כל תוכן האתר, ויש השומרים רק את תחילתו (מתוך הנחה שתחילת האתר מעידה על נושאו) או את האתר עד "עומק" מסוים. יש אספנים המטפלים גם בתמונות שיש באתר, בקבצי קול ומולטימדיה ובקישורים. דברים נוספים המבדילים בין המנועים הם מנגנון החיפוש וברירות החיפוש השונות, שיטת דירוג תוצאות החיפוש וחישוב רלוונטיות האתרים.

מהירות החיפוש במאגר המידע של האספן נקבעת עפ"י גודל המאגר ועפ"י חוזק מנגנון החיפוש שלו.

האינדקסים הם כלים אוטומטיים, עם מעט מאוד "מגע" אנושי. המילים בתוכן האתר נשמרות במסד הנתונים וניתנים לאחזור, אך אין סיווג אנושי של האתרים ותמצית אנושית שלהם.

מדריכים

מדריך הוא מפתח אתרים, המסודרים לפי נושאים במבנה עץ מדרגי, כל נושא מחולק לתת-נושאים וכן הלאה. רוב המדריכים הם כלליים ומקיפים את כל הנושאים העיקריים באינטרנט, אך ישנם מדריכים המתמקדים בתחום מסוים (ראה מנועי חיפוש מיוחדים). הנושאים הראשיים ומספרם אינו קבוע, אולם ברוב המדריכים ניתן למצוא את הנושאים הבאים:

  1. אמנות ומדעי הרוח - Arts and Humanities.
  2. מסחר וכלכלה - Business, Economy.
  3. מחשבים, אתרי אינטרנט - Computer, Internet.
  4. חינוך, אוניברסיטאות, בתי ספר - Education.
  5. בידור: סרטים, טלוויזיה, מוזיקה וכו' - Entertainment.
  6. אתרי ממשלה, מוסדות ממשלה, פוליטיקה - Government.
  7. רפואה, בריאות - Health.
  8. פנאי ותחביבים, ספורט - Recreation.
  9. מדינות בעולם - Regional.
  10. מדעים מדויקים - Exact Science.
  11. מדעי החברה - Social Science.
  12. תרבויות ודתות - Culture, Religions.
  13. מס' טלפון, כתובות דואר אלקטרוני, ספריות, מילונים - Reference.
  14. עיתונים וכתבי עת, חדשות - News.

מס' הנושאים הראשיים הוא "רוחב העץ" של המדריך. מס' הרמות של תת-נושאים הוא "עומק העץ". עומק העץ, רוחב העץ ומס' האתרים המקוטלגים הם אמות מידה להשוואה בין מדריכים. יש מדריכים הבודקים ומעריכים כל אתר חדש לפני הכנסתו. אם האתר מוכנס למדריך הוא מקוטלג לפי בדיקה זאת, ולעיתים גם ניתן לו ציון- ע"י בני אדם. אלה מדריכים "מסוננים" שאינם מכניסים אליהם כל אתר. דבר זה מעלה את האיכות הכוללת של תוכן האתרים. מובן שמס' האתרים במדריך מסונן לרוב קטן יותר ממס' האתרים במדריך לא מסונן.

הבעיות העיקריות של מדריכים, הם שסיווג האתר ושיוכו במבנה מדרגי שונים מאדם לאדם. כך למשל "חידוש רהיטים" יכול להיות מתחת ל"תחביבים", מתחת ל"תיקונים ביתיים", מתחת ל"עתיקות" וכו'. בעיה נוספת היא תכולה מצומצמת יחסית של אתרים מבחינת כושר הקיבול שלהם.

מנועי חיפוש-על

אלו "מנועים טפילים", בד"כ אינדקסים, שין להם מאגר נתונים משלהם, אלא הם שותלים את מחרוזת החיפוש במנועים אחרים (במס' מנועים במקביל או בחלקם לפי בחירת המשתמש) ומקבלים מהם את הקישורים המתאימים למחרוזת החיפוש. מנוע העל מצרף את כל דפי התוצאות שקיבל לדף תוצאות אחד, שבו מידת ההתאמה של כל קישור היא שקלול מידת ההתאמה שלו במנועים השונים.

יתרונות מנועי-על הם טווח רחב יותר של תשובות ומנשק משתמש אחיד עבור השאילתות במנועים השונים.

חסרונות מנועי-על הם בראש ובראשונה גידול במס' התוצאות הלא רלוונטיות. החזרת הרבה דפים עם רלוונטיות נמוכה ממנוע מסוים תגרור קושי למציאת דפים רלוונטים ברשימה הכוללת. חיסרון נוסף של מנועי-על הוא שמס' אפשרויות החיפוש המיוחדות שבהם הם תומכים קטן מבמנועים רגילים (בד"כ המכנה המשותף לכלל המנועים) ויכולת מיקוד השאילתא נמוכה יותר.

השוואה כללית בין מדריכים לאינדקסים

סוג

תכונות

דוגמאות

אינדקסים ומנועי-על

* חיפוש בתמליל מלא

* חיפוש ע"י מילות מפתח, בניסיון להגיע בדיוק למילות המפתח בדפים

* מאגרי המידע נבנים ע"י רובוטים

* גודל - מחפשים ביותר מ-90% מהאתרים הממוינים

* מנועי-על מחפשים בו זמנית במס' מנועי חיפוש ומחזירים את התוצאות בפורמט נוח למחפש

אינדקסים:

Google, Alta Vista, Go, Excite, HotBot

מנועי-על:

MetaCralwer, DogPile

מדריכים

* האתרים במדריכים נבחרים אישית ע"י העורכים

* האתרים ממוינים מדרגית

* ניתן לבצע חיפוש ע"י מושגים רחבים

Yahoo, Galaxy

התפתחות מנועי החיפוש

בנוסף על החלוקה לאינדקסים ולמדריכים, ניתן לסווג את מנועי החיפוש השונים לפי דורות, כאשר לכל דור יש מאפיינים ברורים. להלן סיווג אחד אפשרי:

דור ראשון

מנועי הדור הראשון מכונים "מנועי חיפוש בסיסיים". מנועים אלו שומרים נתונים בסיסיים על האתרים שאותם הם "מכילים". על נתונים אלו ניתן לבצע שאילתות. בקטגוריה זו נכללים הן אינדקסים והן מדריכים בסיסיים, כאשר גם האינדקסים וגם המדריכים מתחלקים לכלליים ולמיוחדים.

דור שני

מנועי הדור השני מכונים "מנועי-על" או "מולטי/מגה מנועים". מנועים אלו שמים את הדגש על שיטות קלות יותר לחיפוש משאבים ברשת, על סינון התוצאות המצטברות ועל שיטות דירוג טובות יותר. מנוע זה משתמש במס' מנועי חיפוש בסיסיים כדי לקבל את התוצאות הראשוניות. התוצאות עוברות סינון ודירוג ומוצגות למשתמש בפורמט אחיד.

דור שלישי

מנועי הדור השלישי מכונים "מנועי פופולריות". מנועים אלו שמים את הדגש על תמיכה הן באינדקסים והן במדריכים, שירותים מתקדמים ומגוונים, איכות גבוהה יותר, שיטות דירוג טובות יותר וחיפוש מהיר יותר. מנועים אלו משתמשים בטכניקות שמארגנות את תוצאות החיפוש ע"פ שיקולי פופולריות של סוג, גודל, תחום וקישורים. זה בניגוד לשיטה הישנה של הדירוג שהתבססה על רלוונטיות מינוח (Term Relevancy).



לראש הדף