חיפוש תוכן (בקבוצות דיון)

חיפוש טקסטואלי בקבוצות דיון - Google Groups
     אופן השימוש
חיפוש ויזואלי בקבוצות דיון- Websom
     אופן השימוש
דוגמא והתנסות
השוואה של דפי התוצאות
יתרונות וחסרונות השימוש ב- Websom

קיימות עשרות אלפי קבוצות דיון רשומות כמעט בכל תחום ונושא אפשריים המאוגדות תחת גוף ה- Usenet, חלקן מנוהלות על ידי אנשי מקצוע או מומחים (moderators) המסננים את התוכן, כך שקהילות מסוימות הופכות למקור ידע אמין וישיר למחפש המידע.

 חיפוש טקסטואלי בקבוצות דיון - Google Groups

ב"גוגל" נמצא המאגר הגדול בעולם של מאמרים (articles) מקבוצות דיון - 845 מיליון מסרים הכוללים בתוכם את מאגר המאמרים של "Deja" לשעבר.

  חלון החיפוש הראשי

Google groups main search window 

  אופן השימוש

הקלדה של מילה בתיבת השאילתא או דרך כניסה לחיפוש מתקדם.
כל הקבוצות ממוינות לתחומים שונים (חברה, חדשות, אומנות...) וניתן לזהותן לפי הסיומות שלהן.
ניתן להתחיל חיפוש בתוך קבוצה מסוימת בלבד.

 חיפוש ויזואלי בקבוצות דיון- Websom

שיטה למיפוי ואיתור מסמכי טקסט - "text mining". השיטה ממפה טקסטים מגוונים ורבים למפות בעלות משמעות המאורגנת כך שמסמכים דומים נמצאים באותו אזור וקרובים אחד לשני. מיקום הטקסט והמרחק שלו מטקסטים אחרים מצביע על הקשרים בין התכנים, וצבעים מעידים על כמות הטקסטים בכל יחידה.
הטכנולוגיה מבוססת על אלגוריתם SOM - Self-Organizing Map ומסתמכת על התפלגות סטטיסטית של המילים במסמך. היא נעשית באופן אוטומטי כך שניתן ליישם אותה על כל שפה באופן מיידי ועל מסות של מסמכים. הוצגה לראשונה ב- 1996 על מאגר קבוצות דיון אך כיום עברה פיתוחים והיא כבר בשימוש מסחרי במאגרים של עיתונות, ספריות ועוד (ראו חברת gurusoft הממוקמת בפינלנד, בה פותחה השיטה). קובץ המסמכים הגדול ביותר שמופה בשיטה זו על מפה אחת הוא מאגר של 7 מיליון תקצירי פטנטים (בגלל זכויות יוצרים גרסת הדמו אינה נגישה לקהל הרחב).


  חלון חיפוש ראשי

Websom main search window

    אופן השימוש

1. מביטים במפת המאמרים הרלוונטית ומזהים את התוויות שעליה (בגרסה מלאה קיימת תיבת חיפוש*) - תוויות המילים מייצגות את מילות הליבה של התחום ונותנות מידע כללי על תוכן המסמכים. מזהים את דחיסות הצבע - ככל שאזור הצבע בהיר יותר הוא מסמל כמות גדולה יותר של מאמרים בנושא.
2. מקליקים על האזור המבוקש במפה ומקבלים את החלק הממוקד בהגדלה.
3. לחיצה על נקודה לבנה - מאפשר לראות את רשימת המאמרים ביחידה הספציפית.
4. החצים מאפשרים לעבור בקלות ליחידות סמוכות, המקיימות ביניהן גם יחסים של סמיכות תכנית.
5. קריאת המאמר הסופי נעשית בלחיצה על כותרת.
*טכנולוגיות Websom מסחרית ואינה נמצאת בשימוש חופשי, לפיכך קיימות מגבלות באופן הלימוד של השיטה. בדוגמא שלפנינו מדובר במאגר מסמכים קטן יחסית והמילים שבמפה הוצגו באתר הדמו ברשימה. בפועל קיימת תיבת חיפוש המאפשרת לאתר מילה או ביטוי בקלות. ניתן לראות דמו של חיפוש כזה במאגר עיתונים בשפה הפינית (הממשק באנגלית).


 דוגמא והתנסות

עירכו חיפוש של מלה בקבוצת sci.cognitive* במפה הויזואלית של Websom

*גירסת הדגמה של 5633 מאמרים מיוני 95' עד מרץ 97'

לדוגמא: בחירה בדוגמת המיפוי של sci.cognitive - voice.

Websom map - sci.cognitive


התמקדות (zoom) על ידי הקלקה באזור המילה:
המילה voice נמצאת באזור בהיר יחסית וסביבה נקודות לבנות שכל אחת מהן מהווה יחידת מאמרים. על יד המילה יחידות מאמרים קרובים מבחינת הקשר (קונטקסט).

Websom zoom on voice

הקלקה על היחידה המבוקשת ובחינת המאמרים.
בשלב זה עדיין ניתן להשתמש בחצים לצורך ניווט וחיפוש מאמרים סמוכים.

Websom list of articles


בחירה במאמר מבוקש וקריאת הטקסט המלא:

Websom - articles full text

נבחר באותן קבוצות דיון ואותה מילה במאגר הטקסטואלי של Google:


לדוגמא: ניכנס למאגר- Google Groups - לקטגוריה של קבוצות מדע (סיומת sci).
נבחר בקטגוריית משנה sci.cognitive.
נקליד בתיבת החיפוש את המילה voice ונקיש Enter:

Google groups search results


חזרה לתחילת העמוד

  השוואה של דפי התוצאות

  Google Groups Websom
תצוגה והקף

רשימה טקסטואלית ליניארית של המאמרים המציגה את הכותרות ומתחתן תקציר המאמר, תאריך ומחבר.

הקלקה על כותרת מציגה את הטקסט המלא.

א. מפה של כל המאמרים בקבוצת הדיון מחולקת לשטחי צבע ותוויות, המציגות כמות מידע וקשר בין יחידות המאמרים.
ב. רשימת כותרות טקסטואלית של יחידת המאמרים בציון שם מחבר ותאריך.

הקלקה על כותרת מציגה את הטקסט המלא.

סינון ומיון

סדר ההופעה לפי מידת רלוונטיות לביטוי המבוקש.

ניתן למיון על פי תאריך, ובאפשרויות חיפוש מתקדם ניתן לבחור בקריטריונים נוספים למיון.

המאמרים מופיעים לפי סמיכות של הקשר תוכני.

נקודות לבנות מייצגות יחידת מאמרים ומסודרות על פי סמיכות תכנית. אזורים בהירים מסמלים כמות גדולה יותר של מאמרים בנושא. אין אפשרויות למיון נוסף.

המשך חיפוש

לחיפוש חדש שיצמצם או ירחיב את התוצאות יש להקליד שוב ביטוי בתיבת החיפוש.

הפירוט החדש שמופיע נותן דף תוצאות חדש ולא מקושר לחיפוש הקודם.

יכולה להיעשות על ידי תזוזה פשוטה עם החצים וניווט בשטחים קרובים למילת הליבה.

חיפוש חדש לגמרי תמיד מראה מרחק או קירבה לאזור (=קונטקסט) החיפוש הקודם.

 

  יתרונות וחסרונות השימוש ב- Websom

  יתרונות חסרונות
חיפוש מתאים למסות גדולות של מסמכים טקסטואליים בכל שפה וללא התערבות אנושית.
ניתן לחפש ישירות באזור תוכן בו רוצים להתמקד ובאופן מהיר להתעלם ממידע "רחוק" ולא רלוונטי.
חיפוש קרוב לא צריך להיות על ידי כתיבת מחרוזת מילים (string) "מושלמת", אלא על ידי מעבר לשטח הרלוונטי במפה.
המיפוי אינו דינמי. הכנת מפת החיפוש יכולה להיעשות רק בדיעבד, לאחר איסוף וסריקה של כל המידע הטקסטואלי.
אין אפשרות לחיפוש בוליאני מורכב וקיצוץ.
תוצאה מבט-על של הקף הנושא, כמות המאמרים, מילות הליבה והסמיכות ביניהן.
סדר בכאוס - כל יחידת מאמרים (נקודה לבנה) היא חלק ממיון תכני לפי קטגוריות שנעשה אוטומטית.
למרות סמיכות תכנית אין דרך לדעת תוכן של כל יחידת מידע ללא כניסה ממשית אליה ובחינת הכותרות.
אין אפשרויות מיון מתקדמות.
שליטה ונוחיות לאחר שלומדים את הכלי הניווט נעשה אינטואיטיבי.
ממשק ידידותי ולא עמוס בפונקציות.
מצריך השקעה מסוימת בלימוד המקרא ואופן המיפוי.
עיצוב צבעוני, פשוט ומסודר. ממשק כללי מדי: פער בין כתמי הצבע והנקודות למה שהיא מייצגת בפועל - מאמרים.


פני ברסימנטוב / Creative Commons License
מותר להעתיק תכנים בתנאי שלא יעשה בהם שימוש מסחרי וינתן קרדיט לכותבת

בית אודות רקע תיאורטי מדריך אתרים קיטלוג חיפוש תוכן מילון ניהול ידע קישורים