איך העולם עובד - איך עובד מנוע חיפוש?
- רויטל ומרק גרבוב
- Nov 6
- 5 min read
אם אני מקליד שאלה בשורת החיפוש בדפדפן ולוחץ על מקש האנטר, אני מקבל תשובה בתוך פחות משנייה, ובדרך כלל לא תשובה אחת, אלא כמה עשרות אפשרויות.
איך מנועי חיפוש עושים את זה?
תאריך עליית הפרק לאוויר: 15/07/2018.
[חסות]
ג'ינגל: "חינוכית".
[מוזיקת פתיחה]
קריין: "איך העולם עובד", עם ארנון זמיר.
[מוזיקה מתגברת ומסתיימת]
[צלילי הקלדה ברקע] איך מגיעים לחצור הגלילית? איפה יש חנות צעצועים קרובה? מה השם האמיתי של סטטיק? איך מכינים כרוב כבוש? באיזו שעה התקיימה הכרזת העצמאות? כמה זה 180 כפול 4? ואיך מגדלים גזר גמדי?
לא, זו לא רשימת הפרקים בעונה הבאה של "איך העולם עובד". זו רשימה אחרת לחלוטין, רשימת השאלות ששאלתי מנועי חיפוש באינטרנט, וזה רק מהשעות האחרונות - גוגל או Bing - ויש עוד כמה. מנועי החיפוש הם המקום שבו אנחנו מתחילים למצוא תשובות, בתכלס כמעט לכל דבר. [צליל אלקטרוני]
האינטרנט הוא ענקי. יש בו מיליארדי אתרים ובכל דקה מתווספים כמה מאות אתרים נוספים. זה אומר שיש שם המון מידע ושכמעט כל מה שארצה לשאול, אפשר למצוא שם. השאלה היא רק, איך? [צליל אלקטרוני]
אם נחשוב על זה כמו על ספרייה, אילו היה האינטרנט ספרייה פיזית שבה כל שורת טקסט כתובה באיזשהו ספר, והספר מונח על מדף, הספרייה הזאת הייתה הרבה יותר גדולה ממדינת ישראל. כך שאם אני בתל-אביב והתשובה על השאלה "מה השם האמיתי של סטטיק" נמצאת בספר בעכו, יהיה לי קשה מאוד למצוא אותה. [אנשים מדברים, גלגלים של עגלה]
אבל אם אני מקליד שאלה בשורת החיפוש ולוחץ על מקש ה-enter [צליל הקלדה], אני מקבל תשובה תוך פחות משנייה. בדרך כלל לא תשובה אחת, אלא כמה עשרות אפשרויות.
איך מנועי החיפוש עושים את זה? [קול מסתורי מהדהד "?How"]
קודם כל, כדאי להבין מה הם מנועי החיפוש. מנועי חיפוש, כמו גוגל, הם אתרים בעצמם והם נותנים למשתמש להקליד שאלה כמו [צלילי הקלדה] "איך מגדלים גזר גמדי?"
התוכנה של האתר מריצה את החיפוש ומחזירה לי תשובות ממש-ממש מהר. [צליל שידור דיגיטלי]
בזמן שאני מקליד, מנוע החיפוש לא באמת מחפש באינטרנט. מכיוון שהאינטרנט כל-כך גדול, זה היה לוקח המון-המון זמן. במקום זה, החיפוש נעשה באינדקס - טבלה גדולה, שיש בה רשימה של כֹּלללל האתרים באינטרנט. טוב, כמעט כל האתרים באינטרנט [דפדוף מהיר]. לא רק זה, הטבלה מכילה גם את האתרים עצמם, את התוכן שלהם, את כל התמונות שיש בהם, ואפילו תיאור של מה שיש בתמונות ועוד הרבה הרבה מידע על כל אתר. למעשה, השרתים של מנוע החיפוש כוללים עותק של כמעט כל האינטרנט, אבל מסודר יותר מהאינטרנט עצמו, המקורי.
מנוע החיפוש פותח את הטבלה שלו ומחפש שם את התשובה לשאלה שלי. אבל מאיפה יש לו את הטבלה? [קול שואל "מממ…?"]
את הטבלה מייצרת תוכנה אחרת, שנקראת "Crawler" - זחלן [צלילי משחק Pinball ברקע]. זאת תוכנה שזוחלת באינטרנט ללא הרף. היא זוחלת כשאני מחפש והיא זוחלת כשאני לא מחפש. [מדבר במהירות] היא זוחלת בימים וזוחלת בלילות, היא זוחלת בשמש וזוחלת בגשם, היא זוחלת בקיץ וזוחלת בחורף. [לוקח נשימה] היא זוחלת בסתיו, היא זוחלת באביב, היא זוח… טוב, די. הנקודה היא שהזחילה באינטרנט היא המפתח למנוע החיפוש כולו. הזחלן הבלתי נלאה סורק את האינטרנט כל הזמן ומחפש אתרים חדשים ושינויים באתרים קיימים [שריקת התפעלות]. את כל המידע שיש לו על האתרים הוא שומר בטבלה גדולה, וגם כותב מתי הם השתנו [צליל כתיבה על נייר], מתי הוא מצא אותם ואיזה אתר מחובר לאיזה אתר אחר, ועוד כל מיני דברים כאלה. [תלישת דף]
זה נותן לזחלן גם את האפשרות ליצור רשימה של כל האתרים, וגם לסדר אותה לפי א'-ב'. זה מה שמאפשר לחיפוש לעבוד כל-כך מהר.
תארו לכם שאתם נכנסים לספרייה ורוצים למצוא את "יומנו של חנון" כרך א'. אם הספרייה היא רק בלגן גדול של ספרים בערימה, אתם תצטרכו לעבור ספר אחר ספר וזה יקח לכם את כל היום [צליל סגירת ספר]. אם המדפים בספרייה מסודרים לפי א'-ב' [דלת נפתחת], מהדלת אתם הולכים ישר למדף של האות י', ומשם זה עניין של כמה שניות. [צעדים]
מנוע החיפוש פונה אל הטבלה ומחפש את המילים שמופיעות בשאלה שלי: "איך" - "מגדלים" - "גזר" ו - "גמדי" [צליל אלקטרוני]. דבר ראשון, הוא שולף את כל העמודים באינטרנט שיש בהם את המילים האלה. אבל זה לא כל-כך פשוט. יש עמודים שבהם עלולה להופיע מילה זהה, אבל בהקשר אחר. למשל, גָּזַר ולא גֶּזֶר. [צליל גזירה]
לכל מנוע חיפוש יש אלגוריתם, שיטה, שבעזרתו הוא מנסה לנחש למה התכוונתי בחיפוש. למשל, אם הרבה מהאתרים שנמצאו מכילים מידע על ירקות, אפשר להניח שהכוונה הייתה לגֶּזֶר, לא גָּזַר. [דנדון פעמון]
גם המילה "מְגַדְּלִים" רומזת למנוע החיפוש שאתרים שעוסקים בחקלאות עשויים להכיל את התשובה ולא, למשל, אתרים שעוסקים במלאכת יד כמו גזירה.
לכם, אני מניח, החשיבה הזאת פשוטה מאוד. גזר הוא ירק ולכן אתרים שיש בהם מידע על פטרוזיליה או על לפת או, אלוהים אדירים, על כרובית [שריקה], הם המקום לחפש את התשובה. אבל בשביל מחשב זו פעולה מסובכת להפליא. היכולת לא רק לזהות את המילה אלא גם לשייך אותה לקטגוריה - "ירקות", "מאכלים", "דברים בצבע כתום" - הייתה שמורה עד לא מזמן לבני-אדם בלבד. כשמנועי החיפוש הצליחו לעשות את זה באופן מדויק, האנושות קיבלה פעם ראשונה הצצה לעולם של אינטליגנציה מלאכותית, עולם שבו מחשבים חושבים. [קול אומר בהערכה "מממ…"]
אחרי שמצאנו את כל העמודים שבהם מילות החיפוש שלי מופיעות, עדיין מלאכה רבה לפנינו. השאלה הבאה היא עד כמה אפשר לסמוך על התוצאות שגוגל או מנוע חיפוש אחר הציג לי.
באינטרנט כל אחד יכול לכתוב מה שהוא רוצה, בין אם מדובר במכון החקלאי הלאומי, או בחוואי גדעון מביצרון שמגדל אפרסמון [געיית פרה], שלא יודע הרבה על גזר גמדי, אבל הוא ראה על זה פעם סרט. על כל שאלה שאני אשאל את מנוע חיפוש, אני אוכל לקבל די הרבה תשובות וחלק גדול מהם יהיה פשוט לא נכון. [צליל שגיאה]
גוגל, כמובן, לא יודע הכל. הוא לא יודע איזו תשובה נכונה ואיזה לא נכונה, אבל הוא יכול לנסות לנחש. לכן פועל פה עוד אלגוריתם, כזה שמסדר את תוצאות החיפוש ומנסה לנחש איזה מהאתרים איכותי יותר.
אחת הדרכים הכי מעניינות לעשות את זה היא לדרג אתרים לפי מספר האתרים האחרים שמפנים אליהם. זה כמו לבחור ספר שהרבה אנשים כבר המליצו עליו. אם הרבה אתרים מפנים אל האתר שלי, זה עשוי להעיד על כך שהוא אתר ברמה גבוהה, שהמידע בו מהימן, והוא מעניין והוא מסודר. [צליל אלקטרוני נמרץ]
אגב, יש שאלות שלגביהן גם הזהות של השואל חשובה. למשל, נגיד שאני מקליד במנוע חיפוש: "איפה קונים גזר גמדי?" גוגל אמנם יודע על המון חנויות נהדרות לגזר גמדי בניו-זילנד, אבל זה לא מעניין אותי, כי אני בגדרה. יותר מזה, זה רק יבלבל אותי. [צליל אלקטרוני מתרחק]
לכן, לא כל מי ששואל את השאלה הזאת יקבל את אותה תשובה. מנוע החיפוש יוסיף לאלגוריתם גם את המיקום שלי, ואולי אפילו את השמות של המקומות שבהם קניתי בעבר ירקות בגודל מוזר. כל זה כדי להעלות את הסבירות שהתשובה שאקבל לא רק עונה על השאלה, אלא גם עוזרת לי באופן אישי.
אחרי כל זה, מנוע החיפוש שולח את התוצאות אל המחשב שלי ומציג אותן ברשימה. בתוך פחות משנייה עברה השאילתה שלי אל מנוע חיפוש בצד השני של העולם, חצתה שלושה אלגוריתמים לפחות, עברה דרך הים, צללה בנהרות וחזרה אליי ועוד עם תשובה. [שריקת התפעלות]
אגב, גזר גמדי לא מגדלים. לוקחים גזר רגיל, מקלפים אותו ומשחיזים אותו עם מין מחדד גדול כזה, עד שמתקבלת צורה של גזר, אבל יותר נמוך ורזה וקטן. גמדי, נו. [תופים]
לא מאמינים לי? חפשו בגוגל.
ג'ינגל: "חינוכית".
קריין: הופק על ידי "פודקאסט ישראל מדיה בע"מ".
[חסות]




Comments