آن سوی جست وجو

رضا جوالچی


جست وجو در موتورهای جست وجوگر دومین فعالیت کاربران در دنیای وب است


امروزه موتورهای جست وجو نقش بسیار پررنگی در فضای وب دارند تا آنجا که دنیای مجازی بدون حضور موتورهای جست وجو معنا پیدا نمی کند اما در اینجا این سوال مطرح می شود که به چه دلیلی نیاز به موتورهای جست وجو داریم که در پاسخ باید گفت با وجود حجم روزافزون طراحی و راه اندازی سایت های وب مختلف، نیاز به دستیابی به مرکزی برای شناسایی این پایگاه ها برای استفاده بهتر و بیشتر کاربران وب، امر مهمی به شمار آمده است و از آنجا که سایت ها و مطالبی که در وب منتشر می شوند، توسط هیچ مرکز رسمی بین المللی مسوول در اینترنت اعلام نمی شود تنها راه پیدا کردن یک موضوع، اطلاع داشتن دقیق از آدرس آن سایت به نظر می رسد. موتور های جست وجو برای سهولت دسترسی کاربران به مطالب موجود در سایت های وب راه اندازی شده اند. در واقع بدون نیاز به موتور های جست وجو کاربران قادر نخواهند بود از به روزرسانی سایت های وب اطلاع کسب کنند و نیازهای تحقیقاتی و آموزشی و تجاری و خبری و... خود را پوشش دهند و در مجموع باید گفت مهم ترین توانایی موتورهای جست وجو جذب مخاطبان واقعی سایت است چرا که مخاطبان وبگرد و سرگردان معمولاً در این جست وجوها نقش به خصوصی ندارند.
توجه به این نکته بسیار حائز اهمیت است که هر چه بر محبوبیت وب افزوده می شود، نیاز به بایگانی کردن اطلاعات آن نیز بیشتر می شود؛ موتور جست وجوگر نیز در واقع این اطلاعات را بایگانی کرده، در زمان مورد نیاز و به سرعت در اختیار کاربران قرار می دهد. بدون موتور جست وجوگر، وب تنها به بخش کوچکی از موفقیت امروزین خود دست می یافت زیرا موتور جست وجوگر، اینترنت را به رسانه یی قابل استفاده برای همه تبدیل کرده است. آنچه موتورهای جست وجوگر انجام می دهند، فراهم کردن یک وسیله جست وجوی ساده است. وقتی یک کاربر وب عبارتی را جست وجو می کند، موتور جست وجوگر لیستی از سایت ها ارائه می کند که تعداد آنها از چند صد مورد تا چند میلیون متغیر خواهد بود و سایت هایی که موتور جست وجوگر به عنوان نتایج جست وجویش ارائه می کند، بر حسب میزان ارتباط با عبارت جست وجو شده به ترتیب نزولی لیست می شوند. به عبارت دیگر سایتی که به عنوان اولین سایت در نتایج جست وجو معرفی شده است، مرتبط ترین سایت با عبارت جست وجوشده از دید آن موتور جست وجوگر خواهد بود.
دقت در ارائه نتایج یک جست وجو مساله بسیار مهمی است که کاربران وب همواره از موتورهای جست وجوگر انتظار خواهند داشت هر چه نتایج جست وجوی یک موتور جست وجوگر دقیق تر و مرتبط تر باشد، محبوب تر خواهد بود و کاربران بیشتری به آن مراجعه خواهند کرد و اگر عبارت یکسانی در تمام موتورهای جست وجوگر جست وجو شود هیچ کدام از آنها نتایج یکسانی را ارائه نمی دهند و با نتایج کاملاً متفاوتی روبه رو می شویم. تفاوت در ارائه نتایج جست وجو در موتورهای جست وجوگر از تفاوت آنها در الگوریتم یا همان سیستم رتبه بندی و بایگانی داده شان ناشی می شود. حتی اگر همه آنها از بایگانی داده یکسانی نیز استفاده کنند، بازهم نتایج جست وجویشان متفاوت خواهد بود. موتور جست وجوگر برای رده بندی صفحات وب از الگوریتم خاصی استفاده می کند که فوق العاده سری است چرا که الگوریتم نیز مجموعه یی از دستورالعمل ها است که موتور جست وجوگر به کمک آن تصمیم می گیرد سایت ها را چگونه در خروجی اش مرتب کند.
برای اینکه سایت ها با هم مقایسه شوند و بر حسب میزان ارتباط با موضوع جست وجو شده مرتب شوند، موتور جست وجوگر، الگوریتم را بر مجموعه یی از پارامترها اعمال می کند. پارامترهای مورد توجه موتور جست وجوگر نیز همانند الگوریتم آنها ناشناخته است و این ناشناخته ها جذابیت دنیای موتورهای جست وجوگر را دوچندان می کنند.
● عملکرد موتورهای جست وجوگر
وقتی ما واژه مورد جست وجوی خود را در موتور جست وجوی خود تایپ کرده و روی آن کلیک می کنیم و بنا بر سرعت اینترنت نتایج نمایان می شود، این سوال در ذهن بسیاری از کاربران شکل می گیرد که موتورهای جست وجو به چه صورتی عمل می کنند که در این خصوص باید گفت وقتی جست وجویی در یک موتور جست وجوگر انجام و نتایج جست وجو ارائه می شود، کاربران در واقع نتیجه کار بخش های متفاوت موتور جست وجوگر را می بینند. موتور جست وجوگر قبلاً پایگاه داده اش را آماده کرده و این گونه نیست که درست در همان لحظه جست وجو، تمام وب را بگردد. بسیاری از خود می پرسند چگونه ممکن است گوگل در کمتر از یک ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در نتایج جست وجوی خود ارائه کند که در این مورد گفته می شود گوگل و هیچ موتور جست وجوگر دیگری توانایی انجام این کار را ندارند. همه آنها در زمان پاسخگویی به جست وجوهای کاربران، تنها در پایگاه داده یی که در اختیار دارند، به جست وجو می پردازند نه در تمامی وب. موتور جست وجوگر به کمک بخش های متفاوت خود، اطلاعات مورد نیاز را قبلاً جمع آوری، تجزیه و تحلیل می کند، آن را در پایگاه داده اش ذخیره می کند و هنگام جست وجوی کاربر تنها در همین پایگاه داده می گردد. در خصوص بخش های یک موتور جست وجو باید گفت شامل قسمت هایی همچون Spider یا عنکبوت، Crawler یا خزنده، Indexer یا بایگانی کننده، Database یا پایگاه داده، Ranker یا سیستم رتبه بندی و... می شود که در توضیح هر بخش شامل موارد زیر است.


Spider عنکبوت

 
اسپایدر نرم افزاری است که کار جمع آوری اطلاعات مورد نیاز یک موتور جست وجوگر را بر عهده دارد. اسپایدر به صفحات مختلف سر می زند، محتوای آنها را می خواند، لینک ها را دنبال می کند، اطلاعات مورد نیاز را جمع آوری می کند و آن را در اختیار سایر بخش های موتور جست وجوگر قرار می دهد. کار یک اسپایدر، بسیار شبیه کار کاربران وب است. همان طور که کاربران، صفحات مختلف را بازدید می کنند، اسپایدر هم درست این کار را انجام می دهد با این تفاوت که اسپایدر کدهای
HTML صفحات را می بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن این کدها را مشاهده می کنند.


Crawler – خزنده

 
کراولر نرم افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می کند به این صورت که مشخص می کند کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می گیرد کدام یک از لینک های صفحه یی که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضی ها را دنبال کند یا هیچ کدام را دنبال نکند. کراولر ممکن است قبلاً برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک های یک صفحه به این بستگی دارد که موتور جست وجوگر چه حجمی از اطلاعات یک سایت را می تواند در پایگاه داده اش ذخیره کند. همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جست وجوگر داده نشده باشد.


Indexer -بایگانی کننده


تمام اطلاعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل به این معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدامند، کلمات چندبار تکرار شده اند، کلمات در کجای صفحه قرار دارند و... در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرف نظر می کند. کلماتی نظیر
a ، an ، the ، www ، is و... از این گونه کلمات هستند.


DataBase -پایگاه داده


تمام داده های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می شود. در این بخش داده ها گروه بندی، کدگذاری و ذخیره می شود. همچنین داده ها قبل از آنکه ذخیره شوند، طبق تکنیک های خاصی فشرده می شوند تا حجم کمی از پایگاه داده را اشغال کنند. یک موتور جست وجوگر باید پایگاه داده عظیمی داشته باشد و به طور مداوم حجم محتوای آن را گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی کند. بزرگی و به روز بودن پایگاه داده یک موتور جست وجوگر برای آن امتیاز به شمار می آید. یکی از تفاوت های اصلی موتورهای جست وجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.


Ranker سیستم رتبه بندی


بعد از آنکه تمام مراحل قبل انجام شد، موتور جست وجوگر آماده پاسخگویی به سوالات کاربران است. کاربران چند کلمه را در جعبه جست وجوی آن وارد می کنند و سپس با فشردن
Enter منتظر پــاسخ می مانند. برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جست وجو شده مرتبط هستند، مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آنها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جست وجو به کاربر نمایش می دهد. حتی اگر موتور جست وجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارائه کند، یک موتور جست وجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپنده یک موتور جست وجوگر است و تفاوت اصلی موتورهای جست وجوگر در این بخش قرار دارد. سیستم رتبه بندی برای پاسخگویی به سوالات کاربران، پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار آنها قرار دهد.

 

□□□


روزانه در دنیای وب هزاران سایت متولد می شود تا آنجا که باید گفت اگر تا دیروز نبود اطلاعات در محیط اینترنت به مشکل اساسی برای کاربران بدل شده بود، امروزه به لطف همین رشد صعودی دسترسی به اطلاعات انبوه جدی تر از نبود اطلاعات است و به نوعی باید گفت چالش عمده اکثر کاربران دستیابی دقیق به اطلاعات است به این صورت که کاربران اگر دنبال موضوعی خاص هستند، به چه روشی می توانند به آن دسترسی پیدا کنند که موتورهای جست وجو با نقش حیات بخش خود به راحتی این حجم اطلاعات را در اختیار کاربران قرار می دهند. این روزها آمارها نشان از این واقعیت غیر قابل انکار دارد که افراد بسیاری سفر در دنیای مجازی را با موتورهای جست وجو گر آغاز می کنند تا آنجا که جست وجو در موتورهای جست وجوگر به دومین فعالیت کاربران در دنیای وب تبدیل شده است.