في كل يوم، يتم إنشاء ما يقارب 250 ألف موقع إلكتروني على الويب ، عدا عن صفحات الويب الجديدة التي تتم إضافتها على المواقع الموجودة مسبقاً، لكن كيف تقوم محركات البحث باستكشاف وفهرسة محتوى صفحات الويب في جميع هذه المواقع؟ تسمى هذه بعملية زحف محركات البحث.
ما هو زحف محركات البحث؟
الزحف Crawling أو زحف محركات الحبث هو عبارة عن العملية التي تستخدمها برامج زحف الويب لمحركات البحث (الروبوتات Bots أو العناكب Spiders) لزيارة الصفحة وتحميلها واستخراج روابطها لاكتشاف صفحات إضافية.
يتم الزحف إلى الصفحات المعروفة لمحرك البحث بشكل دوري لتحديد ما إذا كان قد تم إجراء أية تغييرات على محتوى الصفحة منذ آخر مرة تم الزحف إليها. إذا اكتشف محرك البحث تغييرات في إحدى الصفحات بعد الزحف إلى الصفحة، فسيقوم بتحديث فهرسها استجابة لهذه التغييرات المكتشفة.
طريقة عمل زحف محركات البحث.
تستخدم محركات البحث برامج زحف الويب الخاصة بها لاكتشاف صفحات الويب والوصول إليها. تبدأ جميع برامج زحف محركات البحث التجارية في استكشاف موقع ويب عن طريق تنزيل ملف robots.txt الخاص به، والذي يحتوي على قواعد حول الصفحات التي يجب أو لا ينبغي على عليها استكشافها على موقع الويب.
قد يحتوي ملف robots.txt أيضاً على معلومات حول خرائط المواقع Sitemaps؛ تحتوي خرائط الموقع على قوائم بعناوين URL التي يريد الموقع أن يقوم زاحف محرك البحث بالزحف إليها. تستخدم برامج زحف محركات البحث عدداً من الخوارزميات والقواعد. ولذلك لتحديد عدد مرات إعادة الزحف إلى الصفحة وعدد الصفحات التي يجب فهرستها على الموقع. على سبيل المثال، قد يتم الزحف إلى الصفحة التي تتغير بشكل منتظم أكثر من الصفحة التي نادراً ما يتم تعديلها.
كيف يمكن التعرف على برامج زحف محرك البحث؟
يمكن التعرف على روبوتات محرك البحث التي تزحف إلى موقع ويب من سلسلة وكيل المستخدم User Agent String التي تمررها إلى خادم الويب عند طلب صفحات الويب.
الزحف إلى الصور والملفات غير النصية.
ستحاول محركات البحث عادةً الزحف إلى كل عنوان URL تصادفه وتفهرسه. ومع ذلك، إذا كان عنوان URL هو نوع ملف غير نصي مثل صورة أو ملف فيديو أو ملف صوتي، فلن تتمكن محركات البحث عادةً من قراءة محتوى الملف بخلاف اسم الملف والبيانات الوصفية المرتبطة به. على الرغم من أن محرك البحث قد يكون قادراً فقط على استخراج كمية محدودة من المعلومات حول أنواع الملفات غير النصية، إلا أنه لا يزال من الممكن فهرستها وترتيبها في نتائج البحث وتلقي حركة المرور.
الزحف واستخراج الروابط من الصفحات.
تكتشف برامج الزحف صفحات جديدة من خلال إعادة الزحف إلى الصفحات الحالية التي تعرفها بالفعل. ثم استخراج الروابط إلى الصفحات الأخرى للعثور على عناوين URL جديدة. تتم إضافة عناوين URL الجديدة هذه إلى قائمة انتظار الزحف حتى يمكن تنزيلها في وقت لاحق. من خلال عملية متابعة الروابط هذه، يمكن لمحركات البحث اكتشاف كل صفحة ويب متاحة للجمهور على الإنترنت ومرتبطة من صفحة أخرى واحدة على الأقل.
ما هي خريطة الموقع؟
هناك طريقة أخرى يمكن لمحركات البحث من خلالها اكتشاف صفحات جديدة وهي من خلال استكشاف خرائط المواقع Sitemaps. حيث تحتوي ملفات Sitemap على مجموعات من عناوين URL، ويمكن إنشاؤها بواسطة موقع ويب لتزويد محركات البحث بقائمة من الصفحات التي سيتم الزحف إليها.
كما يمكن أن تساعد هذه محركات البحث في العثور على المحتوى المخفي في عمق موقع الويب. ويمكن أن تزود مشرفي المواقع بالقدرة على التحكم بشكل أفضل وفهم مجالات فهرسة الموقع والتكرار.
طلب الأرشفة اليدوي.
بدلاً من ذلك، يمكن غالباً إجراء عمليات إرسال الصفحات الفردية مباشرةً إلى محركات البحث عبر واجهات كل منها. يمكن استخدام هذه الطريقة اليدوية لاكتشاف الصفحة عند نشر محتوى جديد على الموقع، أو في حالة حدوث تغييرات وتريد تقليل الوقت الذي تستغرقه محركات البحث لمشاهدة المحتوى الذي تم تغييره.
تنص Google على أنه بالنسبة للكميات الكبيرة من عناوين URL، يجب عليك استخدام خرائط مواقع XML. ولكن في بعض الأحيان تكون طريقة الإرسال اليدوي ملائمة عند إرسال عدد قليل من الصفحات. من المهم أيضاً ملاحظة أن Google تقيد مشرفي المواقع بعشرة عناوين URL يومياً. بالإضافة إلى ذلك، تقول Google أن وقت الاستجابة للفهرسة هو نفسه بالنسبة إلى ملفات Sitemap مثل عمليات الإرسال الفردية.
اقرأ المزيد: خرائط جوجل تتحدى الوضع ثلاثي الأبعاد من أبل بأداة استكشاف الأحياء الفعلية
اقرأ المزيد: جوجل تعيد أيقونة GTalk لتطبيق Google Chat