Skip to main content

web crawlers

خزنده وب بخش اصلی و مرکزی هر موتور جستجویی را تشکیل می‌دهد و به این دلیل الگوریتم و معماری آن‌ها به شدت مخفی نگه داشته می‌شود. از نظر لغوی یک Spider یا یک Crawler به معنی عنکبوت و خزیدن است. در واقع  Spiderها یا Crawler ها هر دو یک چیز هستند؛ آنها نرم افزار یا اسکریپت اتوماتیکی هستند که لینک های اینترنتی را به یک الگوریتم مشخص و هدفمند دنبال کرده و به وب سایت های مختلف سر می زنند و محتوای موجود در صفحات وب سایت را برای پایگاه داده های موتورهای جستجو ایندکس می کنند تا این پایگاه داده همیشه به روز باشد. به عبارتی خزنده وب یک برنامه‌ رایانه‌ای است که توانایی مرور و ثبت اطلاعات را از وب‌سایت‌ها به صورت خودکار دارد و بصورت روزانه همین عملیات را انجام می دهد. اسامی مختلفی مانند Web Spider، Automatic Indexers، Web Robots، نرم‌افزارهای FOAF و … به این خزنده ها اطلاق میشود.
این خزنده های وب با دیدن لینک هایی که در صفحات مشاهده می کنند به اصطلاح به آن لینک ها میخزند. ممکن است مجددا در آن صفحات لینک های دیگری باشد و به همین صورت این خزیدن ادامه پیدا کند و لینک ها از صفحه ای به صفحه دیگر پیگیری شوند و خزنده وب از یک وب سایت به یک وب سایت دیگر برود. در اصطلاح سئو به این لینک ها فید “Feed” گفته می شود.  لینک های مستقیم از وب سایت های دیگر به وب سایت شما به خزنده وب تغذیه بهتری می دهد. هر چه لینک بیشتری به وب سایت شما داده شود، خزنده وب بیشتر در وب سایت شما باقی می ماند و بیشتر از صفحات وب سایت شما بازدید می کند که از لحاظ سئو برای سایت سودمند است. همچنین مدیریت فنی وب سایت بخشی از کار این خزنده‌هاست که شامل یافتن لینک‌های شکسته(Broken Link) ، اعتبار سنجی کدهای HTML، فایل‌های CSS و … می‌باشد.
به بیان ساده میتوان گفت که یک خزنده‌ وب، نرم افزاری است که در اینترنت وارد سایتهای گوناگون می شود، همه صفحات آنها را می خواند، لینکها را دنبال می کند و در نهایت اطلاعات صفحات را جمع آوری و به محل مشخصی ارسال می کند.

Leave a Reply