گوگل باتGooglebot یا گوگل بات چیست ؟
Googlebot یا گوگل بات ، خزنده وب که توسط گوگل برای جمع آوری اطلاعات مورد نیاز و ایجاد یک فهرست قابل جستجو از وب استفاده می شود. گوگل بات دارای دو خزنده موبایل و دسکتاپ میباشد و همچنین خزنده های تخصصی برای اخبار، تصاویر و ویدیوها دارد .
خزندههای بیشتری هم وجود دارد که Google برای کارهای خاصی استفاده میکند ، و هر خزنده خود را با یک رشته متن متفاوت به نام «عامل کاربر» شناسایی میکند. Googlebot همیشه سبز است، به این معنی که وب سایت ها را همانطور که کاربران در آخرین مرورگر کروم می بینند.
Googlebot روی هزاران دستگاه اجرا می شود. آنها تعیین می کنند که چقدر سریع و چه چیزی در وب سایت ها خزیده شود. اما آنها سرعت خزیدن خود را کاهش می دهند تا وب سایت ها را تحت تأثیر قرار ندهند.
بیایید به روند آنها برای ایجاد نمایه ای از وب نگاه کنیم.
Googlebot چگونه وب را می خزد و فهرست می کند
محتوای صفحات رندر شده همان چیزی است که در فهرست گوگل ذخیره شده و قابل جستجو است. هر پیوند جدیدی که پیدا شد به سطل URL ها برمی گردد تا بخزد.
ما جزئیات بیشتری در مورد این فرآیند در مقاله خود در مورد نحوه کار موتورهای جستجو داریم .
نحوه کنترل Googlebot
گوگل چند راه را برای کنترل مواردی که خزیده و ایندکس می شوند به شما ارائه می دهد.
راه های کنترل خزیدن
- Robots.txt – این فایل در وب سایت شما به شما امکان می دهد آنچه را که خزیده می شود کنترل کنید.
- Nofollow – Nofollow یک ویژگی پیوند یا برچسب متا روبات است که نشان می دهد پیوندی نباید دنبال شود. این فقط یک اشاره محسوب می شود، بنابراین ممکن است نادیده گرفته شود.
- نرخ خزیدن خود را تغییر دهید – این ابزار در کنسول جستجوی گوگل به شما اجازه می دهد تا سرعت خزیدن گوگل را کاهش دهید.
راه های کنترل نمایه سازی
- محتوای خود را حذف کنید – اگر صفحه ای را حذف کنید، چیزی برای فهرست بندی وجود ندارد. نقطه ضعف این است که هیچ کس دیگری نیز نمی تواند به آن دسترسی داشته باشد.
- دسترسی به محتوا را محدود کنید – Google به وبسایتها وارد نمیشود، بنابراین هر نوع محافظت از رمز عبور یا احراز هویت مانع از دیدن محتوا میشود.
- Noindex – یک noindex در تگ متا روبات ها به موتورهای جستجو می گوید که صفحه شما را ایندکس نکنند.
ابزار حذف URL – نام این ابزار از گوگل کمی گمراه کننده است، زیرا نحوه کار آن به طور موقت محتوا را پنهان می کند. Google همچنان این محتوا را می بیند و می خزند، اما صفحات در نتایج جستجو ظاهر نمی شوند. - Robots.txt (فقط تصاویر) – مسدود کردن تصویر Googlebot از خزیدن به این معنی است که تصاویر شما ایندکس نمی شوند.
آیا واقعا Googlebot است؟
بسیاری از ابزارهای SEO و برخی از ربات های مخرب وانمود می کنند که Googlebot هستند. این ممکن است به آنها امکان دسترسی به وب سایت هایی را بدهد که سعی در مسدود کردن آنها دارند.
در گذشته، برای تأیید Googlebot نیاز به جستجوی DNS داشتید . اما اخیراً گوگل این کار را آسانتر کرده و فهرستی از IPهای عمومی ارائه کرده است که میتوانید از آنها برای تأیید اینکه درخواستها از طرف Google هستند استفاده کنید. می توانید این را با داده های موجود در گزارش های سرور خود مقایسه کنید.
شما همچنین به گزارش «آمار خزیدن» در کنسول جستجوی Google دسترسی دارید. اگر به Settings > Crawl Stats بروید ، این گزارش حاوی اطلاعات زیادی درباره نحوه خزیدن گوگل در وب سایت شما است. می توانید ببینید کدام ربات گوگل در حال خزیدن چه فایل هایی است و چه زمانی به آنها دسترسی پیدا کرده است.
عکس
در نتیجه …
وب مکانی بزرگ و نامرتب است. Googlebot باید تمام تنظیمات مختلف را به همراه زمانهای خرابی و محدودیتها دنبال کند تا دادههایی را که گوگل برای کارکرد موتور جستجوی خود نیاز دارد جمعآوری کند.
یک واقعیت جالب برای جمع بندی همه چیز این است که Googlebot معمولاً به عنوان یک ربات نشان داده می شود و به درستی به عنوان “Googlebot” شناخته می شود. همچنین یک طلسم عنکبوتی وجود دارد که “کرولی” نام دارد.
منابع :
https://ahrefs.com/