Robots.txt چیست؟
Robots.txt فایلی است که به عنکبوتهای موتورهای جستجو ( خزنده ها ) میگوید صفحات یا بخشهای خاصی از یک وبسایت را نخزند. اکثر موتورهای جستجوی اصلی (از جمله گوگل، بینگ و یاهو) درخواست های Robots.txt را می شناسند و به آنها احترام می گذارند.
چرا Robots.txt مهم است؟
اکثر وب سایت ها به فایل robots.txt نیاز ندارند.
دلیل آن این است که گوگل معمولاً می تواند تمام صفحات مهم سایت شما را پیدا کرده و فهرست بندی کند.
و آنها به طور خودکار صفحاتی را که مهم نیستند یا نسخه های تکراری صفحات دیگر نیستند ایندکس نمی کنند.
با این حال، 3 دلیل اصلی وجود دارد که میخواهید از فایل robots.txt استفاده کنید.
مسدود کردن صفحات غیر عمومی: گاهی اوقات صفحاتی در سایت خود دارید که نمی خواهید ایندکس شوند. به عنوان مثال، ممکن است یک نسخه مرحلهبندی از یک صفحه داشته باشید. یا یک صفحه ورود این صفحات باید وجود داشته باشند. اما شما نمی خواهید افراد تصادفی روی آنها فرود بیایند. این موردی است که از robots.txt برای مسدود کردن این صفحات از خزندهها و رباتهای موتور جستجو استفاده میکنید.
به حداکثر رساندن بودجه خزیدن: اگر برای ایندکس شدن همه صفحات خود با مشکل مواجه هستید، ممکن است با مشکل بودجه خزیدن مواجه شوید . با مسدود کردن صفحات بیاهمیت با robots.txt، Googlebot میتواند بیشتر از بودجه خزیدن شما را صرف صفحاتی کند که واقعاً مهم هستند.
جلوگیری از نمایه سازی منابع: استفاده از دستورات متا می تواند به همان اندازه Robots.txt برای جلوگیری از ایندکس شدن صفحات کار کند. با این حال، دستورالعملهای متا برای منابع چندرسانهای، مانند فایلهای PDF و تصاویر، به خوبی کار نمیکنند. اینجاست که robots.txt وارد عمل می شود.
نتیجه نهایی؟ Robots.txt به عنکبوتهای موتورهای جستجو میگوید که صفحات خاصی را در وبسایت شما نخزند.
می توانید بررسی کنید که چند صفحه را در کنسول جستجوی گوگل ایندکس کرده اید .
کنسول جستجوی گوگل – نمایه شده
اگر این شماره با تعداد صفحاتی که میخواهید ایندکس شوند مطابقت دارد، نیازی به زحمت فایل Robots.txt ندارید.
اما اگر این عدد بیشتر از چیزی است که انتظار داشتید (و متوجه URL های نمایه شده ای می شوید که نباید ایندکس شوند)، وقت آن است که یک فایل robots.txt برای وب سایت خود ایجاد کنید.
بهترین شیوه ها
یک فایل Robots.txt ایجاد کنید
اولین قدم شما این است که واقعاً فایل robots.txt خود را ایجاد کنید.
به عنوان یک فایل متنی، در واقع می توانید با استفاده از دفترچه یادداشت ویندوز یا همان notepad یک فایل ایجاد کنید.
و مهم نیست که در نهایت چگونه فایل robots.txt خود را می سازید، فرمت آن دقیقاً یکسان است:
عامل کاربر: X غیر مجاز
: Y
User-agent ربات خاصی است که شما با آن صحبت می کنید.
و هر چیزی که بعد از “عدم اجازه” dissallow می آید صفحات یا بخش هایی هستند که می خواهید مسدود کنید.
در اینجا یک مثال است:
عامل کاربر: googlebot غیر مجاز
: /images
این قانون به Googlebot میگوید که پوشه تصویر وبسایت شما را ایندکس نکند.
همچنین میتوانید از یک ستاره (*) برای صحبت با همه رباتهایی که در وبسایت شما توقف میکنند استفاده کنید.
در اینجا یک مثال است:
عامل کاربر: * غیر مجاز
: /images
“*” به همه عنکبوتها میگوید که پوشه تصاویر شما را نخزند.
این تنها یکی از راه های استفاده از فایل robots.txt است. این راهنمای مفید از Google اطلاعات بیشتری در مورد قوانین مختلفی دارد که میتوانید از آنها برای مسدود کردن یا اجازه خزیدن رباتها در صفحات مختلف سایت خود استفاده کنید.
قوانین مفید
پیدا کردن فایل Robots.txt خود را آسان کنید
هنگامی که فایل robots.txt خود را دارید، وقت آن است که آن را زنده کنید.
از نظر فنی می توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت خود قرار دهید.
اما برای افزایش شانس یافتن فایل robots.txt، توصیه می کنم آن را در این آدرس قرار دهید:
https://example.com/robots.txt
(توجه داشته باشید که فایل robots.txt شما به حروف کوچک و بزرگ حساس است. بنابراین مطمئن شوید که از یک “r” کوچک در نام فایل استفاده کنید)
خطاها و اشتباهات را بررسی کنید
این واقعاً مهم است که فایل robots.txt شما به درستی تنظیم شود. یک اشتباه و کل سایت شما ممکن است از فهرست خارج شود.
خوشبختانه، نیازی نیست امیدوار باشید که کد شما درست تنظیم شده باشد. گوگل یک ابزار تست ربات قوی دارد که می توانید از آن استفاده کنید:
Robots.txt – نتایج تست
فایل robots.txt شما را به شما نشان می دهد و هر خطا و هشداری را که پیدا می کند:
Robots.txt – خطاها
همانطور که می بینید، ما عنکبوت ها را از خزیدن در صفحه مدیریت WP خود مسدود می کنیم.
ما همچنین از robots.txt برای جلوگیری از خزیدن صفحات برچسب وردپرس تولید شده به صورت خودکار (برای محدود کردن محتوای تکراری ) استفاده میکنیم.
Robots.txt در مقابل دستورات متا
چرا وقتی میتوانید صفحات را در سطح صفحه با متا تگ « noindex » مسدود کنید، از robots.txt استفاده میکنید؟
همانطور که قبلاً اشاره کردم، تگ noindex برای پیاده سازی روی منابع چندرسانه ای مانند فیلم ها و فایل های PDF دشوار است.
همچنین، اگر هزاران صفحه دارید که میخواهید آنها را مسدود کنید، گاهی اوقات بهجای افزودن دستی یک برچسب noindex به هر صفحه، مسدود کردن کل بخش آن سایت با robots.txt آسانتر است.
موارد لبهای نیز وجود دارد که نمیخواهید بودجه خزیدن را در صفحاتی با تگ noindex هدر دهید.
که گفت:
خارج از این سه مورد لبه، توصیه می کنم به جای robots.txt از دستورات متا استفاده کنید. اجرای آنها راحت تر است. و احتمال وقوع فاجعه کمتری وجود دارد (مانند مسدود کردن کل سایت شما).