Robots.txt ( ربات دات تی ایکس تی ) چیست ؟

robots-txt چیست
چکیده مطلب
دسترسی آسان به مطالب

Robots.txt چیست؟

Robots.txt فایلی است که به عنکبوت‌های موتورهای جستجو ( خزنده ها ) می‌گوید صفحات یا بخش‌های خاصی از یک وب‌سایت را نخزند. اکثر موتورهای جستجوی اصلی (از جمله گوگل، بینگ و یاهو) درخواست های Robots.txt را می شناسند و به آنها احترام می گذارند.

چرا Robots.txt مهم است؟

اکثر وب سایت ها به فایل robots.txt نیاز ندارند.

دلیل آن این است که گوگل معمولاً می تواند تمام صفحات مهم سایت شما را پیدا کرده و فهرست بندی کند.

و آنها به طور خودکار صفحاتی را که مهم نیستند یا نسخه های تکراری صفحات دیگر نیستند ایندکس نمی کنند.

با این حال، 3 دلیل اصلی وجود دارد که می‌خواهید از فایل robots.txt استفاده کنید.

مسدود کردن صفحات غیر عمومی: گاهی اوقات صفحاتی در سایت خود دارید که نمی خواهید ایندکس شوند. به عنوان مثال، ممکن است یک نسخه مرحله‌بندی از یک صفحه داشته باشید. یا یک صفحه ورود این صفحات باید وجود داشته باشند. اما شما نمی خواهید افراد تصادفی روی آنها فرود بیایند. این موردی است که از robots.txt برای مسدود کردن این صفحات از خزنده‌ها و ربات‌های موتور جستجو استفاده می‌کنید.

به حداکثر رساندن بودجه خزیدن: اگر برای ایندکس شدن همه صفحات خود با مشکل مواجه هستید، ممکن است با مشکل بودجه خزیدن مواجه شوید . با مسدود کردن صفحات بی‌اهمیت با robots.txt، Googlebot می‌تواند بیشتر از بودجه خزیدن شما را صرف صفحاتی کند که واقعاً مهم هستند.

جلوگیری از نمایه سازی منابع: استفاده از دستورات متا می تواند به همان اندازه Robots.txt برای جلوگیری از ایندکس شدن صفحات کار کند. با این حال، دستورالعمل‌های متا برای منابع چندرسانه‌ای، مانند فایل‌های PDF و تصاویر، به خوبی کار نمی‌کنند. اینجاست که robots.txt وارد عمل می شود.

نتیجه نهایی؟ Robots.txt به عنکبوت‌های موتورهای جستجو می‌گوید که صفحات خاصی را در وب‌سایت شما نخزند.

می توانید بررسی کنید که چند صفحه را در کنسول جستجوی گوگل ایندکس کرده اید .

robots-txt
robots-txt چیست؟

کنسول جستجوی گوگل – نمایه شده

اگر این شماره با تعداد صفحاتی که می‌خواهید ایندکس شوند مطابقت دارد، نیازی به زحمت فایل Robots.txt ندارید.

اما اگر این عدد بیشتر از چیزی است که انتظار داشتید (و متوجه URL های نمایه شده ای می شوید که نباید ایندکس شوند)، وقت آن است که یک فایل robots.txt برای وب سایت خود ایجاد کنید.

بهترین شیوه ها

یک فایل Robots.txt ایجاد کنید

اولین قدم شما این است که واقعاً فایل robots.txt خود را ایجاد کنید.

به عنوان یک فایل متنی، در واقع می توانید با استفاده از دفترچه یادداشت ویندوز یا همان notepad یک فایل ایجاد کنید.

و مهم نیست که در نهایت چگونه فایل robots.txt خود را می سازید، فرمت آن دقیقاً یکسان است:

عامل کاربر: X غیر مجاز
: Y

User-agent ربات خاصی است که شما با آن صحبت می کنید.

و هر چیزی که بعد از “عدم اجازه” dissallow می آید صفحات یا بخش هایی هستند که می خواهید مسدود کنید.

در اینجا یک مثال است:

عامل کاربر: googlebot غیر مجاز
: /images

این قانون به Googlebot می‌گوید که پوشه تصویر وب‌سایت شما را ایندکس نکند.

همچنین می‌توانید از یک ستاره (*) برای صحبت با همه ربات‌هایی که در وب‌سایت شما توقف می‌کنند استفاده کنید.

در اینجا یک مثال است:

عامل کاربر: * غیر مجاز
: /images

“*” به همه عنکبوت‌ها می‌گوید که پوشه تصاویر شما را نخزند.

این تنها یکی از راه های استفاده از فایل robots.txt است. این راهنمای مفید از Google اطلاعات بیشتری در مورد قوانین مختلفی دارد که می‌توانید از آنها برای مسدود کردن یا اجازه خزیدن ربات‌ها در صفحات مختلف سایت خود استفاده کنید.

قوانین مفید
پیدا کردن فایل Robots.txt خود را آسان کنید

هنگامی که فایل robots.txt خود را دارید، وقت آن است که آن را زنده کنید.

از نظر فنی می توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت خود قرار دهید.

اما برای افزایش شانس یافتن فایل robots.txt، توصیه می کنم آن را در این آدرس قرار دهید:

https://example.com/robots.txt

(توجه داشته باشید که فایل robots.txt شما به حروف کوچک و بزرگ حساس است. بنابراین مطمئن شوید که از یک “r” کوچک در نام فایل استفاده کنید)

خطاها و اشتباهات را بررسی کنید

این واقعاً مهم است که فایل robots.txt شما به درستی تنظیم شود. یک اشتباه و کل سایت شما ممکن است از فهرست خارج شود.

خوشبختانه، نیازی نیست امیدوار باشید که کد شما درست تنظیم شده باشد. گوگل یک ابزار تست ربات قوی دارد که می توانید از آن استفاده کنید:

Robots.txt – نتایج تست
فایل robots.txt شما را به شما نشان می دهد و هر خطا و هشداری را که پیدا می کند:

Robots.txt – خطاها
همانطور که می بینید، ما عنکبوت ها را از خزیدن در صفحه مدیریت WP خود مسدود می کنیم.

ما همچنین از robots.txt برای جلوگیری از خزیدن صفحات برچسب وردپرس تولید شده به صورت خودکار (برای محدود کردن محتوای تکراری ) استفاده می‌کنیم.

Robots.txt در مقابل دستورات متا

چرا وقتی می‌توانید صفحات را در سطح صفحه با متا تگ « noindex » مسدود کنید، از robots.txt استفاده می‌کنید؟

همانطور که قبلاً اشاره کردم، تگ noindex برای پیاده سازی روی منابع چندرسانه ای مانند فیلم ها و فایل های PDF دشوار است.

همچنین، اگر هزاران صفحه دارید که می‌خواهید آن‌ها را مسدود کنید، گاهی اوقات به‌جای افزودن دستی یک برچسب noindex به هر صفحه، مسدود کردن کل بخش آن سایت با robots.txt آسان‌تر است.

موارد لبه‌ای نیز وجود دارد که نمی‌خواهید بودجه خزیدن را در صفحاتی با تگ noindex هدر دهید.

که گفت:

خارج از این سه مورد لبه، توصیه می کنم به جای robots.txt از دستورات متا استفاده کنید. اجرای آنها راحت تر است. و احتمال وقوع فاجعه کمتری وجود دارد (مانند مسدود کردن کل سایت شما).

نویسنده
Picture of مدیر بلاگ
مدیر بلاگ

نظرات

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *