فایل robots.txt

Robots.txt چیست؟ آشنایی و آموزش ساخت Robots.txt

فهرست محتوا

میزان پیشرفت خواندن شما

مقدمه

روزانه سایت‌های بیشماری توسط ربات‌های گوگل و موتورهای جستجوگر دیگر بررسی و ایندکس می‌شوند. اکثر این ربات‌ها برای خزیدن در سایت‌ها به نقشه راه و مسیرهای ممنوعه نیاز دارند. فایل robots.txt اولین فایلی است که به استقبال این ربات‌ها می‌رود. اما فایل robots.txt چیست؟ فایل robots.txt چه کاربردی در سئو سایت دارد؟ محل قرارگیری و دستورات قابل اجرای آن چیست؟ با آموزش سئو می‌توانید به تمامی این سوالات در مورد robots.txt و اهمیت آن در سئو پاسخ دهید.

فایل robots.txt چیست؟

به فایلی که از مجموعه دستوراتی مختلف برای ربات‌ها تشکیل شده است؛ robots.txt می‌گویند. فایل robots.txt سایت در Root Directory یا مسیر اصلی سایت قرار می‌گیرد. از کاربرد عمده این فایل‌ها می‌توان به مدیریت فعالیت‌های ربات‌ها و خزنده‌های خوب اشاره کرد. زیرا ربات‌هایی که فعالیت‌های مخرب انجام می‌دهند پیرو این دستورات نیستند.

فایل robots.txt همانند یک آیین‌نامه اخلاقی در بستر اینترنت و برای ربات‌ها است. ربات‌های خوب موارد ذکر شده در آیین‌نامه را رعایت می‌کنند اما ربات‌های بد نسبت به آن‌ها بی توجه‌اند. این ربات‌ها به احتمال زیاد از دستورات تعریف شده سرپیچی می‌کنند و بن می‌شوند. اما سوال اصلی آن است که فایل robots.txt چیست؟

این فایل با استفاده از دستورات نوشته شده در خود، خزنده‌های موتور جستجوگر را مطلع می‌کنند تا به گروهی از صفحات سایت مراجعه نکنند. اکثر موتورهای جستجو مانند گوگل، Bing و یاهو دستورات این فایل را تشخیص می‌دهند.

فایل robots.txt چیست؟

 

فایل robots.txt چه کاربردی در سئو سایت دارد و چگونه کار می‌کند؟

Robots.txt تنها یک فایل متنی ساده با پسوند “.txt” بوده و نشانه‌گذاری Html ندارد. این فایل‌ها بر روی هاست سایت‌ها آپلود می‌شوند و هیچ پیوندی با بخش‌های دیگر سایت ندارند. کاربران عادی در حالت عادی برخوردی با این فایل نخواهند داشت. اما اولین فایلی که ربات‌ها هنگام خزیدن و ایندکس کردن سایت‌ها بررسی می‌کند؛ فایل robots.txt است.

ربات‌های موجود در بستر اینترنت به دو دسته خوب یا بد تقسیم می‌شوند. ربات‌های خوب در اولین گام دستورات robots.txt را بررسی می‌کنند و بر اساس آن‌ها بخش‌های قابل دسترس را ایندکس می‌کنند. ربات‌های مخرب یا بد برخلاف ربات‌های خوب، نه تنها این فایل را نادیده گرفته، به دستورات آن نیز عمل نمی‌کنند.

به خاطر داشته باشید که همه زیردامنه‌ها یا ساب دامین‌های یک سایت به ایجاد و تنظیم robots.txt نیاز دارند. به عنوان مثال سایت www.seo.com فایل مخصوص به خود را داشته و زیر مجموعه‌های آن نیز مانند blog.seo.com، community.seo.com نیاز به فایل مختص به خود را دارند.

فایل robots.txt چه کاربردی در سئو سایت دارد و چگونه کار می‌کند؟

 

اهمیت وجود فایل robots.txt

همان‌طور که مطالعه کردید در بستر اینترنت دو نوع ربات خوب و بد وجود دارد. از نمونه‌های ربات خوب می‌توان به خزندگان وب اشاره کرد. این ربات‌ها با خزیدن در صفحات مختلف سایت‌ها محتوای آن را در دسترس موتورهای جستجوگر قرار می‌دهند و صفحه آن را ایندکس می‌کند. این فایل متنی ساده با مدیریت ربات‌ها از ایجاد ترافیک و شلوغ شدن سرور هاست سایت جلوگیری می‌کند.

برای درک اهمیت وجود این فایل باید به پاسخ سوال فایل robots.txt چه کاربردی در سئو سایت دارد؛ دست یابید.

بلاک کردن صفحات خصوصی

هر سایتی شامل صفحاتی بوده که از نظر سئو یا محتوا ارزش چندانی ندارد و نباید ایندکس شوند. به عنوان مثال وجود صفحه لاگین برای هر سایت ضروری بوده اما هر کسی نباید اجازه دسترسی به آن را داشته باشد. در این شرایط با استفاده از فایل robots.txt می‌توانید از خزندگان سطح وب خواهش کنید که این صفحات را نادیده بگیرند و تنها بخش‌های قابل دسترس را ایندکس کنند.

مطالب پیشنهادی:
GTmetrix چیست؟ افزایش سرعت سایت با جی تی متریکس

مدیریت و بهینه سازی Crawl Budget

اگر برای ایندکس شدن صفحات سایت خود دچار مشکل شده‌اید؛ ممکن است از مشکلات بودجه خزش رنج ببرید. Crawl Budget به تعداد صفحاتی گفته می‌شوند که ربات‌های گوگل در یک روز آن‌ها را بررسی کرده و ایندکس می‌شوند. این عدد خود به عوامل دیگری وابسته بوده و با توجه به آن‌ها تغییر می‌کند. عدم استفاده از این کاربرد فایل robots.txt می‌تواند ضررهای جبران ناپذیری برای عملکرد سایت به همراه داشته باشد.

شرایطی را تصور کنید که یک سایت دارای حجم بالایی از صفحات مختلف بوده و روزانه ترافیک بالایی توسط هزاران کاربر دارد. در صورت عدم استفاده از دستورات robots.txt ترافیک بالایی از ربات‌های خزنده نیز به این آمار اضافه خواهد شد که می‌توانند به عملکرد سایت آسیب وارد کند. با بلاک کردن یا از دسترس خارج کردن صفحاتی که از نظر سئو و کسب رتبه اهمیتی ندارند؛ ربات گوگل، زمان بیشتری را برای بررسی و ایندکس کردن بخش‌هایی که اهمیت بیشتری دارند؛ صرف می‌کند.

جلوگیری کردن از ایندکس شدن منابع سایت

علاوه بر فایل robots.txt دستورات Meta Directive  یا متاتگ‌ها نیز می‌توانند در مسدود کردن ربات‌های خزنده نقش مهمی ایفا کنند. این دستورات همانند فایل متنی robots.txt از ایندکس شدن منابع و صفحاتی که ارزش بالایی ندارد، جلوگیری می‌کنند. اما از ضعف این دستورات می‌توان به کار نکردن آن‌ها برای مسدود کردن منابع چند رسانه‌ای اشاره کرد. متاتگ‌ها نمی‌توانند از ایندکس شدن فایل‌هایی مانند pdf و عکس جلوگیری کنند؛ بنابراین در این شرایط با تنظیم robots.txt از ایندکس شدن آن‌ها جلوگیری کرد.

اهمیت وجود فایل robots.txt

 

محل قرارگیری فایل robots.txt

فایل robots.txt سایت در مسیر Root Directory ذخیره می‌شود. برای پیدا کردن آن کافی است به صفحه cPanel سایت خود مراجعه کنید. در قسمت مدیریت فایل سی پنل می‌توانید یک فایل با نام “public_html” پیدا کنید. حجم این فایل بسیار کم بوده و پس از باز کردن آن، با فایل متنی ساده رو به رو خواهید شد. اگر چنین فایلی را پیدا نکردید؛ باید یک فایل متنی ساده با نام “robots.txt” که حاوی دستورات مختلف است در مسیر اصلی سایت، آپلود کنید. هنگام ساخت فایل robots.txt دقت نمایید که نام آن با حروف کوچک نوشته شده باشد.

محل قرارگیری فایل robots.txt

 

دستورات robots.txt

فایل robots.txt برای مشخص کردن بخش‌های غیر قابل دسترس یک سایت نیاز به تعدادی دستورات پیش فرض دارد. از دستورات robots.txt می‌توان به موارد زیر اشاره کرد.

  • User-agent
  • Allow
  • Disallow
  • Crawl-delay
  • Sitemap

دستورات robots.txt

 

مفهوم و کاربرد “User-agent”

وبمسترها در فایل robots.txt می‌توانند برای ربات‌های مختلف، دستورالعمل‌های مختص به خود را تعریف کنند. به عنوان مثال فرد می‌خواهد یک صفحه مشخص در دسترس موتورهای جستجوگر گوگل باشد اما موتورهای Bing، به آن دسترسی نداشته باشند. برای انجام این کار کافی است که دو دستور با user-agent مختلف در نمونه فایل robots txt نوشته شود. یک دستور برای ربات‌های گوگل و دیگری برای ربات‌های Bing عمل خواهد کرد. نام ربات‌های پرکاربرد موتورهای جستجوگر شامل موارد زیر می‌شود:

  • Googlebot
  • Googlebot-Image (برای تصاویر)
  • Googlebot-News (مرتبط با اخبار)
  • Googlebot-Video (ویژه ویدیوها)
  • Bingbot (ربات موتور جستجوگر Bing)
  • MSNBot-Media (برای ویدیو و تصاویر)
مطالب پیشنهادی:
lcp چیست؟ آموزش 10 روش برای بهبود lcp سایت در موبایل و دسکتاپ

مفهوم و کاربرد "User-agent"

دستور “user-agent:*” در فایل robots txt

گاهی اوقات سئوکاران از برگ برنده خود استفاده کرده و با استفاده از این فایل، تمامی ربات‌ها را برای دسترسی به بخش‌های مختلف مسدود می‌کنند. برای انجام این کار کافی است که در نمونه فایل robots.txt در برابر دستور User-agent، علامت “*” را قرار دهند. این دستور به معنای آن است که اکثر ربات‌های خزنده بستر وب، صفحه مشخص شده را نادیده خواهند گرفت.

چگونگی عملکرد دستور “Disallow”

دستور disallow یکی از پرکاربردترین دستورات در فایل robots.txt است. بخش‌هایی از سایت که از دسترس ربات‌ها خارج می‌شوند؛ برای کاربر مخفی نخواهد شد. اکثر اوقات کاربران می‌توانند به این صفحات دسترسی پیدا کنند اگر از نحوه پیدا کردن آن‌ها آگاه باشند.

دستور Disallow به چند روش مختلف در نمونه فایل robots txt قابل اجرا است. از مثال‌های آن می‌توان به موارد زیر اشاره کرد:

بلاک کردن یه صفحه

هنگامی که بخواهید یک مقاله یا یک صفحه از سایت خود را از دسترس خارج کنید؛ کافی است آدرس url آن را مقابل دستور Disallow قرار دهید. به عنوان مثال اگر آدرس صفحه مورد نظر شما www.seo.com/learning/what-is-robotstxt باشد؛ عبارت‌های نوشته شده پس از دامنه اصلی، آدرس پیچ مورد نظر است.

Disallow: /learning/what-is-robotstxt/

با اعمال شدن این دستور، ربات‌های خوب این صفحه را نادیده گرفته و ایندکس نمی‌شود.

چگونگی عملکرد دستور "Disallow"

 

بلاک کردن یک مسیر

گاهی اوقات مسدود کردن چند صفحه به صورت همزمان راهکاری مؤثرتر در مقایسه با مسدود کردن جداگانه آن‌ها است. اگر صفحات مورد نظر در یک بخش قرار گرفته باشند؛ با استفاده از فایل robots.txt می‌توان Root Directory مختص به آن را مسدود کرد. در این صورت ربات‌های خزنده این مجموعه از صفحات وب را مورد بررسی قرار نخواهند داد.

دسترسی کامل

اگر می‌خواهید تمامی صفحات سایت قابل بررسی و ایندکس شدن باشند؛ کافی است در مقابل دستور Disallow هیچ مقداری، قرار ندهید.

از دسترس خارج کردن کل سایت

دقت کنید که علامت “/” در دستور Disallow به معنای “ریشه” و مسیر مادری است که همه صفحات سایت از آن منشعب می‌شوند. قرارگرفتن علامت “/” دربرابر این دستور نشان‌دهنده آن است که تمامی صفحات اصلی و صفحات پیوند شده از دسترس ربات‌های موتورهای جستجوگر خارج خواهد شد. در این صورت کل سایت از محدوده دید و جستجوی موتورهایی مانند گوگل ناپدید می‌شود.

دستور “Allow” در فایل robots.txt

همان‌طور که از نام آن مشخص است؛ با استفاده از دستور “allow” می‌توانید یک صفحه مشخص از میان صفحات مسدود شده را در اختیار ربات‌های جستجوگر قراردهید. به خاطر داشته باشید که بعضی از موتورهای جستجوگر قابلیت تشخیص این دستور را ندارند.

Crawl-delay در دستورات robots txt

دستور Crawl-delay در فایل robots txt برای جلوگیری از تعداد درخواست‌های زیاد توسط ربات‌ها استفاده می‌شود. وبمسترها با استفاده از این دستور می‌توانند به طور دقیق مشخص کنند که میان هر درخواست ربات، چند میلی ثانیه وقفه وجود داشته باشد. دستور نرخ تاخیر بر روی ربات‌های گوگل موثر نبوده و برای تنظیم این زمان برای ربات‌های گوگل باید به کنسول جستجوی گوگل مراجعه کنید.

مطالب پیشنهادی:
ttfb چیست؟ 7 تکنیک کاربردی برای بهبود Time To First Byte سایت

پیش از استفاده از دستور Crawl-delay توجه داشته باشید که حجم صفحات سایت شما چقدر بوده و آیا استفاده از این دستور در فایل robots.txt، اقدامی مناسب است؟ گاهی اوقات عدم توجه به این نکات و اعمال این دستور باعث می‌شود که به سئو سایت آسیب وارد شود.

Crawl-delay در دستورات robots txt

 

دسترسی به فایل Sitemap

فایل XML نقشه سایت به ربات‌ها کمک می‌کند تا از مسیر خزیدن و بررسی خود مطلع شوند. فایل نقشه سایت تنها اطمینان حاصل می‌کند که ربات‌ها صفحه‌ای را فراموش نخواهند کرد. همچنین این فایل‌ها اولویت‌بندی برای ربات‌ها تعریف نمی‌کنند.

فایل robots.txt برای وردپرس

وردپرس نیز دارای یک فایل مجازی از robots.txt بوده که به صورت پیش فرض عمل می‌کند. برای مشاهده این فایل کافی است در انتهای دامنه اصلی سایت خود عبارت “robots.txt/” را تایپ کرده و جستجو کنید. صفحه باز شده نشان‌دهنده دستورهای مختلف موجود در فایل مجازی robots.txt است.

اگر قصد ویرایش مقادیر و دستورات این فایل را دارید؛ باید یک فایل متنی با نام robots.txt و حروف کوچک در مسیر اصلی سایت آپلود کنید تا دستورات مورد نظر شما اجرا شود. با آپلود فایل فیزیکی، به صورت خودکار فایل مجازی وردپرس از دسترس خارج خواهد شد.

فایل robots.txt برای وردپرس

 

ساخت فایل robots.txt، اقدامی آسان اما گامی موثر در سئو

robots.txt فایل متنی ساده در مسیر اصلی سایت بوده که نقشه سایت و بخش‌های قابل دسترس را برای ربات‌های خزنده مشخص می‌کند. عدم استفاده از این فایل ساده در سایت‌هایی با ترافیک بالا، می‌تواند ضررهای جبران ناپذیری برای سئو سایت به همراه داشته باشد؛ بنابراین با آموزش سئو و مطالعه تمامی دستورات و دستورالعمل‌های فایل robots.txt می‌توانید ایندکس شدن سایت خود را بهینه کنید.


سؤالات متداول

1- فایل Robots.txt چیست؟

✅ فایل Robots.txt درحقیقت یک فایل متنی ساده است که در مسیر اصلی هاست سایت شما یا روت دایرکتوری (Root Directory) قرار می‌گیرد. در واقع وظیفه این فایل معرفی قسمت‌های قابل دسترسی و بخش‌های محدود شده برای دسترسی ربات‌ها یا با تعریفی بهتر، خزندگان سطح وب (Web Crawlers) که از سوی گوگل به منظور بررسی و ثبت اطلاعات سایت‌ها ایجاد شده اند می‌باشد.

2- چرا به فایل robots.txt نیاز دارید؟

✅ Robots.txt فایل ضروری وب سایت شما نیست، اما یک فایل بهینه سازی شده می تواند از چند لحاظ برای سایت شما مفید باشد. نکته مهمتر اینکه، به شما کمک میکند تا بودجه خزش سایت خود را بهینه کنید.

3- در صورت اضافه نکردن فایل Robots.txt چه اتفاقی برای سایت ما رخ میدهد؟

✅ اگر این فایل در فضای هاست سایت شما بارگزاری نشده باشد، خزندگان و ربات‌های گوگل امکان دسترسی به تمام صفحات سایت شما را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.

0/5 (0 نظر)

8 نظر در “Robots.txt چیست؟ آشنایی و آموزش ساخت Robots.txt

  1. موسی رضا گفت:

    خسته نباشید یه سوال داشتم میشه داخل روبوت نقشه سایتم قرار بدیم؟ تاثیر مثبت داره ؟

    1. سلام وقتتون بخیر
      بله به گوگل کمک میکنه زودتر پیدا کنه

  2. هلی گفت:

    سلام و درود
    من چند روز پیش برای تست جلوی دیس الو اسلش / زدم
    الان میبینم که کل سایت از ایندکس در اومده
    هرچی دستور ایندکس میزنم درست نمیشه چی کار کنم

    1. سلام وقتتون بخیر
      خب شما به متورهای جستجو اینطوری گفتین که ایندکس نکنه سایت رو کافیه فایل ربوتس خودتون رو تصحیح کنید.

  3. rahman گفت:

    تو فایل روبوت ما میتونیم دسترسی ربات ها ب عکس یا فیلم های سایت رو ببنیدیم که ایندکس نشن؟

    1. سلام وقتتون بخیر
      بله می تونید

    2. غفاریان گفت:

      دوست عزیز برای اینکار بسیار دقت کنید
      چون کوچکترین اشتباه میتونه سئو سایت رو بهم بریزه

      1. سلام وقتتون بخیر
        🙌👍

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فهرست محتوای

ورود

حساب کاربری ندارید؟

برای دیدن نوشته هایی که دنبال آن هستید تایپ کنید.