خانه » بلاگ » Robots.txt چیست؟ آشنایی و آموزش ساخت Robots.txt

Robots.txt چیست؟ آشنایی و آموزش ساخت Robots.txt

عماد چابک
اسفند 19, 1402
8 دیدگاه ها

میزان پیشرفت خواندن شما

روزانه سایت‌های بیشماری توسط ربات‌های گوگل و موتورهای جستجوگر دیگر بررسی و ایندکس می‌شوند. اکثر این ربات‌ها برای خزیدن در سایت‌ها به نقشه راه و مسیرهای ممنوعه نیاز دارند. فایل robots.txt اولین فایلی است که به استقبال این ربات‌ها می‌رود. اما فایل robots.txt چیست؟ فایل robots.txt چه کاربردی در سئو سایت دارد؟ محل قرارگیری و دستورات قابل اجرای آن چیست؟ با آموزش سئو می‌توانید به تمامی این سوالات در مورد robots.txt و اهمیت آن در سئو پاسخ دهید.

فایل robots.txt چیست؟

به فایلی که از مجموعه دستوراتی مختلف برای ربات‌ها تشکیل شده است؛ robots.txt می‌گویند. فایل robots.txt سایت در Root Directory یا مسیر اصلی سایت قرار می‌گیرد. از کاربرد عمده این فایل‌ها می‌توان به مدیریت فعالیت‌های ربات‌ها و خزنده‌های خوب اشاره کرد. زیرا ربات‌هایی که فعالیت‌های مخرب انجام می‌دهند پیرو این دستورات نیستند.

فایل robots.txt همانند یک آیین‌نامه اخلاقی در بستر اینترنت و برای ربات‌ها است. ربات‌های خوب موارد ذکر شده در آیین‌نامه را رعایت می‌کنند اما ربات‌های بد نسبت به آن‌ها بی توجه‌اند. این ربات‌ها به احتمال زیاد از دستورات تعریف شده سرپیچی می‌کنند و بن می‌شوند. اما سوال اصلی آن است که فایل robots.txt چیست؟

دستورات robots.txt
User-agent
Allow
Disallow
Crawl-delay
Sitemap

این فایل با استفاده از دستورات نوشته شده در خود، خزنده‌های موتور جستجوگر را مطلع می‌کنند تا به گروهی از صفحات سایت مراجعه نکنند. اکثر موتورهای جستجو مانند گوگل، Bing و یاهو دستورات این فایل را تشخیص می‌دهند.

فایل robots.txt چه کاربردی در سئو سایت دارد و چگونه کار می‌کند؟

Robots.txt تنها یک فایل متنی ساده با پسوند “.txt” بوده و نشانه‌گذاری Html ندارد. این فایل‌ها بر روی هاست سایت‌ها آپلود می‌شوند و هیچ پیوندی با بخش‌های دیگر سایت ندارند. کاربران عادی در حالت عادی برخوردی با این فایل نخواهند داشت. اما اولین فایلی که ربات‌ها هنگام خزیدن و ایندکس کردن سایت‌ها بررسی می‌کند؛ فایل robots.txt است.

ربات‌های موجود در بستر اینترنت به دو دسته خوب یا بد تقسیم می‌شوند. ربات‌های خوب در اولین گام دستورات robots.txt را بررسی می‌کنند و بر اساس آن‌ها بخش‌های قابل دسترس را ایندکس می‌کنند. ربات‌های مخرب یا بد برخلاف ربات‌های خوب، نه تنها این فایل را نادیده گرفته، به دستورات آن نیز عمل نمی‌کنند.

به خاطر داشته باشید که همه زیردامنه‌ها یا ساب دامین‌های یک سایت به ایجاد و تنظیم robots.txt نیاز دارند. به عنوان مثال سایت www.seo.com فایل مخصوص به خود را داشته و زیر مجموعه‌های آن نیز مانند blog.seo.com، community.seo.com نیاز به فایل مختص به خود را دارند.

اهمیت وجود فایل robots.txt

همان‌طور که مطالعه کردید در بستر اینترنت دو نوع ربات خوب و بد وجود دارد. از نمونه‌های ربات خوب می‌توان به خزندگان وب اشاره کرد. این ربات‌ها با خزیدن در صفحات مختلف سایت‌ها محتوای آن را در دسترس موتورهای جستجوگر قرار می‌دهند و صفحه آن را ایندکس می‌کند. این فایل متنی ساده با مدیریت ربات‌ها از ایجاد ترافیک و شلوغ شدن سرور هاست سایت جلوگیری می‌کند.

برای درک اهمیت وجود این فایل باید به پاسخ سوال فایل robots.txt چه کاربردی در سئو سایت دارد؛ دست یابید.

مطالب مرتبط استراکچر دیتا؛ با داده‌ های ساختار یافته به دنیای جستجوی معنایی قدم بگذارید!

بلاک کردن صفحات خصوصی

هر سایتی شامل صفحاتی بوده که از نظر سئو یا محتوا ارزش چندانی ندارد و نباید ایندکس شوند. به عنوان مثال وجود صفحه لاگین برای هر سایت ضروری بوده اما هر کسی نباید اجازه دسترسی به آن را داشته باشد. در این شرایط با استفاده از فایل robots.txt می‌توانید از خزندگان سطح وب خواهش کنید که این صفحات را نادیده بگیرند و تنها بخش‌های قابل دسترس را ایندکس کنند.

مدیریت و بهینه سازی Crawl Budget

اگر برای ایندکس شدن صفحات سایت خود دچار مشکل شده‌اید؛ ممکن است از مشکلات بودجه خزش رنج ببرید. Crawl Budget به تعداد صفحاتی گفته می‌شوند که ربات‌های گوگل در یک روز آن‌ها را بررسی کرده و ایندکس می‌شوند. این عدد خود به عوامل دیگری وابسته بوده و با توجه به آن‌ها تغییر می‌کند. عدم استفاده از این کاربرد فایل robots.txt می‌تواند ضررهای جبران ناپذیری برای عملکرد سایت به همراه داشته باشد.

شرایطی را تصور کنید که یک سایت دارای حجم بالایی از صفحات مختلف بوده و روزانه ترافیک بالایی توسط هزاران کاربر دارد. در صورت عدم استفاده از دستورات robots.txt ترافیک بالایی از ربات‌های خزنده نیز به این آمار اضافه خواهد شد که می‌توانند به عملکرد سایت آسیب وارد کند. با بلاک کردن یا از دسترس خارج کردن صفحاتی که از نظر سئو و کسب رتبه اهمیتی ندارند؛ ربات گوگل، زمان بیشتری را برای بررسی و ایندکس کردن بخش‌هایی که اهمیت بیشتری دارند؛ صرف می‌کند.

جلوگیری کردن از ایندکس شدن منابع سایت

علاوه بر فایل robots.txt دستورات Meta Directive یا متاتگ‌ها نیز می‌توانند در مسدود کردن ربات‌های خزنده نقش مهمی ایفا کنند. این دستورات همانند فایل متنی robots.txt از ایندکس شدن منابع و صفحاتی که ارزش بالایی ندارد، جلوگیری می‌کنند. اما از ضعف این دستورات می‌توان به کار نکردن آن‌ها برای مسدود کردن منابع چند رسانه‌ای اشاره کرد. متاتگ‌ها نمی‌توانند از ایندکس شدن فایل‌هایی مانند pdf و عکس جلوگیری کنند؛ بنابراین در این شرایط با تنظیم robots.txt از ایندکس شدن آن‌ها جلوگیری کرد.

محل قرارگیری فایل robots.txt

فایل robots.txt سایت در مسیر Root Directory ذخیره می‌شود. برای پیدا کردن آن کافی است به صفحه cPanel سایت خود مراجعه کنید. در قسمت مدیریت فایل سی پنل می‌توانید یک فایل با نام “public_html” پیدا کنید. حجم این فایل بسیار کم بوده و پس از باز کردن آن، با فایل متنی ساده رو به رو خواهید شد. اگر چنین فایلی را پیدا نکردید؛ باید یک فایل متنی ساده با نام “robots.txt” که حاوی دستورات مختلف است در مسیر اصلی سایت، آپلود کنید. هنگام ساخت فایل robots.txt دقت نمایید که نام آن با حروف کوچک نوشته شده باشد.

دستورات robots.txt

فایل robots.txt برای مشخص کردن بخش‌های غیر قابل دسترس یک سایت نیاز به تعدادی دستورات پیش فرض دارد. از دستورات robots.txt می‌توان به موارد زیر اشاره کرد.

User-agent
Allow
Disallow
Crawl-delay
Sitemap

مفهوم و کاربرد “User-agent”

وبمسترها در فایل robots.txt می‌توانند برای ربات‌های مختلف، دستورالعمل‌های مختص به خود را تعریف کنند. به عنوان مثال فرد می‌خواهد یک صفحه مشخص در دسترس موتورهای جستجوگر گوگل باشد اما موتورهای Bing، به آن دسترسی نداشته باشند. برای انجام این کار کافی است که دو دستور با user-agent مختلف در نمونه فایل robots txt نوشته شود. یک دستور برای ربات‌های گوگل و دیگری برای ربات‌های Bing عمل خواهد کرد. نام ربات‌های پرکاربرد موتورهای جستجوگر شامل موارد زیر می‌شود:

Googlebot
Googlebot-Image (برای تصاویر)
Googlebot-News (مرتبط با اخبار)
Googlebot-Video (ویژه ویدیوها)
Bingbot (ربات موتور جستجوگر Bing)
MSNBot-Media (برای ویدیو و تصاویر)

مطالب مرتبط سئو عکس: 7 گام مهم بهینه سازی تصاویر برای گوگل

دستور “user-agent:*” در فایل robots txt

گاهی اوقات سئوکاران از برگ برنده خود استفاده کرده و با استفاده از این فایل، تمامی ربات‌ها را برای دسترسی به بخش‌های مختلف مسدود می‌کنند. برای انجام این کار کافی است که در نمونه فایل robots.txt در برابر دستور User-agent، علامت “*” را قرار دهند. این دستور به معنای آن است که اکثر ربات‌های خزنده بستر وب، صفحه مشخص شده را نادیده خواهند گرفت.

چگونگی عملکرد دستور “Disallow”

دستور disallow یکی از پرکاربردترین دستورات در فایل robots.txt است. بخش‌هایی از سایت که از دسترس ربات‌ها خارج می‌شوند؛ برای کاربر مخفی نخواهد شد. اکثر اوقات کاربران می‌توانند به این صفحات دسترسی پیدا کنند اگر از نحوه پیدا کردن آن‌ها آگاه باشند.

دستور Disallow به چند روش مختلف در نمونه فایل robots txt قابل اجرا است. از مثال‌های آن می‌توان به موارد زیر اشاره کرد:

بلاک کردن یه صفحه

هنگامی که بخواهید یک مقاله یا یک صفحه از سایت خود را از دسترس خارج کنید؛ کافی است آدرس url آن را مقابل دستور Disallow قرار دهید. به عنوان مثال اگر آدرس صفحه مورد نظر شما www.seo.com/learning/what-is-robotstxt باشد؛ عبارت‌های نوشته شده پس از دامنه اصلی، آدرس پیچ مورد نظر است.

Disallow: /learning/what-is-robotstxt/

با اعمال شدن این دستور، ربات‌های خوب این صفحه را نادیده گرفته و ایندکس نمی‌شود.

بلاک کردن یک مسیر

گاهی اوقات مسدود کردن چند صفحه به صورت همزمان راهکاری مؤثرتر در مقایسه با مسدود کردن جداگانه آن‌ها است. اگر صفحات مورد نظر در یک بخش قرار گرفته باشند؛ با استفاده از فایل robots.txt می‌توان Root Directory مختص به آن را مسدود کرد. در این صورت ربات‌های خزنده این مجموعه از صفحات وب را مورد بررسی قرار نخواهند داد.

دسترسی کامل

اگر می‌خواهید تمامی صفحات سایت قابل بررسی و ایندکس شدن باشند؛ کافی است در مقابل دستور Disallow هیچ مقداری، قرار ندهید.

از دسترس خارج کردن کل سایت

دقت کنید که علامت “/” در دستور Disallow به معنای “ریشه” و مسیر مادری است که همه صفحات سایت از آن منشعب می‌شوند. قرارگرفتن علامت “/” دربرابر این دستور نشان‌دهنده آن است که تمامی صفحات اصلی و صفحات پیوند شده از دسترس ربات‌های موتورهای جستجوگر خارج خواهد شد. در این صورت کل سایت از محدوده دید و جستجوی موتورهایی مانند گوگل ناپدید می‌شود.

دستور “Allow” در فایل robots.txt

همان‌طور که از نام آن مشخص است؛ با استفاده از دستور “allow” می‌توانید یک صفحه مشخص از میان صفحات مسدود شده را در اختیار ربات‌های جستجوگر قراردهید. به خاطر داشته باشید که بعضی از موتورهای جستجوگر قابلیت تشخیص این دستور را ندارند.

Crawl-delay در دستورات robots txt

دستور Crawl-delay در فایل robots txt برای جلوگیری از تعداد درخواست‌های زیاد توسط ربات‌ها استفاده می‌شود. وبمسترها با استفاده از این دستور می‌توانند به طور دقیق مشخص کنند که میان هر درخواست ربات، چند میلی ثانیه وقفه وجود داشته باشد. دستور نرخ تاخیر بر روی ربات‌های گوگل موثر نبوده و برای تنظیم این زمان برای ربات‌های گوگل باید به کنسول جستجوی گوگل مراجعه کنید.

پیش از استفاده از دستور Crawl-delay توجه داشته باشید که حجم صفحات سایت شما چقدر بوده و آیا استفاده از این دستور در فایل robots.txt، اقدامی مناسب است؟ گاهی اوقات عدم توجه به این نکات و اعمال این دستور باعث می‌شود که به سئو سایت آسیب وارد شود.

مطالب مرتبط درآمد سئوکار در ایران چقدر است؟

دسترسی به فایل Sitemap

فایل XML نقشه سایت به ربات‌ها کمک می‌کند تا از مسیر خزیدن و بررسی خود مطلع شوند. فایل نقشه سایت تنها اطمینان حاصل می‌کند که ربات‌ها صفحه‌ای را فراموش نخواهند کرد. همچنین این فایل‌ها اولویت‌بندی برای ربات‌ها تعریف نمی‌کنند.

فایل robots.txt برای وردپرس

وردپرس نیز دارای یک فایل مجازی از robots.txt بوده که به صورت پیش فرض عمل می‌کند. برای مشاهده این فایل کافی است در انتهای دامنه اصلی سایت خود عبارت “robots.txt/” را تایپ کرده و جستجو کنید. صفحه باز شده نشان‌دهنده دستورهای مختلف موجود در فایل مجازی robots.txt است.

اگر قصد ویرایش مقادیر و دستورات این فایل را دارید؛ باید یک فایل متنی با نام robots.txt و حروف کوچک در مسیر اصلی سایت آپلود کنید تا دستورات مورد نظر شما اجرا شود. با آپلود فایل فیزیکی، به صورت خودکار فایل مجازی وردپرس از دسترس خارج خواهد شد.

ساخت فایل robots.txt، اقدامی آسان اما گامی موثر در سئو

robots.txt فایل متنی ساده در مسیر اصلی سایت بوده که نقشه سایت و بخش‌های قابل دسترس را برای ربات‌های خزنده مشخص می‌کند. عدم استفاده از این فایل ساده در سایت‌هایی با ترافیک بالا، می‌تواند ضررهای جبران ناپذیری برای سئو سایت به همراه داشته باشد؛ بنابراین با آموزش سئو و مطالعه تمامی دستورات و دستورالعمل‌های فایل robots.txt می‌توانید ایندکس شدن سایت خود را بهینه کنید.هم‌چنین می‌توانید با مراجعه به صفحه “دوره جامع سئو“ از آموزش‌های کاربردی و جذاب ما بهره‌مند شوید.

سؤالات متداول

1- فایل Robots.txt چیست؟

✅ فایل Robots.txt درحقیقت یک فایل متنی ساده است که در مسیر اصلی هاست سایت شما یا روت دایرکتوری (Root Directory) قرار می‌گیرد. در واقع وظیفه این فایل معرفی قسمت‌های قابل دسترسی و بخش‌های محدود شده برای دسترسی ربات‌ها یا با تعریفی بهتر، خزندگان سطح وب (Web Crawlers) که از سوی گوگل به منظور بررسی و ثبت اطلاعات سایت‌ها ایجاد شده اند می‌باشد.

2- چرا به فایل robots.txt نیاز دارید؟

✅ Robots.txt فایل ضروری وب سایت شما نیست، اما یک فایل بهینه سازی شده می تواند از چند لحاظ برای سایت شما مفید باشد. نکته مهمتر اینکه، به شما کمک میکند تا بودجه خزش سایت خود را بهینه کنید.

3- در صورت اضافه نکردن فایل Robots.txt چه اتفاقی برای سایت ما رخ میدهد؟

✅ اگر این فایل در فضای هاست سایت شما بارگزاری نشده باشد، خزندگان و ربات‌های گوگل امکان دسترسی به تمام صفحات سایت شما را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.

5/5 :2 رای

0/5 (0 نظر)

31 اردیبهشت

مقالات آموزش سئو, مقالات سئو داخلی

سئو داخلی چیست؟ 15 فاکتور موثر سئو داخلی سایت

خرداد 1, 1403
ارسال شده توسط عماد چابک
4 نظر

سئو داخلی چیست؟ همانطور که در مقاله آموزش سئو و سئو چیست آموختیم، به اقداما...

ادامه مطلب

29 فروردین

مقالات طراحی سایت

آموزش طراحی سایت

فروردین 29, 1403
ارسال شده توسط فاطمه راه پیمای
2 نظر

یکی از مهارت‌هایی که در دنیای امروز، می‌تواند به‌راحتی برای افراد پول‌سازی ...

ادامه مطلب

27 فروردین

مقالات هوش مصنوعی

بهترین برنامه هوش مصنوعی تغییر چهره

فروردین 27, 1403
ارسال شده توسط فاطمه راه پیمای
0 نظر

تصور کنید که بتوانید به سادگی با یک سلفی، چهره خود را به چهره یک شخصیت معرو...

ادامه مطلب

8 نظر در “Robots.txt چیست؟ آشنایی و آموزش ساخت Robots.txt”

rahman گفت:

شهریور 27, 1401 در 21:11

تو فایل روبوت ما میتونیم دسترسی ربات ها ب عکس یا فیلم های سایت رو ببنیدیم که ایندکس نشن؟

پاسخ
1. پشتیبانی دی ام روم گفت:
  
  شهریور 29, 1401 در 10:54
  
  سلام وقتتون بخیر
  بله می تونید
  
  پاسخ
2. غفاریان گفت:
  
  مهر 13, 1401 در 23:10
  
  دوست عزیز برای اینکار بسیار دقت کنید
  چون کوچکترین اشتباه میتونه سئو سایت رو بهم بریزه
  
  پاسخ
  1. پشتیبانی دی ام روم گفت:
    
    مهر 15, 1401 در 17:36
    
    سلام وقتتون بخیر
    🙌👍
    
    پاسخ
هلی گفت:

شهریور 26, 1401 در 02:12

سلام و درود
من چند روز پیش برای تست جلوی دیس الو اسلش / زدم
الان میبینم که کل سایت از ایندکس در اومده
هرچی دستور ایندکس میزنم درست نمیشه چی کار کنم

پاسخ
1. پشتیبانی دی ام روم گفت:
  
  شهریور 30, 1401 در 17:27
  
  سلام وقتتون بخیر
  خب شما به متورهای جستجو اینطوری گفتین که ایندکس نکنه سایت رو کافیه فایل ربوتس خودتون رو تصحیح کنید.
  
  پاسخ
موسی رضا گفت:

شهریور 21, 1401 در 02:23

خسته نباشید یه سوال داشتم میشه داخل روبوت نقشه سایتم قرار بدیم؟ تاثیر مثبت داره ؟

پاسخ
1. پشتیبانی دی ام روم گفت:
  
  شهریور 30, 1401 در 18:06
  
  سلام وقتتون بخیر
  بله به گوگل کمک میکنه زودتر پیدا کنه
  
  پاسخ

دیدگاهتان را بنویسید لغو پاسخ

فهرست محتوا

Robots.txt چیست؟ آشنایی و آموزش ساخت Robots.txt

فایل robots.txt چیست؟

فایل robots.txt چه کاربردی در سئو سایت دارد و چگونه کار می‌کند؟