6 مشکل رایج Robots.txt و نحوه رفع آنها

رایج‌ترین مشکلات robots.txt، تأثیری که می‌توانند بر وب‌سایت شما و حضور جستجوی شما داشته باشند، و نحوه رفع آن‌ها را کشف کنید.
Robots.txt یک ابزار مفید و نسبتا قدرتمند برای آموزش خزنده های موتورهای جستجو در مورد نحوه خزیدن وب سایت شما است.
این همه کاره نیست (به قول خود گوگل ، "مکانیسمی برای دور نگه داشتن یک صفحه وب از گوگل نیست") اما می تواند به جلوگیری از بارگیری بیش از حد سایت یا سرور شما توسط درخواست های خزنده کمک کند.
اگر این بلوک خزیدن را در سایت خود دارید، باید مطمئن شوید که به درستی از آن استفاده می شود.
اگر از URL های پویا یا روش های دیگری استفاده می کنید که از نظر نظری تعداد بی نهایت صفحه تولید می کنند، این امر به ویژه مهم است.
در این راهنما، ما به برخی از رایج‌ترین مشکلات مربوط به فایل robots.txt، تأثیری که می‌توانند بر وب‌سایت شما و حضور جستجوی شما داشته باشند، و اگر فکر می‌کنید این مشکلات رخ داده‌اند، چگونه می‌توان آن‌ها را برطرف کرد.
اما ابتدا اجازه دهید نگاهی گذرا به robots.txt و جایگزین های آن بیندازیم.
Robots.txt از فرمت فایل متنی ساده استفاده می کند و در فهرست اصلی وب سایت شما قرار می گیرد.
باید در بالاترین دایرکتوری سایت شما باشد. اگر آن را در یک زیر شاخه قرار دهید، موتورهای جستجو به سادگی آن را نادیده می گیرند.
با وجود قدرت زیاد، robots.txt اغلب یک سند نسبتاً ساده است و یک فایل robots.txt اساسی را می توان در عرض چند ثانیه با استفاده از ویرایشگری مانند Notepad ایجاد کرد.
راه های دیگری برای دستیابی به برخی از اهداف مشابهی وجود دارد که robots.txt معمولاً برای آنها استفاده می شود.
صفحات منفرد می توانند متا تگ روبات را در خود کد صفحه داشته باشند.
همچنین می توانید از هدر HTTP X-Robots-Tag برای تأثیرگذاری بر نحوه (و اینکه آیا) محتوا در نتایج جستجو نشان داده می شود استفاده کنید.
Robots.txt می تواند نتایج مختلفی را در طیفی از انواع مختلف محتوا به دست آورد:
صفحات وب را می توان از خزیدن مسدود کرد.
ممکن است همچنان در نتایج جستجو ظاهر شوند، اما شرح متنی نخواهند داشت. محتوای غیر HTML در صفحه نیز خزیده نخواهد شد.
فایل های رسانه ای را می توان از نمایش در نتایج جستجوی گوگل مسدود کرد.
این شامل تصاویر، ویدئو و فایل های صوتی است.
اگر فایل عمومی باشد، همچنان به صورت آنلاین «وجود دارد» و می‌توان آن را مشاهده کرد و به آن پیوند داد، اما این محتوای خصوصی در جستجوهای Google نشان داده نمی‌شود.
فایل های منبع مانند اسکریپت های خارجی غیر مهم را می توان مسدود کرد.
اما این بدان معناست که اگر گوگل صفحه‌ای را بخزد که برای بارگیری آن منبع نیاز دارد، ربات Googlebot نسخه‌ای از صفحه را می‌بیند که گویی آن منبع وجود ندارد، که ممکن است بر نمایه‌سازی تأثیر بگذارد.
شما نمی توانید از robots.txt برای جلوگیری از نمایش کامل یک صفحه وب در نتایج جستجوی Google استفاده کنید.
برای رسیدن به آن، باید از یک روش جایگزین مانند افزودن متا تگ noindex به سر صفحه استفاده کنید.
یک اشتباه در robots.txt می تواند عواقب ناخواسته ای داشته باشد، اما اغلب این پایان دنیا نیست.
خبر خوب این است که با تعمیر فایل robots.txt خود، می توانید به سرعت و (معمولا) به طور کامل از خطاها بازیابی کنید.
راهنمای گوگل به توسعه دهندگان وب در مورد اشتباهات robots.txt چنین می گوید:
خزنده های وب معمولاً بسیار انعطاف پذیر هستند و معمولاً توسط اشتباهات جزئی در فایل robots.txt تحت تأثیر قرار نمی گیرند. به طور کلی، بدترین اتفاقی که می تواند بیفتد این است که دستورالعمل های نادرست [یا] پشتیبانی نشده نادیده گرفته شوند.
البته به خاطر داشته باشید که گوگل نمی تواند هنگام تفسیر فایل robots.txt ذهن را بخواند. ما باید فایل robots.txt را که واکشی کردیم تفسیر کنیم. با این حال، اگر از مشکلات موجود در فایل robots.txt خود آگاه هستید، معمولاً به راحتی قابل رفع هستند.
اگر وب سایت شما در نتایج جستجو به طرز عجیبی رفتار می کند، فایل robots.txt شما مکان خوبی برای جستجوی اشتباهات، خطاهای نحوی و قوانین بیش از حد است.
بیایید هر یک از اشتباهات بالا را با جزئیات بیشتری بررسی کنیم و ببینیم چگونه می توان از داشتن یک فایل robots.txt معتبر اطمینان حاصل کرد.
ربات‌های جستجوگر تنها زمانی می‌توانند فایل را در پوشه ریشه شما پیدا کنند.
به همین دلیل است که باید فقط یک اسلش رو به جلو بین .com (یا دامنه معادل) وب سایت شما و نام فایل 'robots.txt' در URL فایل robots.txt شما وجود داشته باشد.
اگر یک زیرپوشه در آن وجود داشته باشد، فایل robots.txt شما احتمالاً برای روبات های جستجوگر قابل مشاهده نیست، و احتمالاً وب سایت شما به گونه ای رفتار می کند که گویی اصلاً فایل robots.txt وجود ندارد.
برای رفع این مشکل، فایل robots.txt خود را به دایرکتوری ریشه خود منتقل کنید.
شایان ذکر است که برای این کار باید به سرور خود دسترسی ریشه داشته باشید.
برخی از سیستم‌های مدیریت محتوا به‌طور پیش‌فرض فایل‌ها را در یک زیرشاخه رسانه (یا چیزی مشابه) آپلود می‌کنند، بنابراین ممکن است لازم باشد این مورد را دور بزنید تا فایل robots.txt خود را در مکان مناسب قرار دهید.
Robots.txt از دو کاراکتر wildcard پشتیبانی می کند:
منطقی است که یک رویکرد مینیمالیستی برای استفاده از حروف عام اتخاذ کنید، زیرا آنها پتانسیل اعمال محدودیت در بخش بسیار وسیع تری از وب سایت شما را دارند.
همچنین مسدود کردن دسترسی ربات از کل سایت خود با یک ستاره نامناسب، نسبتاً آسان است.
برای رفع مشکل wildcard، باید علامت عام نادرست را پیدا کنید و آن را جابجا یا حذف کنید تا فایل robots.txt شما مطابق با خواسته شما عمل کند.
این مورد در وب سایت هایی که بیش از چند سال قدمت دارند بیشتر دیده می شود.
گوگل از 1 سپتامبر 2019 از قوانین noindex در فایل های robots.txt پیروی نمی کند.
اگر فایل robots.txt شما قبل از آن تاریخ ایجاد شده باشد یا حاوی دستورالعمل‌های noindex باشد، احتمالاً آن صفحات را در نتایج جستجوی Google نمایه‌سازی می‌کنید.
راه حل این مشکل پیاده سازی روش جایگزین 'noindex' است.
یکی از گزینه ها متا تگ robots است که می توانید آن را به سر هر صفحه وب که می خواهید اضافه کنید تا از ایندکس شدن گوگل جلوگیری کنید.
ممکن است منطقی به نظر برسد که دسترسی خزنده به جاوا اسکریپت های خارجی و شیوه نامه های آبشاری (CSS) را مسدود کنید.
با این حال، به یاد داشته باشید که Googlebot برای اینکه صفحات HTML و PHP شما را به درستی «دیدن» کند، نیاز به دسترسی به فایل‌های CSS و JS دارد.
اگر صفحات شما در نتایج Google به طرز عجیبی رفتار می کنند، یا به نظر می رسد Google آنها را به درستی نمی بیند، بررسی کنید که آیا دسترسی خزنده به فایل های خارجی مورد نیاز را مسدود می کنید یا خیر.
یک راه حل ساده برای این کار حذف خطی از فایل robots.txt است که دسترسی را مسدود می کند.
یا اگر فایل‌هایی دارید که باید مسدود کنید، یک استثنا وارد کنید که دسترسی به CSS و جاوا اسکریپت‌های ضروری را بازیابی می‌کند.
این بیشتر از هر چیز دیگری در مورد سئو است.
می توانید URL نقشه سایت خود را در فایل robots.txt خود قرار دهید.
از آنجا که این اولین جایی است که Googlebot هنگام خزیدن وب سایت شما به آن نگاه می کند، این به خزنده یک سر در شناخت ساختار و صفحات اصلی سایت شما می دهد.
در حالی که این کاملاً یک خطا نیست، زیرا حذف نقشه سایت نباید بر عملکرد اصلی و ظاهر وب سایت شما در نتایج جستجو تأثیر منفی بگذارد، اگر می‌خواهید به تلاش‌های سئوی خود کمک کنید ، همچنان ارزش آن را دارد که URL نقشه سایت خود را به robots.txt اضافه کنید. تقویت .
مسدود کردن خزنده‌ها از وب‌سایت زنده شما یک کار خیر است، اما اجازه دادن به آنها برای خزیدن و فهرست‌بندی صفحات شما که هنوز در حال توسعه هستند نیز وجود دارد.
بهترین کار این است که یک دستورالعمل غیر مجاز را به فایل robots.txt یک وب سایت در حال ساخت اضافه کنید تا عموم مردم آن را تا زمانی که تمام نشده نبینند.
به همین ترتیب، حذف دستورالعمل عدم اجازه هنگام راه‌اندازی یک وب‌سایت کامل، بسیار مهم است.
فراموش کردن حذف این خط از robots.txt یکی از رایج ترین اشتباهات در بین توسعه دهندگان وب است و می تواند کل وب سایت شما را از خزیدن و ایندکس صحیح جلوگیری کند.
اگر به نظر می‌رسد سایت توسعه‌دهنده شما ترافیک واقعی دریافت می‌کند، یا وب‌سایتی که اخیراً راه‌اندازی کرده‌اید در جستجو اصلاً خوب عمل نمی‌کند، در فایل robots.txt خود به دنبال یک قانون غیر مجاز عامل کاربر جهانی باشید:

User-Agent: *


Disallow: /

اگر این را در زمانی که نباید می‌بینید (یا زمانی که باید آن را نمی‌بینید)، تغییرات لازم را در فایل robots.txt خود اعمال کنید و بررسی کنید که ظاهر جستجوی وب‌سایت شما بر این اساس به‌روزرسانی می‌شود.
اگر اشتباهی در robots.txt تأثیرات ناخواسته ای بر ظاهر جستجوی وب سایت شما داشته باشد، اولین قدم مهم این است که robots.txt را تصحیح کنید و تأیید کنید که قوانین جدید تأثیر مطلوب را دارند.
برخی از ابزارهای خزیدن سئو می توانند به این امر کمک کنند، بنابراین لازم نیست منتظر بمانید تا موتورهای جستجو در سایت شما خزیدن بعدی را انجام دهند.
وقتی مطمئن هستید که robots.txt مطابق دلخواه رفتار می کند، می توانید سعی کنید سایت خود را در اسرع وقت دوباره خزیده کنید.
پلتفرم هایی مانندGoogle Search Console و Bing Webmaster Tools می توانند کمک کنند.
یک نقشه سایت به روز شده ارسال کنید و درخواست خزیدن مجدد هر صفحه ای را که به طور نامناسبی از لیست حذف شده اند، کنید.
متأسفانه، شما در هوس Googlebot هستید – هیچ تضمینی وجود ندارد که چقدر طول می کشد تا صفحات گمشده دوباره در فهرست جستجوی Google ظاهر شوند.
تنها کاری که می توانید انجام دهید این است که اقدامات صحیح را انجام دهید تا آن زمان را تا حد امکان به حداقل برسانید و به بررسی ادامه دهید تا robots.txt ثابت شده توسط Googlebot پیاده سازی شود.
در مورد خطاهای robots.txt، قطعاً پیشگیری بهتر از درمان است.
در یک وب‌سایت بزرگ درآمدزا، یک علامت ولگرد که کل وب‌سایت شما را از Google حذف می‌کند، می‌تواند تأثیر فوری بر درآمد داشته باشد.
ویرایش‌های robots.txt باید با دقت توسط توسعه‌دهندگان باتجربه انجام شود، دوباره بررسی شود، و – در صورت لزوم – مشروط به نظر دوم باشد.
در صورت امکان، قبل از اجرای زنده روی سرور دنیای واقعی خود، در ویرایشگر sandbox تست کنید تا مطمئن شوید که از ایجاد سهوا مشکلات در دسترس بودن جلوگیری می کنید.
به یاد داشته باشید، زمانی که بدترین اتفاق می افتد، مهم است که وحشت نکنید.
مشکل را تشخیص دهید، تعمیرات لازم را در robots.txt انجام دهید و نقشه سایت خود را مجدداً برای خزیدن جدید ارسال کنید.
امیدواریم جایگاه شما در رتبه بندی های جستجو در عرض چند روز بازیابی شود.
منابع بیشتر:
تصویر ویژه: M-SUR/Shutterstock
خبرنامه روزانه ما را از لورن بیکر بنیانگذار SEJ در مورد آخرین اخبار در صنعت دریافت کنید!
من رئیس تحقیق و توسعه در SALT.agency هستم، یک مشاور فنی سفارشی SEO با دفاتری در بریتانیا و … [بیو کامل را بخوانید]
برای دریافت آخرین اخبار صنعت در خبرنامه روزانه ما مشترک شوید.
برای دریافت آخرین اخبار صنعت در خبرنامه روزانه ما مشترک شوید.

source
سئو سایت

About mohtavaclick

Check Also

7 روش برای اصلاح محتوای خود برای سئوی بهتر

آیا فرصت های ساده ای را برای بهبود بهینه سازی محتوای خود از دست می …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

قالب وردپرس وردپرس متخصص وردپرس متخصص ووکامرس افزونه وردپرس کابین وردپرس