نحوه انجام ممیزی نقشه سایت برای نمایه سازی و خزیدن بهتر از طریق پایتون

این فرآیند 16 مرحله‌ای را برای استفاده از پایتون برای انجام ممیزی سایت که می‌تواند فرصت‌هایی را برای فهرست‌سازی و خزیدن بهتر کشف کند، بررسی کنید.
ممیزی نقشه سایت شامل بررسی نحو، خزیدن و نمایه سازی برای URL ها و برچسب ها در فایل های نقشه سایت شما است.
یک فایل نقشه سایت حاوی نشانی‌های اینترنتی برای نمایه‌سازی با اطلاعات بیشتر در مورد آخرین تاریخ اصلاح، اولویت URL، تصاویر، ویدئوها در URL، و سایر زبان‌های جایگزین URL، همراه با فرکانس تغییر است.
فایل‌های فهرست نقشه سایت می‌توانند میلیون‌ها URL را شامل شوند، حتی اگر یک نقشه سایت تنها شامل 50000 URL در بالا باشد.
بررسی این URL ها برای فهرست بندی و خزیدن بهتر ممکن است زمان ببرد.
اما با کمک Python و اتوماسیون سئو ، می توان میلیون ها URL را در نقشه های سایت ممیزی کرد.
برای درک فرآیند حسابرسی نقشه سایت پایتون، به موارد زیر نیاز دارید:
یک فایل نقشه سایت XML نقشه سایت سالم باید شامل معیارهای زیر باشد:
نقشه های سایت کوچکتر بهتر از نقشه های بزرگتر برای فهرست بندی سریعتر هستند. این امر به ویژه در سئوی اخبار مهم است، زیرا نقشه های سایت کوچکتر به افزایش تعداد URL های فهرست شده معتبر کمک می کند.
URL های محتوای ثابت و به روز شده را از یکدیگر متمایز کنید تا توزیع خزنده بهتری بین URL ها ارائه شود.
استفاده از تاریخ «لست مود» به روشی صادقانه که با تاریخ انتشار واقعی یا به‌روزرسانی همسو باشد، به موتور جستجو کمک می‌کند تا به تاریخ آخرین انتشار اعتماد کند.
هنگام انجام ممیزی نقشه سایت برای نمایه سازی بهتر، خزیدن و ارتباط موتور جستجو با پایتون، معیارهای بالا رعایت می شود.
وقتی صحبت از ماهیت و ممیزی نقشه سایت می شود، گوگل و مایکروسافت بینگ از "changefreq" برای تغییر فرکانس URL ها و "اولویت" برای درک برجسته بودن URL استفاده نمی کنند. در واقع، آنها به آن "کیسه سر و صدا" می گویند.
با این حال، Yandex و Baidu از همه این برچسب ها برای درک ویژگی های وب سایت استفاده می کنند.
ممیزی نقشه سایت می تواند شامل طبقه بندی محتوا، درخت سایت یا موضوعیت و ویژگی های محتوا باشد.
با این حال، ممیزی نقشه سایت برای نمایه سازی و خزیدن بهتر، عمدتاً شامل سئوی فنی به جای ویژگی های محتوا است.
در این فرآیند گام به گام ممیزی نقشه سایت، ما از پایتون برای مقابله با جنبه های فنی نقشه سایت ممیزی میلیون ها URL استفاده می کنیم.
بلوک کد زیر برای وارد کردن کتابخانه‌های پایتون لازم برای ممیزی فایل XML نقشه سایت است.
آنچه باید در مورد این بلوک کد بدانید در اینجا آمده است:
همانطور که در زیر نشان داده شده است، می توان میلیون ها URL را با Advertools در یک قاب داده Pandas وارد کرد.
در بالا، نقشه سایت Complaintsboard.com در یک قاب داده Pandas قرار گرفته است و شما می توانید خروجی را در زیر مشاهده کنید.

در کل در فایل فهرست نقشه سایت Complaintsboard.com 245691 URL داریم.
این وب‌سایت از «changefreq»، «lastmod» و «priority» با ناهماهنگی استفاده می‌کند.
برای درک اینکه کدام برچسب ها در فایل XML نقشه سایت استفاده می شوند یا نه، از تابع زیر استفاده کنید.
تابع check_sitemap_tag_usage یک سازنده قاب داده بر اساس استفاده از تگ های نقشه سایت است.
با اجرای متدهای "isna()" و "value_counts()" از طریق "pd.DataFrame" ستون های "lastmod"، "priority" و "changefreq" را می گیرد.
در زیر می توانید خروجی را مشاهده کنید.
فریم داده های بالا نشان می دهد که 96840 از URL ها تگ Lastmod ندارند، که برابر با 39٪ از تعداد کل URL های فایل نقشه سایت است.
همان درصد استفاده برای «اولویت» و «changefreq» در فایل XML نقشه سایت 19 درصد است.
سه سیگنال اصلی تازگی محتوا از یک وب سایت وجود دارد.
اینها تاریخ های یک صفحه وب (قابل مشاهده برای کاربر)، داده های ساختار یافته (برای کاربر نامرئی)، "lastmod" در نقشه سایت هستند.
اگر این تاریخ ها با یکدیگر سازگار نیستند، موتورهای جستجو می توانند تاریخ های موجود در وب سایت ها را نادیده بگیرند تا سیگنال های تازگی آنها را ببینند.
درک مهم‌ترین یا شلوغ‌ترین مسیر URL برای سنجش تلاش‌های سئوی وب‌سایت یا ممیزی‌های فنی سئو ضروری است.
یک بهبود واحد برای سئوی فنی می تواند هزاران URL را به طور همزمان سودمند کند، که یک استراتژی سئو مقرون به صرفه و مقرون به صرفه ایجاد می کند.
درک ساختار URL عمدتاً بر بخش های برجسته تر وب سایت و درک تحلیل شبکه محتوا متمرکز است.
برای ایجاد یک URL Tree Dataframe از آدرس های وب سایت از نقشه سایت، از بلوک کد زیر استفاده کنید.
با کمک "urllib" یا "advertools" مانند بالا، می توانید به راحتی URL های داخل نقشه سایت را در یک قاب داده تجزیه کنید.

قاب داده بالا شامل «طرح»، «netloc»، «مسیر» و هر تجزیه «/» در داخل URL ها به عنوان «dir» است که نشان دهنده دایرکتوری است.
ممیزی ساختار URL وب سایت برای دو هدف برجسته است.
اینها بررسی می کنند که آیا همه URL ها "HTTPS" دارند یا خیر و شبکه محتوای وب سایت را درک می کنند.
تجزیه و تحلیل محتوا با فایل های نقشه سایت به طور مستقیم موضوع "نمایه سازی و خزیدن" نیست، بنابراین در پایان مقاله، کمی در مورد آن صحبت خواهیم کرد.
برای مشاهده میزان استفاده از SSL در URL های نقشه سایت، بخش بعدی را بررسی کنید.
از بلوک کد زیر برای بررسی نسبت استفاده از HTTP برای URL های داخل نقشه سایت استفاده کنید.
بلوک کد بالا از یک فیلتر ساده داده برای ستون "طرح" استفاده می کند که حاوی اطلاعات پروتکل HTTPS URL ها است.
با استفاده از "value_counts" می بینیم که همه URL ها در HTTPS هستند.
ساختار URL ها در نقشه سایت برای مشاهده اینکه آیا وضعیتی برای "ارسال شده اما غیرمجاز" وجود دارد مفید است.
برای مشاهده اینکه آیا فایل robots.txt وب سایت وجود دارد، از بلوک کد زیر استفاده کنید.
به سادگی، ما یک "درخواست دریافت" را به URL robots.txt ارسال می کنیم.
اگر کد وضعیت پاسخ 200 باشد، به این معنی است که یک فایل robots.txt برای کنترل خزنده مبتنی بر عامل کاربر وجود دارد.
پس از بررسی وجود "robots.txt"، می توانیم از روش "adv.robotstxt_test" برای بررسی انبوه robots.txt برای خزیدن URL ها در نقشه سایت استفاده کنیم.
ما یک متغیر جدید به نام "sitemap_df_robotstxt_check" ایجاد کرده ایم و خروجی روش "robotstxt_test" را اختصاص داده ایم.
ما از URL های داخل نقشه سایت با "sitemap_df["loc"] استفاده کرده ایم.
ما ممیزی را برای همه عوامل کاربر از طریق پارامتر و جفت مقدار "user_agents = ["*"] انجام داده ایم.
در زیر می توانید نتیجه را مشاهده کنید.
نشان می دهد که یک URL وجود دارد که مجاز نیست اما ارسال شده است.
ما می توانیم URL خاص را مانند زیر فیلتر کنیم.
ما از "set_option" برای گسترش همه مقادیر در بخش "url_path" استفاده کرده‌ایم.

بعداً می‌توان همین کنترل را برای بررسی‌های بیشتر مانند «مجاز اما مرتبط داخلی» انجام داد.
اما، برای انجام این کار، باید حداقل 3 میلیون URL را از ComplaintsBoard.com جستجو کنیم، و این می تواند یک راهنمای کاملاً جدید باشد.
برخی از URL های وب سایت دارای "سلسله مراتب دایرکتوری" مناسبی نیستند، که می تواند تجزیه و تحلیل URL ها را از نظر ویژگی های شبکه محتوا سخت تر کند.
Complaintsboard.com از ساختار URL و طبقه بندی مناسبی استفاده نمی کند، بنابراین تجزیه و تحلیل ساختار وب سایت برای یک SEO یا موتور جستجو آسان نیست.
اما پرکاربردترین کلمات در URL ها یا تعداد دفعات به روز رسانی محتوا می تواند نشان دهد که شرکت واقعاً روی چه موضوعی اهمیت دارد.
از آنجایی که ما در این آموزش روی "جنبه های فنی" تمرکز می کنیم، می توانید ممیزی محتوای نقشه سایت را در اینجا بخوانید.
هر URL در نقشه سایت باید 200 کد وضعیت داشته باشد.
برای بررسی کدهای وضعیت URL ها در نقشه سایت باید خزیدن انجام شود.
اما، از آنجایی که وقتی میلیون‌ها URL برای ممیزی دارید، هزینه‌بر است، می‌توانیم به سادگی از یک روش خزیدن جدید از Advertools استفاده کنیم.
بدون گرفتن بدنه پاسخ، می‌توانیم فقط سرصفحه‌های پاسخ URLهای داخل نقشه سایت را بخزیم.
کاهش زمان خزیدن برای ممیزی ربات های احتمالی، نمایه سازی و سیگنال های متعارف از هدرهای پاسخ مفید است.
برای انجام خزیدن هدر پاسخ، از روش "adv.crawl_headers" استفاده کنید.
توضیح بلوک کد برای بررسی کدهای وضعیت URL ها در فایل های نقشه سایت XML برای جنبه SEO فنی در زیر قابل مشاهده است.
نشان می دهد که URL 23 از نقشه سایت در واقع 404 است.
و باید از نقشه سایت حذف شوند.
برای بررسی اینکه کدام URL از نقشه سایت 404 است، از روش فیلتراسیون زیر از Pandas استفاده کنید.
نتیجه را می توان در زیر مشاهده کرد.
گاه به گاه، استفاده از نکات متعارف در هدرهای پاسخ برای خزیدن و نمایه سازی یکپارچه سازی سیگنال مفید است.
در این زمینه، تگ متعارف در HTML و هدر پاسخ باید یکسان باشد.
اگر دو سیگنال متعارف متفاوت در یک صفحه وب وجود داشته باشد، موتورهای جستجو می توانند هر دو تخصیص را نادیده بگیرند.
برای ComplaintsBoard.com، سرصفحه پاسخ متعارف نداریم.
ستون‌های خروجی خزیدن هدر را بررسی کنید تا Canonicalization از Response Headers را بررسی کنید.
در زیر می توانید ستون ها را مشاهده کنید.
اگر با هدرهای پاسخ آشنا نیستید، ممکن است ندانید که چگونه از نکات متعارف در هدرهای پاسخ استفاده کنید.
یک سرصفحه پاسخ می تواند شامل اشاره متعارف با مقدار "پیوند" باشد.
مستقیماً توسط Advertools به عنوان "resp_headers_link" ثبت شده است.
مشکل دیگر این است که رشته های استخراج شده در "<URL>;" ظاهر می شوند. الگوی رشته
یعنی از regex برای استخراج آن استفاده خواهیم کرد.
در زیر می توانید نتیجه را مشاهده کنید.
الگوی regex "[^<>][az:/0-9-.]*" برای استخراج مقدار متعارف خاص به اندازه کافی خوب است.
بررسی خود متعارف با سرصفحه‌های پاسخ در زیر آمده است.
ما از دو چک بولی مختلف استفاده کرده ایم.
یکی برای بررسی اینکه آیا اشاره متعارف سرصفحه پاسخ با خود URL برابر است یا خیر.
یکی دیگر برای اینکه ببینید کد وضعیت 200 است یا خیر.
از آنجایی که ما 404 URL در نقشه سایت داریم، مقدار متعارف آنها "NaN" خواهد بود.
برای مشاهده این URL ها، از بلوک کد زیر استفاده کنید.
مقادیر متعارف از سرصفحه های پاسخ را می توان در بالا مشاهده کرد.
حتی یک "/" در URL می تواند باعث تضاد متعارف سازی شود همانطور که در اینجا برای صفحه اصلی ظاهر می شود.
اگر فایل های گزارش را بررسی کنید، خواهید دید که موتور جستجو URL ها را از سرصفحه های پاسخ "پیوند" می خزد.
بنابراین در سئو فنی، این باید وزن شود.
14 ویژگی X-Robots-Tag مختلف برای خزنده موتور جستجوی گوگل وجود دارد.
آخرین مورد "indexifembedded" برای تعیین مقدار نمایه سازی در یک صفحه وب است.
دستورالعمل‌های Indexing و Crawling می‌توانند به شکل سربرگ پاسخ یا متا تگ HTML باشند.
این بخش بر روی نسخه هدر پاسخ دستورالعمل های نمایه سازی و خزیدن تمرکز دارد.
از دستور زیر استفاده کنید تا X-Robots-Tag را از سربرگ های پاسخ بررسی کنید.
ما یک تابع سفارشی برای بررسی هدرهای پاسخ "X-Robots-tag" از کد منبع صفحات وب ایجاد کرده ایم.
به نظر می رسد که وب سایت موضوع آزمون ما از X-Robots-Tag استفاده نمی کند.
اگر یک تگ X-Robots وجود دارد، باید از بلوک کد زیر استفاده شود.
بررسی کنید که آیا یک دستورالعمل "noindex" از سرصفحه های پاسخ وجود دارد یا خیر، و URL های دارای تضاد نمایه سازی را فیلتر کنید.
در گزارش پوشش کنسول جستجوی Google، موارد به صورت «ارسال شده با علامت‌گذاری بدون فهرست» ظاهر می‌شوند.
نشانه ها و سیگنال های متناقض نمایه سازی و متعارف سازی ممکن است باعث شود موتور جستجو همه سیگنال ها را نادیده بگیرد در حالی که باعث می شود الگوریتم های جستجو کمتر به سیگنال های اعلام شده توسط کاربر اعتماد کنند.
هر URL در فایل‌های XML نقشه سایت باید یک اشاره به خود متعارف‌سازی بدهد.
نقشه های سایت فقط باید شامل نسخه های متعارف URL ها باشد.
بلوک کد پایتون در این بخش برای این است که بفهمیم آیا URL های نقشه سایت دارای مقادیر خود متعارف هستند یا خیر.
برای بررسی متعارف‌سازی از بخش «<head>» اسناد HTML، وب‌سایت‌ها را با گرفتن بدنه پاسخ آنها بخزید.
از بلوک کد زیر استفاده کنید.
تفاوت بین "crawl_headers" و "crawl" در این است که "crawl" کل بدنه پاسخ را می گیرد در حالی که "crawl_headers" فقط برای سرفصل های پاسخ است.
می‌توانید تفاوت‌های اندازه فایل را از گزارش‌های خزیدن تا خزیدن سرصفحه پاسخ و خزیدن کل بدنه پاسخ بررسی کنید.
از خروجی 6 گیگابایت تا خروجی 387 مگابایت کاملاً مقرون به صرفه است.
اگر یک موتور جستجو فقط بخواهد سرصفحه‌های پاسخ خاص و کد وضعیت را ببیند، ایجاد اطلاعات روی سرصفحه‌ها باعث می‌شود که بازدیدهای خزیدن آنها مقرون به صرفه‌تر شود.
این بخش نیازمند پرداختن به فریم های داده بزرگ است.
اگر اندازه فایل بزرگتر از RAM رایانه باشد، رایانه نمی‌تواند یک Pandas DataFrame را از یک فایل CSV یا JL بخواند.
بنابراین، از روش "چون کردن" استفاده می شود.
زمانی که یک فایل XML نقشه سایت حاوی میلیون ها URL باشد، کل خروجی خزیدن بزرگتر از ده ها گیگابایت خواهد بود.
تکرار در ردیف‌های قاب داده خروجی خزیدن نقشه سایت ضروری است.
برای قطعه بندی، از بلوک کد زیر استفاده کنید.
در زیر می توانید نتیجه را مشاهده کنید.
می‌بینیم که URLهای صفحه‌بندی‌شده از زیرپوشه «کتاب» نکات متعارفی را به صفحه اول می‌دهند، که طبق دستورالعمل‌های Google عملی نادرست است.
هر فایل نقشه سایت باید کمتر از 50 مگابایت باشد. از بلوک کد پایتون زیر در سئوی فنی با زمینه پایتون برای بررسی اندازه فایل نقشه سایت استفاده کنید.
در زیر می توانید نتیجه را مشاهده کنید.
می بینیم که تمام فایل های XML نقشه سایت زیر 50 مگابایت هستند.
برای نمایه سازی بهتر و سریع تر، ارزشمند و منحصر به فرد نگه داشتن URL های نقشه سایت در عین کاهش حجم فایل های نقشه سایت مفید است.
هر URL در نقشه سایت باید کمتر از 50000 URL داشته باشد.
از بلوک کد پایتون زیر برای بررسی تعداد URL ها در فایل های XML نقشه سایت استفاده کنید.
در زیر می توانید نتیجه را مشاهده کنید.
نگه داشتن URL های نقشه سایت که اغلب به روز می شوند متفاوت از URL های محتوای ثابت و قدیمی مفید است.
تعداد URL و URL تفاوت کاراکترهای محتوا به موتور جستجو کمک می کند تا تقاضای خزیدن را به طور موثر برای بخش های مختلف وب سایت تنظیم کند.
حتی اگر یک صفحه وب از robots.txt غیرمجاز نباشد، همچنان می‌توان آن را از متا تگ‌های HTML غیرمجاز کرد.
بنابراین، بررسی متا تگ های HTML برای فهرست بندی و خزیدن بهتر ضروری است.
استفاده از "انتخاب کننده های سفارشی" برای انجام ممیزی متا تگ HTML برای URL های نقشه سایت ضروری است.
انتخابگر XPATH “//meta[@name=”robots”]/@content برای استخراج تمام دستورات روبات ها از URL ها از نقشه سایت است.
ما فقط از 1000 URL اول در نقشه سایت استفاده کرده ایم.
و پس از 1000 پاسخ اولیه خزیدن را متوقف می کنم.
من از وب سایت دیگری برای بررسی متا تگ های خزنده استفاده کرده ام زیرا ComplaintsBoard.com آن را در کد منبع ندارد.
در زیر می توانید نتیجه را مشاهده کنید.
برای بررسی مقادیر آنها از کد زیر استفاده کنید.
در زیر می توانید نتیجه را مشاهده کنید.
اعتبار سنجی نحوی فایل XML نقشه سایت برای تایید ادغام فایل نقشه سایت با ادراک موتور جستجو ضروری است.
حتی اگر خطاهای نحوی خاصی وجود داشته باشد، یک موتور جستجو می تواند فایل نقشه سایت را در طول عادی سازی XML تشخیص دهد.
اما، هر خطای نحوی می تواند کارایی را برای سطوح خاصی کاهش دهد.
از بلوک کد زیر برای اعتبارسنجی سینتکس فایل XML نقشه سایت استفاده کنید.
برای این مثال، من از " https://www.searchenginejournal.com/sitemap_index.xml " استفاده کرده ام. فایل XSD شامل بافت و ساختار درختی فایل XML است.
در خط اول فایل نقشه سایت به صورت زیر آمده است.
برای اطلاعات بیشتر، می توانید اسناد DTD را نیز بررسی کنید.
بر کسی پوشیده نیست که موتورهای جستجو نیز از URL های Open Graph و RSS Feed از کد منبع برای متعارف سازی و کاوش بیشتر استفاده می کنند.
نشانی‌های اینترنتی گراف باز باید مانند نشانی اینترنتی ارسالی متعارف باشد.
گاه به گاه، حتی در Google Discover، گوگل استفاده از تصویر را از Open Graph انتخاب می کند.
برای بررسی سازگاری URL Graph و URL Canonical، از بلوک کد زیر استفاده کنید.
اگر یک ویژگی URL Graph Open در وب‌سایت وجود داشته باشد، یک فایل CSV برای بررسی اینکه آیا URL متعارف و URL Open Graph یکسان هستند یا خیر، ارائه می‌کند.
اما برای این وب سایت، URL گراف باز نداریم.
بنابراین، من از وب سایت دیگری برای ممیزی استفاده کرده ام.
در زیر می توانید نتیجه را مشاهده کنید.
می بینیم که همه URL های متعارف و URL های Open Graph یکسان هستند.
فایل فهرست نقشه سایت نباید دارای URL های تکراری در فایل های نقشه سایت مختلف یا در یک فایل XML نقشه سایت باشد.
تکراری بودن URL ها در فایل های نقشه سایت می تواند باعث شود موتور جستجو فایل های نقشه سایت را کمتر دانلود کند زیرا درصد مشخصی از فایل نقشه سایت با ارسال های غیر ضروری پر شده است.
برای موقعیت‌های خاص، می‌تواند به عنوان تلاشی برای ارسال هرزنامه برای کنترل طرح‌های خزیدن خزنده‌های موتور جستجو ظاهر شود.
از بلوک کد زیر برای بررسی URL های تکراری در ارسالی نقشه سایت استفاده کنید.
می بینید که 49574 URL از نقشه سایت تکراری هستند.
برای اینکه ببینید کدام نقشه سایت دارای URL های تکراری بیشتری است، از بلوک کد زیر استفاده کنید.
شما می توانید نتیجه را ببینید.
خرد کردن نقشه های سایت می تواند به تجزیه و تحلیل درخت سایت و تکنیکال SEO کمک کند.
برای مشاهده URL های تکراری در نقشه سایت، از بلوک کد زیر استفاده کنید.
در زیر می توانید نتیجه را مشاهده کنید.
من می‌خواستم نشان دهم که چگونه می‌توان یک فایل نقشه سایت را برای فهرست‌بندی و خزیدن بهتر و سالم‌تر برای سئوی فنی اعتبارسنجی کرد.
پایتون به طور گسترده برای علم داده، یادگیری ماشین و پردازش زبان طبیعی استفاده می شود.
اما، شما همچنین می توانید از آن برای ممیزی های فنی سئو برای پشتیبانی از سایر عمودهای SEO با رویکرد سئو جامع استفاده کنید.
در مقاله‌ای آینده، می‌توانیم این ممیزی‌های فنی سئو را با جزئیات و روش‌های مختلف بیشتر گسترش دهیم.
اما، به طور کلی، این یکی از جامع ترین راهنماهای فنی سئو برای نقشه سایت و آموزش ممیزی نقشه سایت با پایتون است.
منابع بیشتر:
تصویر ویژه: elenasavchina2/Shutterstock
خبرنامه روزانه ما را از لورن بیکر بنیانگذار SEJ در مورد آخرین اخبار در صنعت دریافت کنید!
Koray Tugberk GUBUR بنیانگذار و صاحب SEO و دیجیتال جامع است. Koray Tuğberk مطالعات موردی SEO، تحقیقات، … را منتشر می کند [بیو کامل را بخوانید]
برای دریافت آخرین اخبار صنعت در خبرنامه روزانه ما مشترک شوید.
برای دریافت آخرین اخبار صنعت در خبرنامه روزانه ما مشترک شوید.

source
سئو سایت

About mohtavaclick

Check Also

Metaverse Primer برای بازاریابان: چگونه به اینجا رسیدیم و بعد به کجا رسیدیم

در همگرایی VR، AR، و ارز دیجیتال Metaverse قرار دارد. برندها مورد توجه هستند، زیرا …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

قالب وردپرس وردپرس متخصص وردپرس متخصص ووکامرس افزونه وردپرس کابین وردپرس