تجسم موضوعات داغ با استفاده از پایتون برای تجزیه و تحلیل نقشه های سایت خبری

روش های رقبای خبری خود را برای روند جستجو دنبال کنید. در این راهنمای جامع نحوه تجسم پوشش موضوع با پایتون را بیاموزید.
نقشه سایت خبری از پروتکل های مختلف و منحصر به فرد نقشه سایت برای ارائه اطلاعات بیشتر برای موتورهای جستجوی خبری استفاده می کند.
نقشه سایت خبری حاوی اخبار منتشر شده در 48 ساعت گذشته است.
برچسب‌های نقشه سایت خبری شامل عنوان، زبان، نام، ژانر، تاریخ انتشار، کلیدواژه‌ها و حتی علامت‌های سهام است.
چگونه می توانید از این نقشه های سایت به نفع خود برای تحقیق محتوا و تجزیه و تحلیل رقابتی استفاده کنید؟
در این آموزش پایتون، یک فرآیند 10 مرحله ای برای تجزیه و تحلیل نقشه های سایت خبری و تجسم روندهای موضوعی کشف شده در آن را خواهید آموخت.
این آموزش در زمان حمله روسیه به اوکراین نوشته شده است.
با استفاده از یادگیری ماشینی، حتی می‌توانیم به منابع خبری و مقالاتی برچسب بزنیم که منبع خبری «عینی» و کدام منبع خبری «طعنه‌آمیز» است.
اما برای ساده نگه داشتن همه چیز، ما روی موضوعاتی با تحلیل فرکانس تمرکز خواهیم کرد.
ما از بیش از 10 منبع خبری جهانی در سراسر ایالات متحده و بریتانیا استفاده خواهیم کرد
توجه: ما می خواهیم منابع خبری روسی را درج کنیم، اما آنها نقشه سایت خبری مناسبی ندارند. حتی اگر داشتند، درخواست های خارجی را مسدود می کنند.
مقایسه وقوع واژه «تهاجم» و «رهایی» از منابع خبری غربی و شرقی، مزیت روش های تحلیل متن فرکانس توزیعی را نشان می دهد.
کتابخانه‌های پایتون مرتبط برای ممیزی نقشه سایت خبری برای درک استراتژی محتوای منبع خبری در زیر فهرست شده‌اند:
همه چی تنظیم شده؟ بیایید به آن برسیم.
ما «گاردین»، «نیویورک تایمز»، «واشنگتن پست»، «دیلی میل»، «اسکای نیوز»، «بی‌بی‌سی» و «سی‌ان‌ان» را برای بررسی نشانی‌های اینترنتی اخبار از نقشه‌های سایت خبری انتخاب کردیم.
من از BBC به عنوان مثال برای نشان دادن آنچه که از این نقشه سایت خبری استخراج کردیم استفاده کرده ام.
نقشه سایت بی بی سی دارای ستون های زیر است.
ساختار داده های کلی این ستون ها در زیر آمده است.
بی بی سی از ستون "news_publication" و سایر موارد استفاده نمی کند.
برای مشاهده پرکاربردترین کلمات در آدرس سایت های خبری، باید از روش های “str”، “explode” و “split” استفاده کنیم.
می بینیم که برای «دیلی میل»، «روسیه و اوکراین» موضوع اصلی است.
ساختار URL یا بخش "زبان" نشریه خبری را می توان برای مشاهده پرکاربردترین زبان ها در نشریات خبری استفاده کرد.
در این نمونه، از «بی بی سی» برای دیدن اولویت بندی زبان آنها استفاده کردیم.
برای ارتباط با جمعیت روسیه از طریق Google News، هر منبع خبری غربی باید از زبان روسی استفاده کند.
برخی از موسسات خبری بین المللی شروع به اجرای این دیدگاه کردند.
اگر شما یک سئوی اخبار هستید، تماشای نشریات به زبان روسی از رقبا برای توزیع اخبار عینی در روسیه و رقابت در صنعت خبر مفید است.
ما از BBC برای دیدن "عناوین خبری" و اینکه کدام کلمات متداول تر هستند استفاده کردیم.
مشکل اینجاست که ما "هر نوع کلمه ای را در عناوین اخبار" داریم، مانند "کلمات توقف بی محتوا".
ما باید این نوع اصطلاحات غیر مقوله ای را پاک کنیم تا تمرکز آنها را بهتر درک کنیم.
ما اکثر کلمات توقف را با کمک روش "regex" و "replace" پانداها حذف کرده ایم.
نگرانی دوم حذف «علوم نگارشی» است.
برای این کار از ماژول “string” پایتون استفاده خواهیم کرد.
یا از "df_bbc_news_title_most_used_words["news_title"].to_frame()" استفاده کنید تا تصویر واضح تری از داده ها بگیرید.
ما 11767 کلمه منحصر به فرد را در آدرس های اینترنتی بی بی سی می بینیم و اوکراین با 110 تکرار محبوب ترین است.
عبارات مختلف مربوط به اوکراین از چارچوب داده وجود دارد، مانند "اوکراین:"
"NLTK Tokenize" را می توان برای متحد کردن این انواع مختلف استفاده کرد.
بخش بعدی از روش دیگری برای متحد کردن آنها استفاده خواهد کرد.
توجه: اگر می‌خواهید کارها را آسان‌تر کنید، از Advertools مانند زیر استفاده کنید.
نتیجه در زیر آمده است.
"adv.word_frequency" دارای ویژگی های "phrase_len" و "rm_words" برای تعیین طول وقوع عبارت و حذف کلمات توقف است.
ممکن است به من بگویید چرا از ابتدا از آن استفاده نکردم؟
می خواستم یک مثال آموزشی با “regex, NLTK, and the string” به شما نشان دهم تا متوجه شوید پشت صحنه چه اتفاقی می افتد.
برای تجسم کلمات پرکاربرد در عناوین خبری، می توانید از بلوک کد زیر استفاده کنید.
شما متوجه می شوید که یک "خط شکسته" وجود دارد.
آیا "اوکراین" و "اوکراین:" را در قاب داده به خاطر دارید؟
وقتی "نقطه نگاری" را حذف می کنیم، مقادیر دوم و اول یکسان می شوند.
به همین دلیل است که نمودار خطی می گوید که اوکراین 60 بار و 110 بار جداگانه ظاهر شده است.
برای جلوگیری از چنین ناهماهنگی داده ها، از بلوک کد زیر استفاده کنید.
ردیف های تکراری حذف می شوند و مقادیر آنها با هم جمع می شوند.
حالا بیایید دوباره آن را تجسم کنیم.
استخراج n-gram از عنوان اخبار یا عادی سازی کلمات URL و تشکیل n-gram برای درک موضوعیت کلی برای درک اینکه کدام انتشار خبری به کدام موضوع نزدیک می شود مفید است. در اینجا چگونه است.
خروجی نشان می‌دهد که ما تمام کلمات عنوان‌های اخبار را «لماتی‌سازی» کرده‌ایم و آنها را در فهرستی قرار داده‌ایم.
درک لیست یک میانبر سریع برای فیلتر کردن هر کلمه توقف به راحتی فراهم می کند.
استفاده از "nltk.corpus.stopwords.words("English")" تمام کلمات توقف را در انگلیسی ارائه می کند.
اما می توانید کلمات توقف اضافی را به لیست اضافه کنید تا حذف کلمات را گسترش دهید.
"unicodata" برای متعارف کردن شخصیت ها است.
کاراکترهایی که می بینیم در واقع بایت های یونیکد هستند مانند "U+2160 ROMAN NUMERAL ONE" و کاراکتر رومی "U+0049 LATIN CAPITAL LETTER I" در واقع یکسان هستند.
«unicodedata.normalize» تفاوت‌های کاراکترها را متمایز می‌کند، به طوری که لماتیزه‌کننده می‌تواند کلمات مختلف با کاراکترهای مشابه را از یکدیگر متمایز کند.
در زیر، محبوب ترین "n-gram" را از BBC News مشاهده خواهید کرد.
برای تجسم ساده ترین n-gram یک منبع خبری، از بلوک کد زیر استفاده کنید.
«اوکراین، جنگ» اخبار پرطرفدار است.
شما همچنین می توانید n-gram ها را برای "اوکراین" فیلتر کنید و یک جفت "entity-attribute" ایجاد کنید.
خزیدن در این URL ها و شناسایی "موجودات نوع شخص" می تواند به شما ایده ای درباره نحوه برخورد BBC با موقعیت های خبرساز بدهد.
اما فراتر از "نقشه های سایت خبری" است. بنابراین، برای یک روز دیگر است.
برای تجسم n-gram های محبوب از نقشه سایت منبع خبری، می توانید یک تابع پایتون سفارشی مانند زیر ایجاد کنید.
نتیجه در زیر آمده است.
برای تعاملی کردن آن، یک پارامتر اضافی مانند زیر اضافه کنید.
به عنوان یک مثال سریع، زیر را بررسی کنید.
وقتی نقشه های سایت خبری را مکرراً بررسی می کنید، نیاز به یک بسته کوچک پایتون وجود خواهد داشت.
در زیر، می‌توانید چهار زنجیره تابع سریع پایتون را بیابید که از هر تابع قبلی به عنوان یک تماس استفاده می‌کند.
برای تمیز کردن یک مورد محتوای متنی، از تابع زیر استفاده کنید.
برای استخراج n-gram ها از عناوین خبری نقشه سایت یک وب سایت خبری خاص، از تابع زیر استفاده کنید.
از تابع زیر برای تبدیل n-gram های استخراج شده به یک قاب داده استفاده کنید.
برای استخراج نقشه سایت چندین وب سایت خبری، از تابع زیر استفاده کنید.
در زیر می توانید نمونه ای از موارد استفاده را مشاهده کنید.
فقط با این چهار تابع سفارشی پایتون تو در تو می توانید کارهای زیر را انجام دهید.
من اعداد فرکانس n-gram را قرار ندادم.
اما رتبه اول محبوب ترین ها از آن منبع خبری خاص هستند.
برای بررسی 500 ردیف بعدی، اینجا را کلیک کنید .
وقتی صحبت از کلمات کلیدی خبری به میان می آید، به طرز شگفت انگیزی همچنان در گوگل فعال هستند.
به عنوان مثال، مایکروسافت بینگ و گوگل بر خلاف Yandex دیگر فکر نمی کنند که "کلیدواژه های متا" سیگنال مفیدی هستند.
اما، کلمات کلیدی خبری از نقشه سایت خبری هنوز استفاده می شود.
در میان همه این منابع خبری، تنها گاردین از کلمات کلیدی خبر استفاده می کند.
و درک اینکه چگونه آنها از کلمات کلیدی خبری برای ارائه ارتباط استفاده می کنند مفید است.
پرکاربردترین کلمات را می توانید در کلیدواژه های خبری The Guardian ببینید.
تجسم در زیر آمده است.
"،" در پایان کلمات کلیدی خبر نشان می دهد که آیا یک مقدار جداگانه است یا بخشی از مقدار دیگر.
پیشنهاد می‌کنم «علوم نگارشی» یا «کلمات توقف» را از کلیدواژه‌های خبری حذف نکنید تا بتوانید سبک استفاده از کلمات کلیدی خبری آن‌ها را بهتر ببینید.
برای تجزیه و تحلیل متفاوت، می توانید از "" به عنوان جداکننده استفاده کنید.
تفاوت نتیجه در زیر آمده است.
روی «شکاف(») تمرکز کنید.»
در زیر می توانید تفاوت نتیجه را برای تجسم مشاهده کنید.
از «چلسی» تا «ولادمیر پوتین» یا «جنگ اوکراین» و «رومن آبراموویچ»، بیشتر این عبارات با روزهای اولیه تهاجم روسیه به اوکراین مطابقت دارند.
از بلوک کد زیر برای تجسم دو کلمه کلیدی خبری نقشه سایت خبری مختلف به صورت تعاملی استفاده کنید.
در زیر می توانید نتیجه را مشاهده کنید.
برای تعامل با نمودار زنده، اینجا را کلیک کنید .
در بخش بعدی، دو نمونه فرعی متفاوت برای مقایسه n-گرم های وب سایت های خبری را مشاهده خواهید کرد.
از بلوک کد زیر برای قرار دادن محبوب ترین n-gram های منابع خبری از عناوین اخبار در یک طرح فرعی استفاده کنید.
در زیر می توانید نتیجه را مشاهده کنید.
مثال تجسم داده در بالا کاملاً ثابت است و هیچ گونه تعاملی ارائه نمی دهد.
اخیراً، الیاس دباس ، خالق Advertools، اسکریپت جدیدی را به اشتراک گذاشته است تا تعداد مقاله، n-gram و تعداد آنها را از منابع خبری بگیرد.
برای داشبورد داده های بهتر، دقیق تر و تعاملی اینجا را بررسی کنید.
مثال بالا از الیاس دباس است، و او نشان می‌دهد که چگونه می‌توان تعداد کل مقالات، پرتکرارترین کلمات و n-گرم را از وب‌سایت‌های خبری به روشی تعاملی گرفت.
این آموزش برای ارائه یک جلسه کدنویسی آموزشی پایتون برای گرفتن کلمات کلیدی، n-gram، الگوهای عبارت، زبان ها و انواع دیگر اطلاعات مرتبط با SEO از وب سایت های خبری طراحی شده است.
سئوی اخبار به شدت به بازتاب های سریع و ایجاد مقاله همیشه فعال متکی است.
ردیابی زوایای رقبا و روش‌های پوشش دادن یک موضوع نشان می‌دهد که چگونه رقبا بازتاب سریعی برای روند جستجو دارند.
ایجاد یک داشبورد Google Trends و منبع خبری Ngram Tracker برای تجزیه و تحلیل سئوی اخبار مقایسه ای و تکمیلی بهتر خواهد بود.
در این مقاله هر از چند گاهی توابع سفارشی یا لوپ های پیشرفته را قرار داده ام و گاهی اوقات موارد را ساده نگه داشته ام.
افراد مبتدی تا حرفه‌ای پایتون می‌توانند از آن برای بهبود روش‌های ردیابی، گزارش‌دهی و تجزیه و تحلیل خود برای SEO اخبار و فراتر از آن بهره ببرند.
منابع بیشتر:
تصویر ویژه: BestForBest/Shutterstock
خبرنامه روزانه ما را از لورن بیکر بنیانگذار SEJ در مورد آخرین اخبار در صنعت دریافت کنید!
Koray Tugberk GUBUR بنیانگذار و صاحب SEO و دیجیتال جامع است. Koray Tuğberk مطالعات موردی سئو، تحقیقات، … [بیو کامل را بخوانید]
برای دریافت آخرین اخبار صنعت در خبرنامه روزانه ما مشترک شوید.
برای دریافت آخرین اخبار صنعت در خبرنامه روزانه ما مشترک شوید.

source
سئو سایت

About mohtavaclick

Check Also

به روز رسانی لینکدین شامل پیشرفت هایی در نتایج جستجو می شود

به‌روزرسانی‌های لینکدین شامل بهبودهایی در کشف محتوا، زیرنویس‌ها برای رویدادهای هم‌زمان و امکان اشتراک‌گذاری نظرات …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

قالب وردپرس وردپرس متخصص وردپرس متخصص ووکامرس افزونه وردپرس کابین وردپرس