چگونه بفهمیم یک کلمه در یک سایت یا مطلب کلمه کلیدی است؟ (معرفی الگوریتم «فراوانی وزنی»)

در مطلب قبل (یعنی الگوریتمِ پیدا کردن مطالب مرتبط با یک مقاله از بین صدها مقاله) در بخشی از مطلب به این موضوع اشاره کردم که برای اینکه ما مطالب مرتبط با یک مطلب را از دیتابیس پیدا کنیم، نیاز داریم که کلمات کلیدی مطلب فعلی را به دست آوریم و اشاره کردم که برای این کار نیاز به دیتابیسی داریم به نام Go List و گفتم که چنین دیتابیسی فعلاً برای رشته کامپیوتر وجود ندارد.

اما بعد از آن مطلب، دنبال راه حلی گشتم که بشود بدون داشتن هر نوع دیتابیسی (حتی اگر دیتابیس Stop Words یا کلمات بازدارنده مثل «از» و «به» و ...) را نداشته باشیم، بتوانیم کلمات کلیدی را از داخل یک متن استخراج کنیم.

دقت کنید که اگر حتی دیتابیس Go List موجود می‌بود، ممکن بود کلماتی که در آن دیتابیس است برای یک سایت خاص کلمه کلیدی به حساب نیاید. به طور مثال فرض کنید دیتابیس کلمات کلیدی بگوید که کلمه «چاپ» در رشته کامپیوتر یک کلمه کلیدی است اما این کلمه در سایتی مانند سایت ما واقعاً کلمه کلیدی نیست! ما اصلاً در مورد چاپ صحبت خاصی نداشته‌ایم! این موضوع نشان می‌دهد که کلمات کلیدی یک مطلب یا سایت باید از طریق خود آن مقاله یا مقالات آن سایت به دست آید.

در این مطلب قصد دارم روشی را معرفی کنم که با استفاده از آن می‌توان تا حد زیادی کلمات بازدارنده (Stop Words) و کلمات نیمه بازدارنده (یا Semi-Stop Words: کلماتی مانند «ترمیم» و «قدیمی» در عنوان «آموزش ترمیم عکس قدیمی در فتوشاپ») و کلمات کلیدی (یا Go List یا Keywords: کلماتی مانند «آموزش» و «عکس» و «فتوشاپ» در عنوان «آموزش ترمیم عکس قدیمی در فتوشاپ») را از طریق مطالب سایت به دست آورد.

این روش «فراوانی وزنی» یا TF-IDF نام دارد:

TF-IDF مخفف Term Frequency - Inverse Document Frequecy و به معنی «فراوانی کلمه-عکسِ فراوانی سند» است.

در مورد این روش به خوبی در این مقاله انگلیسی و ترجمه‌ی آن توضیح داده شده است:

در این شیوه به لغات یک وزن بر اساس فراوانی آن در سند داده می شود. در واقع این سیستم وزن‌دهی نشان می‌دهد چقدر یک کلمه برای یک سند (مدرک) مهم است. این مساله کاربردهای بسیاری در بازیابی اطلاعات دارد. وزن کلمه با افزایش تعداد تکرار آن در متن افزایش می‌یابد، اما توسط تعداد کلمات در متن کنترل می‌شود، چرا که می‌دانیم در صورت زیاد بودن طول متن، بعضی از کلمات به طور طبیعی بیشتر از دیگران تکرار خواهند شد، اگرچه چندان اهمیتی در معنی نداشته باشند.

نتیجه محاسباتی که خواهم گفت، عددی می‌شود که tfidf نامیده می‌شود. با تغییر رنج این tfidf آن سه دیتابیس به دست خواهند آمد. به طور مثال اگر tfidf را نزدیک به 0 بگیریم، کلمات
Stop Words به دست می‌آیند. اگر این عدد را نزدیک‌ترین مقدار به بالاترین عددی که به دست می‌آید بگیریم، کلمات کلیدی به دست می‌آید و بقیه هم که کلمات نیمه-بازدارنده می‌شوند.

tfidf چطور به دست می‌آید؟

برای به دست آوردن این عدد در مورد یک کلمه، به مواد زیر نیاز دارید:

Tf : برای به دست آوردن Tf مربوط به یک کلمه در یک دیتابیس باید ببینید کدام سندها حاوی آن کلمه هستند و در هر سند آن کلمه چند بار تکرار شده است؟ ماکزیمم تعدادی که این کلمه در یک سند تکرار شده را Tf بگیرید. به مثال زیر دقت کنید:

در این مثال دو سند داریم. که تعداد تکرار کلمات آن سند مقابل هر کلمه نوشته شده. اگر شما Tf مربوط به کلمه example را بخواهید، پاسخ، ۳ خواهد بود. چون این کلمه در سند دوم بیشترین تکرار را داشته که ۳ بار بوده. Tf کلمه a برابر با ۲ می‌شود چون ۲ بار در سند اول تکرار شده.

idf: کمی سخت‌تر به دست می‌آید:

این فرمول یعنی idf به این صورت محاسبه می‌شود: لگاریتمِ [تعداد کل مقالات تقسیم بر (تعداد مقالاتی که شامل این کلمه می‌شوند+1)]

این معیار به تنهایی برای یافتن کلمات بازدارنده کافی است! فرض کنید کل مقالات شما ۱۰۰ تا باشد و کلمه‌ی «در» در همه مقالات تکرار شده باشد. در این صورت لگاریتم ۱۰۰ تقسیم بر ۱۰۰ (یعنی لگاریتم ۱) می‌شود: 0
هر گاه این معیار 0 یا خیلی نزدیک به 0 شد یعنی آن کلمه جزء کلمات بازدارنده است.

tfidf: این معیار که پارامتر تصمیم‌گیری در مورد کلیدی بودن یا نبودن یک کلمه است از طریق ضرب دو پارامتر بالا به دست می‌آید:

شما با کنترل tfidf می‌توانید انواع کلمه (کلیدی، غیرکلیدی و بازدارنده) را به دست آورید...

دقت کنید که به جای متن مقالات می‌توانید عنوان مقالات را هم ملاک قرار دهید. اما با توجه به اینکه تعداد تکرار یک کلمه در عنوان، معمولاً ۱ است پس Tf را 1 در نظر می‌گیریم و یعنی می‌توان آن‌را حذف کرد و فقط idf را ملاک قرار داد.

به طور مثال اگر ما بخواهیم مقالات مرتبط با همین مقاله (چگونه بفهمیم یک کلمه در یک سایت کلمه کلیدی است؟ [معرفی الگوریتم «فراوانی وزنی]) را از بین حدود ۱۲۰۰ مقاله سایت به دست آوریم باید این روال را طی کنیم:

- اولاً تعداد کل مقالات را به دست می‌آوریم. (فرض کنید ۱۲۰۰ مقاله)

- تک تک کلمات عنوان را در دیتابیس جستجو کنیم. (مثلاً کلمه «چگونه» را)

- تعداد مقالاتی که هر کلمه را شامل می‌شود محاسبه می‌کنیم. (مثلاً الان کلمه «چگونه» در ۴۲ مقاله تکرار شده و کلمه «در» در ۳۱۳ مقاله)

- لگاریتم تعداد کل مقالات تقسیم بر تعداد مقالاتی که هر کلمه تکرار شده را محاسبه می‌کنیم. (مثلاً در مورد کلمه «چگونه» لگاریتم ۱۲۰۰ تقسیم بر ۴۲ می‌شود: ۱.۴ و لگاریتم «در» می‌شود: 0.5)

- هر کلمه‌ای که نتیجه‌اش نزدیک‌تر به 0 باشد یعنی کمتر کلیدی است...

این الگوریتم را در بخش «آموزش‌های آفتابگردان» به کار گرفتم. در پایین آموزش‌ها به مطالب مرتبط نگاه کنید... به نظر می‌رسد دقیق‌تر عمل می‌کند...

موفق باشید؛
حمید رضا نیرومند

[ارسال شده در مورخه : شنبه، 24 آبان، 1393 توسط Hamid]
[ #فناوری اطلاعات]

صلوات: صلوات فرستادن باعث بخشش گناهان می‌شود اللَّٰهُمَّ صَلِّ عَلَىٰ مُحَمَّدٍ وَآلِ مُحَمَّدٍ لا إله إلّا اللّه اللَّٰهُمَّ صَلِّ عَلَىٰ مُحَمَّدٍ وَآلِ مُحَمَّد�... در مطلب: ذکر ایام هفته (+صوت) و دعای روزهای هفته با صدای حاج مهدی سماواتی (متن، ترجمه، صوت و تصویر)

: وظیفه ما چیست؟ مثل انجمن حجتیه بگیریم بخوابیم و فقط دست به دعا ببریم و یا باید برخاست؟ قُلْ إِنَّما أَعِظُکُمْ بِواحِدَة أَنْ تَقُومُوا لِلّهِ مَثْنى وَ فُرادى ... �... در مطلب: چرا خدا ظالمان را نابود نمی‌کند؟

مهدی تدینی: شورش گرسنگان در ایران؟ در فرانسه مردم سر خرید دستگاه تهویه هوا و پنکه با هم گلاویز می‌شن و کتک‌کاری می‌کنن. از روی هم رد می‌شن، همدیگر رو زمین می‌زنن و بکش‌بکش م... در مطلب: چرا خدا ظالمان را نابود نمی‌کند؟

روح الله: پس زمینه در فایل های پی ان جی متحرک نمایش داده نمیشه و این حسن بزرگیه در مطلب: فرمت PNG نیز حالت متحرک را پشتیبانی می‌کند (Animated PNG)

دکتر سلام: افسانه یا واقعیت؛ چرا هنوز در عصر پزشکی مدرن، از مزاج سرد و گرم سخن گفته می‌شود؟ https://www.1pezeshk.com/archives/2026/02/why-is-the-idea-of-hot-and-cold-temperament-still-misinterpreted.html... در مطلب: آشنایی با موضوع مهمی به نام «مزاج» در نیم ساعت ؛ فایل صوتی صحبت‌های استاد نیرومند در مورد مزاج

امیرعلی: سلام.میشه اگه آ درس یزدم دارید برای تل گیری دارید بهم بدید در مطلب: معضلی به نام « قاریق بچه »! - درمان یک بیماری: فرزندم بی حال و مریض شده

ایران: سلام. بی زحمت از تجربیات باغداری تون یه مقاله صفر تا صد باغداری بنویسید تا ماها که بی تجربه ایم استفاده کنیم. با تشکر... در مطلب: تبر فیسکارس X11 بخریم یا نخریم؟

Hamid: عین پیچ‌گوشتی شارژی عمل می‌کنه. اون هم به داخل فشار می‌دی اما چون به چپ می‌پیچه باز میشه. برای همه خوبه... دیروز با دلرش چقدر سوراخ روی آلومنیوم و پلاستیک انجام دادم... در مطلب: پیچ‌گوشتی فشاری بخریم یا نخریم؟ + تبدیل به دلر دستی

Hamid: این حرف شما منبع الهی یا قانونی یا ... داره؟ کی گفته ما نمی‌تونیم دیگران رو قضاوت کنیم؟ هر لحظه ما داریم دیگران رو قضاوت می‌کنیم و با این قضاوت زندگی می‌کنیم... رانند�... در مطلب: صرفه‌جویی‌هایی که ما در زمینه خورد و خوراک انجام می‌دهیم

qwerty13: سلام مطلب جالبی بود، البته من مته دستی فشاری رو دیده بودم و قیمت مناسب‌تری ازش در بازار هست. نظر شخصیم اینه که باز کردن پیچ معمولا به خاطر خوردگی گُلِ پیچ چالش داره �... در مطلب: پیچ‌گوشتی فشاری بخریم یا نخریم؟ + تبدیل به دلر دستی


تِستا ؛ سیستم مدیریت آزمون آنلاین	نُمرا ؛ سیستم مدیریت آموزش

حُجرا ؛ سیستم مدیریت محتوا	تیکفا ؛ سامانه پشتیبانی مشتریان

لینکا ؛ سیستم مدیریت و فروش لینک	مَدفا ؛ طرح مدرسه هوشمند

پروژا ؛ سیستم مدیریت پروژه	بعدی؟

چگونه بفهمیم یک کلمه در یک سایت یا مطلب کلمه کلیدی است؟ (معرفی الگوریتم «فراوانی وزنی»)

نظرات طرح شده

درباره‌ آفتابگردان

محصولات آفتابگردان

بلوک کاربری

موضوعات اخبار

آخرین نظرات کاربران

مطالب پیشنهادی