شنبه ۱ دی ۱۴۰۳ |  عضویت / ورود

لیستی از کلمات بازدارنده در زبان فارسی - Stop Words in Persian


کلمات بازدارنده یا Stop Words یا Stop List به کلماتی گفته می‌شود که در اکثر متون یافت می‌شوند و جزء کلمات کلیدی به حساب نمی‌آیند. حروف اضافه (مانند «به»، «از» و ...) و حروف ربط (مانند «که»، «پس» و ...) و ضمایر (مانند «من»، ««او» و...) جزء این لیست خواهند بود.

کلمات بازدارنده برای برنامه‌نویسان جهت تحلیل کوئری‌های جستجو و حذف کلمات اضافه بسیارمهم هستند. (در مورد محل و روش استفاده، در مطالب بعد صحبت خواهم کرد)

در جستجوهای من متأسفانه یک دیتابیس خوب و کامل از این کلمات پیدا نشد. ای کاش شورای عالی انفورماتیک و سازمان‌های مربوطه یک دیتابیس تأیید شده و رسمی ارائه کنند.

به هر حال، لیست زیر از این PDF با عنوان A List of Farsi StopWords که ظاهراً یک مقاله چاپ شده در مجلات است استخراج شده و می‌تواند برای برنامه‌نویسان مفید باشد:

‏دیگران
همچنان
مدت
چیز
سایر
جا
طی
کل
کنونی
بیرون
مثلا
کامل
کاملا
آنکه
موارد
واقعی
امور
اکنون
بطور
بخشی
تحت
چگونه
عدم
نوعی
حاضر
وضع
مقابل
کنار
خویش
نگاه
درون
زمانی
بنابراین
تو
خیلی
بزرگ
خودش
جز
اینجا
مختلف
توسط
نوع
همچنین
آنجا
قبل
جناح
اینها
طور
شاید
ایشان
جهت
طریق
مانند
پیدا
ممکن
کسانی
جای
کسی
غیر
بی
قابل
درباره
جدید
وقتی
اخیر
چرا
بیش
روی
طرف
جریان
زیر
آنچه
البته
فقط
چیزی
چون
برابر
هنوز
بخش
زمینه
بین
بدون
استفاد
همان
نشان
بسیاری
بعد
عمل
روز
اعلام
چند
آنان
بلکه
امروز
تمام
بیشتر
آیا
برخی
علیه
دیگری
ویژه
گذشته
انجام
حتی
داده
راه
سوی
ولی
زمان
حال
تنها
بسیار
یعنی
عنوان
همین
هبچ
پیش
وی
یکی
اینکه
وجود
شما
پس
چنین
میان
مورد
چه
اگر
همه
نه
دیگر
آنها
باید
هر
او
ما
من
تا
نیز
اما
یک
خود
بر
یا
هم
را
این
با
آن
برای
و
در
به
که
از

کلمات زیر نیز افعال بازدارنده هستند:

    ‏کن     کرد     کردن
    ‏باش     بود     بودن
    ‏شو     شد     شدن
    ‏دار     داشت     داشتن
    ‏خواه     خواست     خواستن
    ‏گوی     گفت     گفتن
    ‏گیر     گرفت     گرفتن
    ‏آی     آمد     آمدن
    ‏توان     توانست     توانستن
    ‏یاب     یافت     یافتن
    ‏آور     آورد     آوردن
دقت کنید که افعال صرف‌شده‌ی این افعال نیز باید مد نظر باشند.

این مطلب به مرور کامل‌تر خواهد شد...

موفق باشید؛
حمید رضا نیرومند


[ارسال شده در مورخه : جمعه، 25 مهر، 1393 توسط Hamid]
[ #برنامه‌‌نویسی]



بازدیدها از این مطلب: 15639 بار   امتیاز متوسط : 0  تعداد آراء: 0   امتیاز دهید:

نظرات طرح شده

نام: [ کاربر جدید ]
ایمیل:

نظر:


اجازه استفاده از تگهای HTML را ندارید


جمع عدد 10 با 12 را در كادر زیر وارد نمایید:
(این كار برای جلوگیری از فعالیت موتورهای اسپمر است)


* توجه: نظر شما بعد از بررسی، نمایش داده خواهد شد.

imanmoodi                توسط imanmoodi در مورخه : یکشنبه، 27 مهر، 1393(لینک نظر)
اتفاقاً چند وقت قبل می‌خواستم برای یه برنامه‌ای امکانی فراهم کنم که از روی محتوای مطلب به صورت خودکار کلمات کلیدی را تولید کنه فکر کنم یه لیست 1000 تایی از این جور کلمات درست کردم!

آخرش آمدم متن مقالات مختلف را تست کردم بازم لابه‌لای کلمات از این دست کلمات پیدا میشد!!

اساساً تمامی ندارن که بشه یه لیست کامل ساخت :)))


[ ارسال جوابیه ]

    abbas (امتیاز : 0)
    توسط کاربر مهمان در مورخه : پنجشنبه، 29 آبان، 1393
    سلام اگه لطف کنی این لیست را واسه ما هم به اشتراک بزاری خیلی ممنون می شم


    [ ارسال جوابیه ]


hamed (امتیاز : 0)(لینک نظر)
توسط hamed در مورخه : پنجشنبه، 10 خرداد، 1397
https://github.com/kharazi/persian-stopwords
این لیست کامل تری هست. لطفا این رو هم اضافه کنید


[ ارسال جوابیه ]