کلمات بازدارنده یا Stop Words یا Stop List به کلماتی گفته میشود که در اکثر متون یافت میشوند و جزء کلمات کلیدی به حساب نمیآیند. حروف اضافه (مانند «به»، «از» و ...) و حروف ربط (مانند «که»، «پس» و ...) و ضمایر (مانند «من»، ««او» و...) جزء این لیست خواهند بود.
کلمات بازدارنده برای برنامهنویسان جهت تحلیل کوئریهای جستجو و حذف کلمات اضافه بسیارمهم هستند. (در مورد محل و روش استفاده، در مطالب بعد صحبت خواهم کرد)
در جستجوهای من متأسفانه یک دیتابیس خوب و کامل از این کلمات پیدا نشد. ای کاش شورای عالی انفورماتیک و سازمانهای مربوطه یک دیتابیس تأیید شده و رسمی ارائه کنند.
به هر حال، لیست زیر از این PDF با عنوان A List of Farsi StopWords که ظاهراً یک مقاله چاپ شده در مجلات است استخراج شده و میتواند برای برنامهنویسان مفید باشد:
دیگران
همچنان
مدت
چیز
سایر
جا
طی
کل
کنونی
بیرون
مثلا
کامل
کاملا
آنکه
موارد
واقعی
امور
اکنون
بطور
بخشی
تحت
چگونه
عدم
نوعی
حاضر
وضع
مقابل
کنار
خویش
نگاه
درون
زمانی
بنابراین
تو
خیلی
بزرگ
خودش
جز
اینجا
مختلف
توسط
نوع
همچنین
آنجا
قبل
جناح
اینها
طور
شاید
ایشان
جهت
طریق
مانند
پیدا
ممکن
کسانی
جای
کسی
غیر
بی
قابل
درباره
جدید
وقتی
اخیر
چرا
بیش
روی
طرف
جریان
زیر
آنچه
البته
فقط
چیزی
چون
برابر
هنوز
بخش
زمینه
بین
بدون
استفاد
همان
نشان
بسیاری
بعد
عمل
روز
اعلام
چند
آنان
بلکه
امروز
تمام
بیشتر
آیا
برخی
علیه
دیگری
ویژه
گذشته
انجام
حتی
داده
راه
سوی
ولی
زمان
حال
تنها
بسیار
یعنی
عنوان
همین
هبچ
پیش
وی
یکی
اینکه
وجود
شما
پس
چنین
میان
مورد
چه
اگر
همه
نه
دیگر
آنها
باید
هر
او
ما
من
تا
نیز
اما
یک
خود
بر
یا
هم
را
این
با
آن
برای
و
در
به
که
از
کلمات زیر نیز افعال بازدارنده هستند:
کن کرد کردن
باش بود بودن
شو شد شدن
دار داشت داشتن
خواه خواست خواستن
گوی گفت گفتن
گیر گرفت گرفتن
آی آمد آمدن
توان توانست توانستن
یاب یافت یافتن
آور آورد آوردن
دقت کنید که افعال صرفشدهی این افعال نیز باید مد نظر باشند.
این مطلب به مرور کاملتر خواهد شد...
موفق باشید؛
حمید رضا نیرومند