اگر از پارسخوان (خواننده متن فارسی) استفاده کرده باشید، میدانید که این نرم افزار، قادر به تشخیص کلماتی که کسره پایانی میگیرند نیست و آنها را بدون کسره میخواند.
یعنی اگر در پارسخوان عبارت "قابل توجه کاربران عزیز" را تایپ کنید، پارسخوان متوجه نمیشود که باید به کلمه "توجه" و "کاربران" کسره پایانی بدهد. البته اگر کاربر خودش کسره را در پایان کلمات تایپ کند، پارسخوان کلمه را با کسره خواهد خواند.
تشخیص کسره پایانی، یکی از پیچیدهترین مباحث در زبان فارسی است که گروههای بسیار مطرحی (مثل گروه نورسافت) روی این موضوع کار کردهاند، اما هنوز به الگوریتمی که بتوان گفت نتیجه مطلوبی عرضه میکند، دست نیافتهاند و به نظر بنده این الگوریتم بسیار پیچیدهتر از این حرفها خواهد بود و نیاز به یک نوع هوش مصنوعی عظیم خواهد داشت. دلیل پیچیدگی این موضوع را در مستندات پارسخوان توضیح دادهام. (کلید F1 را در نرم افزار پارسخوان بزنید)
اما چیزی که در مرحله اول به ذهن ما میرسد این است که مانند علامتگذاری کلمات فارسی، ما عباراتی که در آنها یک کلمه قطعاً کسره میگیرد را جمع آوری کنیم و خودمان کار کسرهگذاری را انجام دهیم.
به طور مثال به عبارت "قابل توجه" دقت کنید. میتوان گفت قطعاً در تمامی متون، در صورت که کلمه "قابل" و بعد از آن "توجه" بیاید، این عبارت با کسره و به صورت "قابلِ توجه" خوانده خواهد شد. عبارات زیادی این شرایط را دارند. عبارت "به طورِ مثال"، "به احتمالِ زیاد"، و ...
البته ممکن است بگویید تعداد عباراتی که ممکن است به این صورت باشند بینهایت میشود! ما هم این را قبول داریم. اما ما دنبال عباراتی هستیم که بسامد (Frequency) زیادی دارند و احتمال وجود آنها در یک متن فارسی زیاد است.
در صورتی که موفق به جمع آوری تعداد قابل توجهی عبارت شویم، در نسخههای بعدی پارسخوان، پیش از تبدیل متن به صدا، ابتدا یک پیشپردازش روی متن انجام خواهیم داد و تمام عباراتی که در این دیتابیس موجود هستند را به عبارت کسرهدار تبدیل خواهیم کرد و سپس متن را به صدا تبدیل میکنیم.
خواهشی که از شما داریم این است که اگر در حین استفاده از پارسخوان و یا نوشتن یک مطلب، به عبارتی برخوردید که فکر میکنید قطعاً و قطعاً با قرارگیری این کلمات، یکی از آنها کسره میگیرد، آنرا در آدرس زیر درج نمایید:
http://parskhan.aftab.cc/add_phrase/
دقت کنید که عبارتی مثل "دوست عزیز" هر چند که به نظر میرسد همیشه کسره میگیرد، اما در جملهای مثل "برای من، این دوست، عزیز است" این دو کلمه هر چند که در کنار هم هستند، اما "دوست" کسره نمیگیرد. پس این عبارت به کار ما نمیآید. پس خواهش میکنیم در درج عبارات نهایت دقت را داشته باشید (هر چند که ما نهایتاً یک بازبینی روی عبارات خواهیم داشت)
موفق باشید؛
حمید رضا نیرومند