پنج‌شنبه ۹ فروردین ۱۴۰۳ |  عضویت / ورود

در کسره گذاری عبارات فارسی به پارس‌خوان کمک کنید


اگر از پارس‌خوان (خواننده متن فارسی) استفاده کرده باشید، می‌دانید که این نرم افزار، قادر به تشخیص کلماتی که کسره پایانی می‌گیرند نیست و آن‌ها را بدون کسره می‌خواند.

یعنی اگر در پارس‌خوان عبارت "قابل توجه کاربران عزیز" را تایپ کنید، پارس‌خوان متوجه نمی‌شود که باید به کلمه "توجه" و "کاربران" کسره پایانی بدهد. البته اگر کاربر خودش کسره را در پایان کلمات تایپ کند، پارس‌خوان کلمه را با کسره خواهد خواند.

تشخیص کسره پایانی، یکی از پیچیده‌ترین مباحث در زبان فارسی است که گروه‌های بسیار مطرحی (مثل گروه نورسافت) روی این موضوع کار کرده‌اند، اما هنوز به الگوریتمی که بتوان گفت نتیجه مطلوبی عرضه می‌کند، دست نیافته‌اند و به نظر بنده این الگوریتم بسیار پیچیده‌تر از این حرف‌ها خواهد بود و نیاز به یک نوع هوش مصنوعی عظیم خواهد داشت. دلیل پیچیدگی این موضوع را در مستندات پارس‌خوان توضیح داده‌ام. (کلید F1 را در نرم افزار پارس‌خوان بزنید)

http://parskhan.aftab.cc/img/parskhan_screenshot.png

اما چیزی که در مرحله اول به ذهن ما می‌رسد این است که مانند علامت‌گذاری کلمات فارسی، ما عباراتی که در آن‌ها یک کلمه قطعاً کسره می‌گیرد را جمع آوری کنیم و خودمان کار کسره‌گذاری را انجام دهیم.

به طور مثال به عبارت "قابل توجه" دقت کنید. می‌توان گفت قطعاً در تمامی متون، در صورت که کلمه "قابل" و بعد از آن "توجه" بیاید، این عبارت با کسره و به صورت "قابلِ توجه" خوانده خواهد شد. عبارات زیادی این شرایط را دارند. عبارت "به طورِ مثال"، "به احتمالِ زیاد"، و ...

البته ممکن است بگویید تعداد عباراتی که ممکن است به این صورت باشند بی‌نهایت می‌شود! ما هم این را قبول داریم. اما ما دنبال عباراتی هستیم که بسامد (Frequency) زیادی دارند و احتمال وجود آن‌ها در یک متن فارسی زیاد است.

 

در صورتی که موفق به جمع آوری تعداد قابل توجهی عبارت شویم، در نسخه‌های بعدی پارس‌خوان، پیش از تبدیل متن به صدا، ابتدا یک پیش‌پردازش روی متن انجام خواهیم داد و تمام عباراتی که در این دیتابیس موجود هستند را به عبارت کسره‌دار تبدیل خواهیم کرد و سپس متن را به صدا تبدیل می‌کنیم.

 

خواهشی که از شما داریم این است که اگر در حین استفاده از پارس‌خوان و یا نوشتن یک مطلب، به عبارتی برخوردید که فکر می‌کنید قطعاً و قطعاً با قرارگیری این کلمات، یکی از آن‌ها کسره می‌گیرد، آن‌را در آدرس زیر درج نمایید:

http://parskhan.aftab.cc/add_phrase/

دقت کنید که عبارتی مثل "دوست عزیز" هر چند که به نظر می‌رسد همیشه کسره می‌گیرد، اما در جمله‌ای مثل "برای من، این دوست، عزیز است" این دو کلمه هر چند که در کنار هم هستند، اما "دوست" کسره نمی‌گیرد. پس این عبارت به کار ما نمی‌آید. پس خواهش می‌کنیم در درج عبارات نهایت دقت را داشته باشید (هر چند که ما نهایتاً یک بازبینی روی عبارات خواهیم داشت)

موفق باشید؛
حمید رضا نیرومند

کلمات کلیدی: پارس خوان، خواننده متن فارسی ، کسره گذاری، گروه نورسافت، مشکل نرم افزار پارس خوان، رفع مشکل پارس خوان ،نرم افزار تبدیل متن به صدا، نرم افزار پارس خوان

[ارسال شده در مورخه : یکشنبه، 10 اردیبهشت، 1391 توسط Hamid]
[ #اطلاعیه‌های آفتابگردان]



بازدیدها از این مطلب: 5545 بار   امتیاز متوسط : 0  تعداد آراء: 0   امتیاز دهید:

نظرات طرح شده

نام: [ کاربر جدید ]
ایمیل:

نظر:


اجازه استفاده از تگهای HTML را ندارید


جمع عدد 8 با 8 را در كادر زیر وارد نمایید:
(این كار برای جلوگیری از فعالیت موتورهای اسپمر است)


* توجه: نظر شما بعد از بررسی، نمایش داده خواهد شد.

پرویز (امتیاز : 0)(لینک نظر)
توسط پرویز در مورخه : دوشنبه، 11 اردیبهشت، 1391
سلام



به نظر من شما باید رو ساختار جمله های فارسی بیشتر تحقیق کنید. منم برنامه نویسم اگه کمکی خواستین در خدمتم.


[ ارسال جوابیه ]

    Re: پرویز (امتیاز : 1)
    توسط Hamid در مورخه : دوشنبه، 11 اردیبهشت، 1391
    سلام و ممنون.

    بله، این مشخصه که باید بیشتر تحقیق کنیم، اما کارهای مهم‌تری نسبت به کار عمقی روی پارس‌خوان داریم که صلاح می‌دونیم که روی اونا کار کنیم.

    گفتن این جملات ساده‌ست، اما عمل برای ما مهمه.

    اگر الگوریتم و پیشنهادات بهتری دارید لطفاً برای ما ارسال کنید.

    یا اینکه با توجه به اینکه سورس پارس‌خوان موجوده، اگر فرصت کردید و الگوریتم بهتری توی ذهنتون هست، سورس‌ها رو نسبت به الگوریتمتون اصلاح کنید و برای ما ارسال کنید.


    [ ارسال جوابیه ]


میثم و                توسط میثم و در مورخه : چهارشنبه، 13 اردیبهشت، 1391(لینک نظر)
با سلام به جناب نیرومند که همیشه سخن هاش و نظرهاش توی سخت ترین مراحل زندگیم بهم کمک کرده همیشه از خدا براتون بهترین |آرزو ها رو دارم پروژه ی پار خوان با تمام احترام خیلی بلا استفاده هست چون اصلا با گوش دادن به متن هیچی متوجه نمیشه آدم بهتره الگوریتمش رو کمی بیشتر گسترش بدید به نظر من خیلی جای کار داره و انتشار همچین نسخه ای زیاد کار درستی نیست بهتر بود نرم افزار رو در حد قابل قبولی میبردید و بهد انتشار می دادید. در هر صوت موفق باشید.


[ ارسال جوابیه ]

    Re: میثم و (امتیاز : 1)
    توسط Hamid در مورخه : چهارشنبه، 13 اردیبهشت، 1391
    سلام؛

    دوست عزیز، شما به طور مثال این فایل رو دانلود کنید:

    http://sana.savehsara.aftab.cc/sana5/content/30.acc/bg.mp3

    یعنی واقعاً متوجه نمی‌شید این فایل صوتی چی می‌گه؟ یعنی من به گوش‌های خودم شک کنم؟

    نمونه‌های دیگه از خروجی پارس‌خوان در این صفحه موجوده:

    http://sana.savehsara.aftab.cc/sana5/

    (صفحات مختلف رو مرور کنید)



    متأسفانه بعضی از افراد انتظار دارن یک نرم افزار با قرائت ماشینی براشون قصه شب تعریف کنه! یا آواز بخونه!



    خیلی بعیده شما نرم افزاری پیدا کنید که واضح‌تر از فایل صوتی بالا بهتون خروجی بده.



    تأکید می‌کنم که ما بارها گفتیم، در پارس‌خوان حتماً و حتماً ابتدا از متن یک خروجی صوتی بگیرید بعد به اون گوش کنید. مستقیماً روی Play کلیک نکنید که اگر سرعت هاردتون مناسب نبود، صدا قطع و وصل بشه.



    به هر حال، پارس‌خوان حداقل برای بنده نعمتی هست که به سختی می‌تونم شکرش رو به جا بیارم ;)



    موفق باشید.


    [ ارسال جوابیه ]


بایدها (امتیاز : 0)(لینک نظر)
توسط بایدها در مورخه : دوشنبه، 25 اردیبهشت، 1391
هیچ راهی جز حذف رسم الخط عربی کنونی و جایگزینی آن با رسم الخطهای که همه صداها در آن نماینده دارند نیست.


[ ارسال جوابیه ]


آسدجواد                توسط آسدجواد در مورخه : چهارشنبه، 3 خرداد، 1391(لینک نظر)
سلام دوست عزیز

بعید می دونم عباراتی باشه که قطعا قطعا کسره پایانی داشته باشن.

مثلا همون "قابل توجه" که شما فرمودید:

یه مثال

منِ ناقابل توجه کردم که ...یا لطفا به سخن این ناقابل توجه کنید


[ ارسال جوابیه ]