پنج‌شنبه ۱ آذر ۱۴۰۳ |  عضویت / ورود

S2F ؛ ابزاری برای تبدیل متون گفتاری فارسی به متون نوشتاری (کار جدید آفتابگردان)


در آفتابگردان روی پروژه‌های کوچک و بزرگ زیادی مرتبط با زبان فارسی کار کرده‌ایم. از جمله:

پارس‌خوان؛ خواننده متن فارسی
MagicFa؛ برنامه رفع دردسر تایپ حروف انگلیسی به جای فارسی
اصلاح کننده آنلاین تایپ فارسی
و دیگر خدمات و محصولات...

مدتی است که با همکاری تعدادی از مدیران، روی نرم افزاری جهت تبدیل متون گفتاری به نوشتاری کار می‌کنیم.

هم اکنون این نرم افزار، آماده استفاده است:

http://yourl.ir/s2f

https://img.aftab.cc/news/90/s2f.png

کاربرد این برنامه چیست؟

متن گفتاری معمولاً در انجمن‌های اینترنتی رواج دارد. یعنی صمیمیتی که بین کاربران در انجمن‌ها وجود دارد، معمولاً مانع از این می‌شود که با لحن رسمی مطلبی را بنویسند. به طور مثال به این جمله دقت کنید:

اگه اون گزینه رو کلیک کنید، یه پنجره باز می‌شه که میتونید رمز عبورتون رو از اونجا عوض کنید.

این بخشی از آموزش تغییر پسورد یک سرویس ایمیل است.

حال، اگر بخواهیم این مطلب را در یک محل رسمی منتشر کنیم، طبیعتاً این لحن، چندان مناسب کاربردهای رسمی نیست.

بنابراین، نیاز به برنامه‌ای جهت تبدیل متون گفتاری فارسی به متون با لحن نوشتاری احساس شد.

S2F برنامه‌ای جهت رفع این نیاز است.

جمله بالا را به آن بدهید تا چنین جمله‌ای را دریافت کنید:

اگر آن گزینه را کلیک کنید، یک پنجره باز می‌شود که می‌توانید رمز عبورتان را از آن‌جا عوض کنید.  

S2F مخفف Slang to Formal به معنی تبدیل زبان عامیانه به رسمی است.

 

برخی مشخصات فنی:

برای تبدیل کلمات عامیانه، از دیتابیسی با بیش از 30 هزار لغت رسمی و بانکی دیگر شامل (فعلاً) 500 لغت ریشه عامیانه بهره برده‌ایم. بقیه کلمات از روی ریشه شناسایی و لغت رسمی آن‌ها درج می‌شود.

برای پیاده‌سازی برنامه، تقریباً 500 خط کد به زبان PHP نوشته شده است.

طبیعی است که الگوریتم‌های تشخیص کلمات در مورد کلماتی که چندین معنی دارند، با مشکل مواجه می‌شود. به طور مثال، ممکن است در یک متن، کلمه «بهم» دیده شود. ما نمی‌توانیم بفهمیم که منظور نویسنده، «به من» بوده است یا «به هم». به این دو جمله دقت کنید: "جلسه بهم خورد!" یا "ایشون بهم گفت"...
در این موارد، برنامه، چیزی که عمومی‌تر است را در نظر می‌گیرد.

کاربردهای آتی:

این برنامه در صورت رسیدن به مرحله تکامل، در سیستم «پارس‌خوان» برای خواندن متون گفتاری به کار گرفته خواهد شد. همچنین می‌توان دکمه‌ای در کنار پست‌های انجمن متصور شد که با کلیک روی آن، متن گفتاری را تبدیل به متن رسمی کند.

 

چگونه به پیشرفت S2F کمک کنیم؟

اگر دیدید برنامه، کلمه‌ای را تشخیص نمی‌دهد، می‌توانید آن‌را از طریق فرم زیر به بانک برنامه اضافه کنید:

http://tools.aftab.cc/s2f/add/

ما پس از بررسی لغات پیشنهادی، در صورتی که مشکل خاصی نبود، آن‌را تأیید خواهیم کرد تا در تبدیلات بعدی در نظر گرفته شود.

 

امکان دانلود لغات گفتاری، ویژه برنامه‌نویسان

آپدیت در ۶ بهمن ۱۳۹۵: با توجه به درخواست‌های برنامه‌نویسان، با  نیت پیشرفت زبان فارسی جدول حاوی لغات گفتاری و معادل آن‌ها (حاوی حدود ۵۴۰ لفت) را منتشر می‌کنیم. برای دانلود، روی لینک زیر کلیک کنید:

دانلود لغات گفتاری زبان فارسی و معادل نوشتاری آن‌ها

 

تشکر:
از خانم‌ها glassy_heart و HEAVENLY (از مدیران فعال آفتابگردان) و دیگر مدیران که در تکمیل این برنامه بنده را یاری کردند، بسیار متشکرم.

موفق باشید؛
حمید رضا نیرومند


[ارسال شده در مورخه : دوشنبه، 24 مرداد، 1390 توسط Hamid]
[ #اطلاعیه‌های آفتابگردان]



بازدیدها از این مطلب: 25166 بار   امتیاز متوسط : 0  تعداد آراء: 0   امتیاز دهید:

نظرات طرح شده

نام: [ کاربر جدید ]
ایمیل:

نظر:


اجازه استفاده از تگهای HTML را ندارید


جمع عدد 15 با 15 را در كادر زیر وارد نمایید:
(این كار برای جلوگیری از فعالیت موتورهای اسپمر است)


* توجه: نظر شما بعد از بررسی، نمایش داده خواهد شد.

مهدی (امتیاز : 0)(لینک نظر)
توسط مهدی در مورخه : شنبه، 21 آبان، 1390
ممنون و متشکر از برنامه تون.

کارمو راحت کرد خیلی برنامتون

میخاستم یه پیکره ی گفتاری رو به نوشتاری تبدیل کنم


[ ارسال جوابیه ]


ریحانه (امتیاز : 0)(لینک نظر)
توسط ریحانه در مورخه : جمعه، 19 آبان، 1396
با سلام
چرا چند تا مثال بیشتر نزده .
بدتر گیج شدیم اخه زده تو سایت وارد شیم حساب کاربری خواسته


[ ارسال جوابیه ]


MSasanMH (امتیاز : 0)(لینک نظر)
توسط MSasanMH در مورخه : سه شنبه، 21 آذر، 1396
سلام
این برنامه مشکلات بسیار زیادی داره، درواقع فقط با جایگزینی کلمات نمیشه این کار رو انجام داد.
بعنوان مثال:
واژه "ماند" با "مونه" عوض میشه. حالا با توجه به این جایگزینی واژه‌ی "فرمانده" به "فرمونهه" تغییر پیدا می‌کنه که اشتباه است.
و اگه در برنامه‌نویسی این قسمت رو رعایت کرده باشید که یک خط فاصله قبل و یا بعد از واژه‌ها در دیتابیس در نظر گرفتید، اونوقت باز هم کلماتی که در ابتدا و انتهای یک لاین قرار میگیرن توسط برنامه با واژه‌ی رسمی جایگزین نخواهد شد.
راه حل:
شما نیاز به استفاده از رجکس‌ها و یک دیتابیس بسیار کامل‌تر دارید.

با تشکر.


[ ارسال جوابیه ]


ali (امتیاز : 0)(لینک نظر)
توسط ali در مورخه : یکشنبه، 11 آبان، 1399
سلام فایل csv ظاهرا خرابه.کلمات را اینگونه نشان میدهد:
ظ‡ظ…ظˆظ†,"ظ‡ظ…ط§ظ†"


[ ارسال جوابیه ]