یکی از برکاتی که پروژه پارسخوان داشت، همت مدیران و جمع آوری منابع و دیتابیسهای زیادی مرتبط با زبان فارسی بود.
خیلی از دوستان تماس میگیرند و درخواست دیتابیس کلمات و یا منابع مشابه را دارند. بد نیست در این مطلب، لینکهای مفیدی در این زمینه قرار دهیم تا برنامهنویسان و محققان فارسیزبان از آنها بهره ببرند:
- بانک اطلاعاتی شامل بيش از 50000 کلمه فارسي به همراه تلفظ آنها و نوع کلمه. شامل مجموعهاي از پيشوندها و پسوندهاي فارسي.
* این بانک در پارسخوان و دیگر پروژههای ما استفاده شده است. افعال به صورت ریشه درج شدهاند و با توجه به الگوریتمهایی که در کتابی که معرفی خواهم کرد وجود دارد، میتوانید افعال را صرف کنید.
- بانک اطلاعاتی شامل شامل حدود 1300 بيت از اشعار مولانا و حافظ به همراه کد وزن آنها، توضيحات بيشتر در فايل Comment.doc داخل همين مجموعه موجود است
- بانک اطلاعاتی ديوان غزليات شمس، مولانا جلال الدين محمد بلخي. به صورت هفت فايل Word. به همراه فهرست غزلها بر اساس مطلع غزليات.
- بانک اطلاعاتی دیوان حافظ شامل 495 غزل خواجه حافظ شيرازي به صورت يک فايل HTM.
- بانک اطلاعاتی مثنوی معنوی شامل شش دفتر مثنوي تايپ و تصحيح توسط حسين ُکرد از روي نسخه
همه موارد بالا را از اینجا دانلود کنید.
کار با ارزشی از شورای عالی اطلاعرسانی
- مجموعه همشهری:
این مجموعه روزنامه همشهری طی 11 سال را بررسی کرده است و گزارشها و پرسوجوهای بسیار جالب و کاربردیای را استخراج کرده است. به طور مثال، بسامد کلمات فارسی را به خوبی میتوان از طریق پایگاه دادهای که ارائه کردهاند به دست آورد.
برای مشاهده توضیحاتی در مورد این مجموعه به آدرس زیر مراجعه کنید:
http://ece.ut.ac.ir/dbrg/hamshahri/faindex.html
برای دانلود بانکهای اطلاعاتی و نرم افزارهای ارائه شده، به آدرس زیر مراجعه کنید:
http://ece.ut.ac.ir/dbrg/hamshahri/fadownload.html
* در لینک بالا، "لیست کلمات فارسی" شاید مهمترین مورد باشد و بخواهید آنرا دانلود کنید.
* توجه: این کلمات، کل کلمات فارسی نیستند.
- ویراستیار:
ویراستیار، ابتکار جالبی بود که زیر نظر شورای عالی اطلاعرسانی و توسط مؤسسه علوم اسلامی نور انجام شد. کد منبع و دادگان پروژه برای برنامهنویسان و محققان ارائه شده است:
در لینک بالا، این موارد موجود است:
فهرستی از واژه های زبان فارسی به همراه برچسب ادات سخن و بسامد هر واژه
فهرستی از بن فعل های زبان فارسی شامل فعل های ساده و پیشوند
فهرستی از الگوهای نشانه گذاری (سجاوندی) زبان فارسی، ارائه شده در قالب عبارات منظم
- مؤسسه نور:
مؤسسه نور، تحقیقهای جالبی در زمینه داده کاوی (Data mining) انجام داده است و در بخش پروژههای آلفا و بتا، کارهایی که در حال انجام است را برای آزمایش عموم قرار داده است:
http://labs.noornet.net/PersianPOSTagger.aspx
- در آدرس زیر نیز مقالات بسیار جالبی در مورد داده کاوی فارسی قرار داده شده است که بلاشک به کارتان خواهد آمد:
http://textmining.noornet.net/FA/Download.html
سایت پیکرهگان فارسی:
سایت فارسنت دانشگاه شهید بهشتی:
- و اما:
کتاب خطایابی املایی خودکار در زبان فارسی
همراه با مباحثی در مبدل تقویم و عدد، مبدل پینگلیش و اصلاح علائم نشانهگذاری
اگر میخواهید روی برنامههای پردازش زبان فارسی کار کنید، حتماً این کتاب را تهیه و مطالعه کنید. البته متأسفانه، این کتاب را دبیرخانه شورای عالی اطلاعرسانی به صورت خصوصی منتشر کرده است. یعنی فروشی نیست. در کنفرانس اخیری که در قم داشت به یکی از دوستان ما داده بود و به دست ما رسید. اگر این شورا، در ادامه فعالیتهایش لطف کند و این کتاب ارزشمند را به صورت PDF به فارسیزبانان هدیه کند، عالی میشود.
در این کتاب، نحوهی صرف کلمات، مشکلات و راه حلهای غلطیابی و تلفظ کلمات، الگوریتمهای مختلف برای تشخیص نوع کلمه در جمله، الگوریتمهای تبدیل تقویم و عدد و حروف انگلیسی به فارسی و امثالهم به تفصیل در 200 صفحه توضیح داده شده است.
- جستجو کنید:
تقریباً همه موارد بالا را ما با جستجو در وب یافتهایم. بانکهای بسیاری در اینترنت وجود دارند. به طور مثال دیکشنریهای لغات فارسی به انگلیسی و فارسی به زبانهای دیگر به راحتی یافت میشود. لغات آنها نیز میتواند بسیار مفید باشد. به طور مثال این لینک را ببینید:
ده ها دیتابیس کلمات فارسی و انگلیسی برای ساخت دیکشنری
در پایان:
سعی خواهیم کرد مطالبی که در تاپیکهای انجمن مدیران در روال تولید پارسخوان جمع آوری شده است را در قالب یک فایل word ارائه کنیم تا مشکلاتی که در مسیر وجود داشت و راه حلهایی که یافتیم و لینکها و صحبتهایی که مفید بود، همه و همه در اختیار علاقهمندان قرار گیرد.
اگر دوستانی لینکهای مفید و یا بانکهای جامعتری دارند، لطفاً در بخش نظرات ارائه کنند تا همه استفاده کنند.
موفق باشید؛
حمید رضا نیرومند