جمعه ۲۳ آذر ۱۴۰۳ |  عضویت / ورود

مجموعه ای از دیتابیس های رایگان و لینک های مرتبط با زبان فارسی (کلمات فارسی، دیوان اشعار و ...)


یکی از برکاتی که پروژه پارس‌خوان داشت، همت مدیران و جمع آوری منابع و دیتابیس‌های زیادی مرتبط با زبان فارسی بود.

خیلی از دوستان تماس می‌گیرند و درخواست دیتابیس کلمات و یا منابع مشابه را دارند. بد نیست در این مطلب، لینک‌های مفیدی در این زمینه قرار دهیم تا برنامه‌نویسان و محققان فارسی‌زبان از آن‌ها بهره ببرند:

http://aftab.cc/img/news/90/virastyar.png

- بانک اطلاعاتی شامل بيش از 50000 کلمه فارسي به همراه تلفظ آنها و نوع کلمه. شامل مجموعه‌اي از پيشوندها و پسوندهاي فارسي.
* این بانک در پارس‌خوان و دیگر پروژه‌های ما استفاده شده است. افعال به صورت ریشه درج شده‌اند و با توجه به الگوریتم‌هایی که در کتابی که معرفی خواهم کرد وجود دارد، می‌توانید افعال را صرف کنید.
- بانک اطلاعاتی شامل شامل حدود 1300 بيت از اشعار مولانا و حافظ به همراه کد وزن آنها، توضيحات بيشتر در فايل Comment.doc داخل همين مجموعه موجود است
- بانک اطلاعاتی ديوان غزليات شمس، مولانا جلال الدين محمد بلخي. به صورت هفت فايل Word. به همراه فهرست غزل‌ها بر اساس مطلع غزليات.
- بانک اطلاعاتی دیوان حافظ شامل 495 غزل خواجه حافظ شيرازي به صورت يک فايل HTM.
- بانک اطلاعاتی مثنوی معنوی شامل شش دفتر مثنوي تايپ و تصحيح توسط حسين ُکرد از روي نسخه

همه موارد بالا را از اینجا دانلود کنید.
کار با ارزشی از شورای عالی اطلاع‌رسانی

- مجموعه همشهری:

این مجموعه روزنامه همشهری طی 11 سال را بررسی کرده است و گزارش‌ها و پرس‌وجوهای بسیار جالب و کاربردی‌ای را استخراج کرده است. به طور مثال، بسامد کلمات فارسی را به خوبی می‌توان از طریق پایگاه داده‌ای که ارائه کرده‌اند به دست آورد.

برای مشاهده توضیحاتی در مورد این مجموعه به آدرس زیر مراجعه کنید:

http://ece.ut.ac.ir/dbrg/hamshahri/faindex.html

برای دانلود بانک‌های اطلاعاتی و نرم افزارهای ارائه شده، به آدرس زیر مراجعه کنید:

http://ece.ut.ac.ir/dbrg/hamshahri/fadownload.html

* در لینک بالا، "لیست کلمات فارسی" شاید مهم‌ترین مورد باشد و بخواهید آن‌را دانلود کنید.
* توجه: این کلمات، کل کلمات فارسی نیستند.

- ویراستیار:

ویراستیار، ابتکار جالبی بود که زیر نظر شورای عالی اطلاع‌رسانی و توسط مؤسسه علوم اسلامی نور انجام شد. کد منبع و دادگان پروژه برای برنامه‌نویسان و محققان ارائه شده است:

http://www.virastyar.ir/data

در لینک بالا، این موارد موجود است:

فهرستی از واژه های زبان فارسی به همراه برچسب ادات سخن و بسامد هر واژه
فهرستی از بن فعل های زبان فارسی شامل فعل های ساده و پیشوند
فهرستی از الگوهای نشانه گذاری (سجاوندی) زبان فارسی، ارائه شده در قالب عبارات منظم

- مؤسسه نور:

مؤسسه نور، تحقیق‌های جالبی در زمینه داده کاوی (Data mining) انجام داده است و در بخش پروژه‌های آلفا و بتا، کارهایی که در حال انجام است را برای آزمایش عموم قرار داده است:

http://labs.noornet.net/PersianPOSTagger.aspx

- در آدرس زیر نیز مقالات بسیار جالبی در مورد داده کاوی فارسی قرار داده شده است که بلاشک به کارتان خواهد آمد:

http://textmining.noornet.net/FA/Download.html

سایت پیکره‌گان فارسی:

 https://www.peykaregan.ir

سایت فارس‌نت دانشگاه شهید بهشتی:

http://farsnet.nlp.sbu.ac.ir

این سایت هم کارهای جالبی در زمینه هوش مصنوعی و پیکرگان فارسی انجام داده:

https://text-mining.ir

پیکره‌گان:

https://text-mining.ir/corpus

از جمله این کار:

پیکره بزرگ شناسایی موجودیت‌های نامدار فارسی برچسب خورده

https://github.com/Text-Mining/Persian-NER

فردوس‌نت (شبکه واژگان جامع زبان فارسی) و حس‌نگار (شبکه واژگان حسی فارسی) 

https://github.com/Text-Mining/Persian-Sentiment-Resources

+ لیست واژگان توقف در فارسی (Persian Stop Words)

https://github.com/kharazi/persian-stopwords

+ بسامد (فرکانس) واژگان فارسی

https://github.com/behnam/persian-words-frequency

+ چکیده‌سازی (حلاصه‌سازی) متن فارسی

https://github.com/kharazi/moujez?tab=readme-ov-file

- و اما:

کتاب خطایابی املایی خودکار در زبان فارسی
همراه با مباحثی در مبدل تقویم و عدد، مبدل پینگلیش و اصلاح علائم نشانه‌گذاری

اگر می‌خواهید روی برنامه‌های پردازش زبان فارسی کار کنید، حتماً این کتاب را تهیه و مطالعه کنید. البته متأسفانه، این کتاب را دبیرخانه شورای عالی اطلاع‌رسانی به صورت خصوصی منتشر کرده است. یعنی فروشی نیست. در کنفرانس اخیری که در قم داشت به یکی از دوستان ما داده بود و به دست ما رسید. اگر این شورا، در ادامه فعالیت‌هایش لطف کند و این کتاب ارزشمند را به صورت PDF به فارسی‌زبانان هدیه کند، عالی می‌شود.
در این کتاب، نحوه‌ی صرف کلمات، مشکلات و راه حل‌های غلط‌یابی و تلفظ کلمات، الگوریتم‌های مختلف برای تشخیص نوع کلمه در جمله، الگوریتم‌های تبدیل تقویم و عدد و حروف انگلیسی به فارسی و امثالهم به تفصیل در 200 صفحه توضیح داده شده است.

آپدیت در ۱۴۰۳: این کتاب را می‌توانید از اینجا دانلود نمایید.

- جستجو کنید:
تقریباً همه موارد بالا را ما با جستجو در وب یافته‌ایم. بانک‌های بسیاری در اینترنت وجود دارند. به طور مثال دیکشنری‌های لغات فارسی به انگلیسی و فارسی به زبان‌های دیگر به راحتی یافت می‌شود. لغات آن‌ها نیز می‌تواند بسیار مفید باشد. به طور مثال این لینک را ببینید:

ده ها دیتابیس کلمات فارسی و انگلیسی برای ساخت دیکشنری‎

 

در پایان:
سعی خواهیم کرد مطالبی که در تاپیک‌های انجمن مدیران در روال تولید پارس‌خوان جمع آوری شده است را در قالب یک فایل word ارائه کنیم تا مشکلاتی که در مسیر وجود داشت و راه حل‌هایی که یافتیم و لینک‌ها و صحبت‌هایی که مفید بود، همه و همه در اختیار علاقه‌مندان قرار گیرد.
اگر دوستانی لینک‌های مفید و یا بانک‌های جامع‌تری دارند، لطفاً در بخش نظرات ارائه کنند تا همه استفاده کنند.

موفق باشید؛
حمید رضا نیرومند


[ارسال شده در مورخه : یکشنبه، 13 شهریور، 1390 توسط Hamid]
[ #برنامه‌‌نویسی]



بازدیدها از این مطلب: 27823 بار   امتیاز متوسط :   تعداد آراء: 1   امتیاز دهید:

نظرات طرح شده

نام: [ کاربر جدید ]
ایمیل:

نظر:


اجازه استفاده از تگهای HTML را ندارید


جمع عدد 11 با 12 را در كادر زیر وارد نمایید:
(این كار برای جلوگیری از فعالیت موتورهای اسپمر است)


* توجه: نظر شما بعد از بررسی، نمایش داده خواهد شد.

[بدون موضوع]                توسط amirhosein در مورخه : دوشنبه، 21 شهریور، 1390(لینک نظر)
حمیدخان این لینک رو ببین:

http://www.scict.ir/Portal/Home/Default.aspx?CategoryID=1124824e-4937-4a12-bb6f-b9d6dd01eb38

قسمت انتشارات یه سری کتاب برای دانلود داره. اگه بدرد میخوره توی مطلبت اضافه کن.


[ ارسال جوابیه ]


امیر (امتیاز : 0)(لینک نظر)
توسط امیر در مورخه : سه شنبه، 15 بهمن، 1392
با تشکر از مطلب مفیدتون

اگر امکانش هست یه دیتابیس از حروف فارسی تایپی یا دستنویس( به صورت تکی ) هم توی مجموعتون اضافه کنید.

ممنون


[ ارسال جوابیه ]


فروش ویژه دیتابیس لغت نامه هخدا و معین برای برن (امتیاز : 0)(لینک نظر)
توسط فروش ویژه دیتابیس لغت نامه هخدا و معین برای برن در مورخه : چهارشنبه، 30 بهمن، 1392
سلام دوستان عزیز



من دیتابیس های زیادی رو جمع اوری کردم از جمله



دیتابیس دیکشنری های مختلف فارسی عربی انگلیسی

ضرب المثل

داروها

لغات تخصصی

و...



در لینک زیر میتاونید کامل ببینید



http://samiasoft.mihanblog.com/post/427


[ ارسال جوابیه ]


[بدون موضوع]                توسط در مورخه : سه شنبه، 31 شهریور، 1394(لینک نظر)
سلام

www.dadegan.ir

مرجع دادگان زبان فارسی

موفق باشید


[ ارسال جوابیه ]


علی (امتیاز : 0)(لینک نظر)
توسط علی در مورخه : یکشنبه، 18 تیر، 1396
درود بر شما.
بسیاری از پیوند ها دیگر کار نمی کنند. لطفا مطلب را به همراه پیوندهای جدید به روزرسانی بفرمایید.


[ ارسال جوابیه ]


محمود                توسط محمود در مورخه : چهارشنبه، 4 مرداد، 1396(لینک نظر)
برای دیتاست به وب سایت دیتاهارت هم سر بزنید خیلی به درد من خورد
dataheart.ir


[ ارسال جوابیه ]

    hamidreza (امتیاز : 0)
    توسط کاربر مهمان در مورخه : چهارشنبه، 17 شهریور، 1400
    سلام
    خیلی ممنون دوست عزیز از به اشتراک گذاری سایت
    بسیار سایت کاربردی بود
    مشکل من رو رفع کرد
    سپاسگزارم


    [ ارسال جوابیه ]


hamidreza (امتیاز : 0)(لینک نظر)
توسط hamidreza در مورخه : چهارشنبه، 17 شهریور، 1400
سلام ممنون بابت مطلب خوبتون
تمامی لینکها از کار افتادن اگه راه دیگه ای برای دانلود سراغ دارین ممنون میشم
متشکرم


[ ارسال جوابیه ]