یکی از سؤالاتی که دانشجویان ارشد و دکترا میپرسند این است که: برای فلان درس (مثلاً درس دادهکاوی) یا پایاننامه، نیاز به یک دیتاست (DataSet = مجموعه داده) دارم، از کجا میتوانم گیر بیاورم؟
هر چند میشود با جستجو، به نتایجی دست یافت اما بد نیست اینجا برخی از مهمترین سایتهای حاوی دیتاستهای عمومی را جمعآوری کنیم...
۱- فارسی: سایت دادگان:
خوشبختانه شورای عالی انفورماتیک (یا اطلاعرسانی) یک سایت حاوی دیتاستهای فارسی راهاندازی کرده است که از طریق لینک زیر قابل مشاهده است:
Dadegan.ir
۲- فارسی: سایت DataPool.ir
اکثر دیتاستهای این سایت، فارسی و رایگان است: DataPool.ir
۳- انگلیسی: سایت کاگل Kaggle.com
سایت کاگل را میشود بهترین مرجع برای دیتاست در دنیا دانست که بسیاری مسابقات (مثل مسابقات مشهور KDD-Cup) و پژوهشها با کمک دادههای این سایت انجام میشود:
دیتاستهایی مثل «گلهای زنبق» (Iris) و نام بچههای آمریکایی و ... نمونههای مشهوری از این دیتاستها هستند.
۴- انگلیسی: واحد دادهکاوی سایت دانشگاه UCI
دهها دیتاست رایگان در زمینههای مختلف در این آدرس قابل دسترسی است:
https://archive.ics.uci.edu/ml/datasets.html
۵- دیتاستهای عمومی سایت گوگل:
http://www.google.com/publicdata/directory
۶- دیتاستهای بانک جهانی:
http://datacatalog.worldbank.org/
۷- دیتاستهای سازمان ملل:
http://data.un.org/Explorer.aspx
۸- دیتاستهای سایت آمازون:
http://aws.amazon.com/public-data-sets/
اینجا هم تعدادی معرفی شده...
اگر شما نیز سایتی حاوی دیتاستهای بهروز و مفید (به ویژه فارسی) میشناسید لطفاً این مطلب را در بخش نظرات کاملتر کنید...
موفق باشید؛
حمید رضا نیرومند
ــــــــــــــــــــــــــــ
آدرس کوتاه این مطلب: http://yourl.ir/dataset