مجموعه ارقام دستنویس هدی

مجموعه ارقام دستنویس هدی که اولین مجموعه‌ی بزرگ ارقام دستنویس فارسی است، مشتمل بر ۱۰۲۳۵۳ نمونه دستنوشته سیاه سفید است. این مجموعه طی انجام یک پروژه‏ی کارشناسی ارشد۱ درباره بازشناسی فرمهای دستنویس تهیه شده است۲. داده های این مجموعه از حدود ۱۲۰۰۰ فرم ثبت نام آزمون سراسری کارشناسی ارشد سال ۱۳۸۴ و آزمون کاردانی پیوسته‏ی دانشگاه جامع علمی کاربردی سال ۱۳۸۳ استخراج شده است. خصوصیات این مجموعه داده به شرح زیر است:

درجه تفکیک نمونه‏‌ها: ۲۰۰ نقطه بر اینچ
تعداد کل نمونه‏‌ها: ۱۰۲۳۵۲ نمونه
تعداد نمونه‏‌های آموزش: ۶۰۰۰ نمونه از هر کلاس
تعداد نمونه‏‌های آزمایش: ۲۰۰۰ نمونه از هر کلاس
سایر نمونه‏‌ها: ۲۲۳۵۲ نمونه

تعداد نمونه ها در هر کلاس

رقم ٠ رقم ١ رقم ٢ رقم ٣ رقم ۴ رقم ۵ رقم ۶ رقم ٧ رقم ٨ رقم ٩
۱۰۰۷۰ ۱۰۳۳۰ ۹۹۲۳ ۱۰۳۳۴ ۱۰۳۳۳ ۱۰۱۱۰ ۱۰۲۵۴ ۱۰۳۶۳ ۱۰۲۶۴ ۱۰۳۷۱


Farsi_Digits_Sample_1
نمونه هایی از دستخط های مختلف موجود در مجموعه ارقام دستنویس

Farsi_Digits_Sample_2نمونه هایی از کیفیتهای مختلف موجود در مجموعه ارقام دستنویس

توضیحات بیشتر در مورد این مجموعه داده را از مقاله‏ی زیر دریافت کنید.

Introducing a very large dataset of handwritten Farsi digits and a study on their varieties

این مجموعة داده تنها برای استفاده‌‏ی تحقیقاتی رایگان بوده و استفاده‏ی تجاری از آن منوط به کسب اجازه از ماست. برای خواندن مجموعه‏‌ی داده که در قالب فایلی با پسوند cdb. است کدهای C++، Matlab و یا دلفی آن را دریافت کنید.

دریافت مجموعه‌‏ی داده‏‌ی هدی برای استفاده‏‌ی تحقیقاتی

برخی مقالاتی که روی این مجموعه داده کار کرده اند در انتهای متن انگلیسی لیست شده اند، شما هم اگر روی این مجموعه داده کار کرده‌اید، لطفا ما را مطلع کنید تا مقاله شما اضافه شود.

۱٫ “بازشناسی ارقام و حروف دستنویس در فرمهای آزمون سراسری”، پایان نامه‏‌ی کارشناسی ارشد، حسین خسروی، دانشگاه تربیت مدرس ، ۱۳۸۴

۲٫ فرمهای مورد پردازش در این پروژه از طریق شرکت هوش مصنوعی هدی سیستم تهیه شده است.

——————————————————————————————————————————————

HODA Farsi Digit Dataset

HODA dataset is the first dataset of handwritten Farsi digits that has been developed during an MSc. project in Tarbiat Modarres University entitled: Recognizing Farsi Digits and Characters in SANJESH Registration Forms. This project has been carried out in cooperation with Hoda System Corporation. It was finished in summer 2005 under supervision of Prof. Ehsanollah Kabir.
Samples of the dataset are handwritten characters extracted from about 12000 registration forms of university entrance examination in Iran. The dataset specifications is as follows:

Resolution of samples: 200 dpi
Total samples: 102,352 samples
Training samples: 60,000 samples
Test samples: 20,000 samples
Remaining samples: 22,352 samples

Number of samples per each class

0 1 2 3 4 5 6 7 8 9
10070 10330 9923 10334 10333 10110 10254 10363 10264 10371

Samples with different writing styles in the datasetSamples with different writing styles in the dataset

Farsi_Digits_Sample_2Samples with different qualities in the dataset

For more information please refer to the paper: Introducing a very large dataset of handwritten Farsi digits and a study on their varieties

This dataset is free of charge for research purposes and non commercial uses only. For commercial purposes please
This e-mail address is being protected from spambots. You need JavaScript enabled to view it
.

Download Farsi Digit Dataset for non commercial use only.

To read the dataset please download Matlab, C++ or Delphi codes.

Some articles which used this dataset for their evaluation:

1. Divide & Conquer Classification and Optimization by Genetic Algorithm

2. A New Approach to Improve the Vote-Based Classifier Selection

3. A Scalable Method for Improving the Performance of Classifiers in Multiclass Applications by Pairwise Classifiers and GA

4. Using Modified Contour Features and SVM Based Classifier for the Recognition of Persian/Arabic Handwritten Numerals

5. Invariance analysis of modied C2 features: case study handwritten digit recognition

6. بهبود روش استخراج ویژگی گرادیان مبتنی بر تبدیل گسسته کسینوسی جهت بازشناسی ارقام دست نوشته فارسی