فهرست بستن

کتابخانه تشخیص ارقام و حروف فارسی و نویسه های پاسپورت

بازشناسی ارقام و حروف دستنویس فارسی، موضوعی است که سالهاست روی آن کار می شود؛ چه در حوزه تحقیقات دانشگاهی و چه در حوزه های تجاری و کاربردی. مقالات و پایان نامه های متعددی در این زمینه ها ارائه شده است و البته کارهای صنعتی زیادی هم صورت گرفته است.

از مهمترین کاربردهای شناسایی ارقام و حروف دستنویس، پردازش فرمهای ورود اطلاعات است. مثلا فرمهای بانکی، فرمهای ثبت نام در موسسات مختلف، فرمهای پاسخنامه آزمونهای سراسری و المپیادها یا فرمهای دریافت وام! در اکثر این فرمها، اطلاعات دستنویس مهم مانند نام و نام خانوادگی و شماره دانشجویی یا کد ملی و امثال اینها در فیلدهای مخصوصی وارد می شوند که بعدا پردازش آنها آسانتر صورت گیرد. البته در بسیاری از سازمانها هنوز پردازش خودکار فرم صورت نمی گیرد و همچنان کاربر انسانی است که اطلاعات را می خواند و وارد کامپیوتر می کند و اگر بدانیم که سالانه چند صد میلیون و یا شاید چندین میلیارد فرم توسط کاربر انسانی داده آمایی می شود، به اهمیت پردازش خودکار فرم پی خواهیم برد.

برای تشخیص ارقام و حروف دستنویس، روشهای متعددی وجود دارد که برخی از آنها را قبلا در بحث موتورهای بازشناسی معرفی کرده ایم. مهمتر از موتور بازشناسی که می تواند شبکه عصبی، طبقه بند بیز، SVM یا موارد دیگر باشد، بحث استخراج ویژگی است؛ چه اینکه اگر ویژگی مورد استفاده، ویژگی ضعیفی باشد، بهترین طبقه بند هم نتایج مطلوبی تولید نخواهد کرد.

کتابخانه شناسایی ارقام و حروف دستنویس، یک کتابخانه سریع و با دقت بسیار بالاست که می تواند انتخاب خوبی برای برنامه های پردازش فرم باشد. در این کتابخانه از ویژگیهای مختلف و طبقه بندهای متعددی کمک گرفته شده است تا به دقت حدود 99.5% برای ارقام دستنویس و بیش از 97% برای حروف برسیم. البته خطا در مورد حروف دستنویس غالبا ناشی از نقطه گذاریهاست. مثلا حرف پ اگر نقطه هایش کمرنگ باشد ب خوانده می شود. و اگر از این خطاها که غالبا توسط پس پردازشهایی مثل مقایسه با مجموعه لغات، قابل رفع هستند، صرفنظر کنیم، دقت بیش از 99% حاصل می شود.

به منظور ارزیابی این کتابخانه، یک نسخه نمایشی از آن با عنوان ICR Demo را می توانید از اینجا دانلود کنید (رمز فایل farsiocr.ir است). ICR مخفف عبارت Intelligent Character Recognition است که برای شناسایی ارقام و حروف مجزا استفاده می شود. در صورت تمایل به استفاده از کتابخانه از  طریق farsiocr at gmail با ما تماس بگیرید.

به روز رسانی: در نسخه 2.5، امکان خواندن اطلاعات پاسپورت هم اضافه شده است.

برنامه نمایشی بازشناسی حروف و ارقام دستنویس فارسی

کتابخانه متن باز شناسایی ارقام دستنویس فارسی

خواندن خودکار اطلاعات پاسپورت