کتابخانه شناسایی ارقام، حروف دستنویس و پاسپورت

پست شده توسط در مهر ۱, ۱۳۹۲ در OCR, خبر, شبکه عصبی | ۳ دیدگاه


بازشناسی ارقام و حروف دستنویس فارسی، موضوعی است که سالهاست روی آن کار می شود؛ چه در حوزه تحقیقات دانشگاهی و چه در حوزه های تجاری و کاربردی. مقالات و پایان نامه های متعددی در این زمینه ها ارائه شده است و البته کارهای صنعتی زیادی هم صورت گرفته است.

از مهمترین کاربردهای شناسایی ارقام و حروف دستنویس، پردازش فرمهای ورود اطلاعات است. مثلا فرمهای بانکی، فرمهای ثبت نام در موسسات مختلف، فرمهای پاسخنامه آزمونهای سراسری و المپیادها یا فرمهای دریافت وام! در اکثر این فرمها، اطلاعات دستنویس مهم مانند نام و نام خانوادگی و شماره دانشجویی یا کد ملی و امثال اینها در فیلدهای مخصوصی وارد می شوند که بعدا پردازش آنها آسانتر صورت گیرد. البته ناگفته پیداست که در بسیاری از سازمانهای ما هنوز پردازش خودکار فرم صورت نمی گیرد و همچنان کاربر انسانی است که اطلاعات را می خواند و وارد کامپیوتر می کند و اگر بدانیم که سالانه چند صد میلیون و یا شاید چندین میلیارد فرم توسط کاربر انسانی داده آمایی می شود، به اهمیت پردازش خودکار فرم پی خواهیم برد.

نمونه ای از فرمهای ورود اطلاعاتبرای تشخیص ارقام و حروف دستنویس، روشهای متعددی وجود دارد که برخی از آنها را قبلا در بحث موتورهای بازشناسی معرفی کرده ایم. مهمتر از موتور بازشناسی که می تواند شبکه عصبی، طبقه بند بیز، SVM یا موارد دیگر باشد، بحث استخراج ویژگی است؛ چه اینکه اگر ویژگی مورد استفاده، ویژگی ضعیفی باشد، بهترین طبقه بند هم نتایج مطلوبی تولید نخواهد کرد.

کتابخانه شناسایی ارقام و حروف دستنویس، یک کتابخانه سریع و با دقت بسیار بالاست که می تواند انتخاب خوبی برای برنامه های پردازش فرم باشد. در این کتابخانه از ویژگیهای مختلف و طبقه بندهای متعددی کمک گرفته شده است تا به دقت حدود ۹۹٫۵% برای ارقام دستنویس و بیش از ۹۷% برای حروف برسیم. البته خطا در مورد حروف دستنویس غالبا ناشی از نقطه گذاریهاست. مثلا حرف پ اگر نقطه هایش کمرنگ باشد ب خوانده می شود. و اگر از این خطاها که غالبا توسط پس پردازشهایی مثل مقایسه با مجموعه لغات، قابل رفع هستند، صرفنظر کنیم، دقت بیش از ۹۹% حاصل می شود.

به منظور ارزیابی این کتابخانه، یک نسخه نمایشی از آن با عنوان ICR Demo را می توانید از اینجا دانلود کنید (رمز عبور farsiocr.ir است). ICR مخفف عبارت Intelligent Character Recognition است که برای شناسایی ارقام و حروف مجزا استفاده می شود. در صورت تمایل به استفاده از کتابخانه از  طریق farsiocr at gmail با ما تماس بگیرید.

به روز رسانی بهمن ماه ۹۲: در نسخه ۲٫۵، امکان خواندن اطلاعات پاسپورت هم اضافه شده است.

برنامه نمایشی بازشناسی حروف و ارقام دستنویس فارسی

کتابخانه متن باز شناسایی ارقام دستنویس فارسی

خواندن خودکار اطلاعات پاسپورت

۳ دیدگاه

  1. با سلام و خسته نباشید.خیلی عالی بود.
    ببخشید من کد مطلب تشخیص ارقام دست نوشته انگلیسی را ک خیلی ضروریه میخام. ممنون میشم اگه دارید کمکم کنید.

    پاسخ به دیدگاه
    • سلام. تو دات نت می تونی با استفاده از کتابخانه Microsoft.Ink این کارو انجام بدید

      پاسخ به دیدگاه
  2. خیلی خوب بود در صورت امکان جهت توسعه ی زمینه ی کار پروژه شناسایی حروف تایپی و تولید صدای مربوط به آن به بنده اطلاع رسانی کنید.

    پاسخ به دیدگاه

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *