مجموعه دادهای شامل 200 صفحه از 200 کتاب توسط استاد ارجمند جناب آقای دکتر کبیــر جهت انتشار در اختیار سایت farsiocr.ir قرار گرفت.
این مجموعه شامل 200 صفحه متنی از 200 کتاب مختلف است که با درجه تفکیک 300 نقطه بر اینچ و به صورت باینری روبش (اسکن) شده است. از این مجموعه می توان برای کاربردهایی مثل ارزیابی الگوریتمهای فشرده سازی تصاویر متنی و ارزیابی الگوریتمهای شناسایی متون فارسی استفاده کرد.
دو نمونه از تصاویر این مجموعه در انتهای این صفحه آمده است. علاقه مندان میتوانند جهت دانلود این تصاویر از پیوندهای زیر استفاده کنند.
دانلود بخش اول شامل 100 صفحه اول
دانلود بخش دوم شامل 100 صفحه دوم
خب چه فایده ای داره این تصاویر؟
همان طور که در متن گفته شد، برای ارزیابی روشهای فشرده سازی تصاویر متنی
متنهایی که بنده میخواهم اوسیآر کنم تلفیق فارسی و انگلیسی است. آیا این نرمافزار قدرت شناسایی تلفیقی را دارد؟
بله
سلام
فایلهایی رو که گذاشتید، دریافت کردم، ولی متن مرتبط به تصاویر رو در این فایلها نمیبینم. برای ارزیابی روشهای ocr علاوه بر خود تصاویر به متن مرتبط با اونها هم نیاز هست.
سلام
فعلا فایل متنی آنها موجود نیست.
خب پس چرا این عکس ها رو گذاشتید ؟؟؟
به این امید که یک نفر زحمت تهیه متنش را بکشد!