কোন কোন সময় বই থেকে বা অন্য কোন হার্ডকপি থেকে লেখা হুবহু টাইপ করতে হয়। কখনো কখনো পাওয়া পিডিএফ ফাইল যেগুলো এডিট করা যায়না এমনটি ওয়ার্ডেও কনভাট করা যায় না। আবার মাঝে মধ্যে কিছু তথ্য প্রদান করতে হয় যেগুলোর স্ক্যান করা কপি দেয়া হয় নমুনা হিসেবে।
চোখের সামনে সুন্দর ঝকঝকে লেখা থাকা সত্বেও পূনরায টাইপ করাটা যে কতটা কষ্টদায়ক সেটা যারা করেন শুধু তারাই জানেন। এই সমস্যা থেকে মুক্তি দিতে এক ধরণের সফটওয়্যার যেগুলোকে বলা হয় OCR (Optical character Recognition) । এই সফটওয়্যারগুলো যেকোন ছবি অথবা পিডিএফ ফাইল থেকে টেক্সট উদ্ধার করতে পারে। মজার ব্যাপার হচ্ছে আপনার যদি স্ক্যানার নাও থাকে আপনি আপনার মুঠোফোন অথবা ডিজিটাল ক্যামেরা দিয়ে ছবি উঠিয়ে কাজ চালিয়ে নিতে পারবেন। আরো আশ্চর্যের বিষয় হলো এটা কিন্তু আপনার হাতের লেখাও পড়তে পারে।
দেখে নেয়া যাক কয়েকটি OCR
1. Microsoft OneNote 2007
আমরা যারা অফিস ২০০৭ ব্যবহার করি তাদের কাছে onenote 2007 না থাকার কথা নয়। উপরের ছবির মত onenote 2007 খুলে টুলবার থেকে Clip part এ ক্লিক করে ছবি বা স্ক্যান করা ডকুমেন্ট নিয়ে আসুন। ইচ্ছে করলে ড্র্যাগ করেও নিয়ে আসতে পারেন। এবার ছবির উপরে মাউসের ডান বাটনে ক্লিক করে Copy Text from Picture এ ক্লিক করলেই লেখাগুলো কপি হয়ে যাবে। এবার
Word অথবা Notepad খুলে পেস্ট করুন।
উপরের ছবির মত
TopOCR 3.0 ডাউনলোড করুন এখান থেকে
উপরের সফটওয়্যারগুলো দিয়ে বাংলা লেখা উদ্ধার করা যায়না। এর জন্যে ভাল কোন সফটওয়্যার এখনো তৈরি হয়নি তবে পরীক্ষামূলকভাবে একটা চলছে। এটির নাম
IFF filesgsrc.
It can handle PDF formTopOCR is a free high performance OCR system designed for digital cameras and is capable of recognizing 11 languages. Supports multiple text output formats, including searchable PDF and HTML, as well as a Text To Speech Interface. There are no page limits or extra components needed. TopOCR supports a wide variety of cameras and smartphones with it´s powerful easy to use Image Processing System, and can handle images with mixed text and graphics.
Features:
Incredible accuracy, upto 99.8% with a 3 MP camera
চোখের সামনে সুন্দর ঝকঝকে লেখা থাকা সত্বেও পূনরায টাইপ করাটা যে কতটা কষ্টদায়ক সেটা যারা করেন শুধু তারাই জানেন। এই সমস্যা থেকে মুক্তি দিতে এক ধরণের সফটওয়্যার যেগুলোকে বলা হয় OCR (Optical character Recognition) । এই সফটওয়্যারগুলো যেকোন ছবি অথবা পিডিএফ ফাইল থেকে টেক্সট উদ্ধার করতে পারে। মজার ব্যাপার হচ্ছে আপনার যদি স্ক্যানার নাও থাকে আপনি আপনার মুঠোফোন অথবা ডিজিটাল ক্যামেরা দিয়ে ছবি উঠিয়ে কাজ চালিয়ে নিতে পারবেন। আরো আশ্চর্যের বিষয় হলো এটা কিন্তু আপনার হাতের লেখাও পড়তে পারে।
দেখে নেয়া যাক কয়েকটি OCR
1. Microsoft OneNote 2007
Word অথবা Notepad খুলে পেস্ট করুন।
Microsoft Office Document Imaging:
উপরের ছবির মত
Microsoft Office Document Imaging চালু করুন। এবার File থেকে Open করুন অথবা (1) Open আইকনে ক্লিক করুন। এবার ছবি/স্ক্যান করা ডকুমেন্ট দেখিয়ে দিন। Recognize Text Using OCR ছবিতে দেখুন (2) ছোট একটি চোখের মতো এ ক্লিক করুন। MS Word Icon (3) Send Text to Word এ ক্লিক করুন। এমএস ওয়ার্ড ওপেন হবে। এখানে উল্লেখ্য ছবিটি যদি বড় হয় Microsoft Paint চালু করে নির্দিষ্ট অংশ সিলেক্ট করে কপি করে Microsoft Office Document Imaging পেস্ট করা যেতে পারে।
Free OCR:
এটি একটি চমৎকার ফ্রি সফটওয়্যার। এটি আপনার স্ক্যানার থেকে সরাসরি ডকুমেন্ট স্ক্যান করে টেক্সট এ রূপান্তর করবে।
Free OCR ডাউনলোড করুন এখান থেকে
TopOCR 3.0 :
TopOCR 3.0 ডাউনলোড করুন এখান থেকে
উপরের সফটওয়্যারগুলো দিয়ে বাংলা লেখা উদ্ধার করা যায়না। এর জন্যে ভাল কোন সফটওয়্যার এখনো তৈরি হয়নি তবে পরীক্ষামূলকভাবে একটা চলছে। এটির নাম
OporajeoBangla Express 3.4.5
DOWNLOAD
It supports most image files an
IFF filesgsrc.
It can handle PDF formTopOCR is a free high performance OCR system designed for digital cameras and is capable of recognizing 11 languages. Supports multiple text output formats, including searchable PDF and HTML, as well as a Text To Speech Interface. There are no page limits or extra components needed. TopOCR supports a wide variety of cameras and smartphones with it´s powerful easy to use Image Processing System, and can handle images with mixed text and graphics.
Features:
No page limits, and no extra downloads or components needed
Handles images with mixed text and graphics (Manual or Auto Zoning)
Tolerates skew and uneven lighting
Multiple text output formats, including searchable PDF and HTML
Able to read 11 different languages
Powerful, easy to use Image Processing with Image Dewarping
Supports Smartphones: See some Smartphone samples
Includes built-in, full featured Text and Image WYSIWYG Editors
Post-processing spell checker for all 11 languages
Built-in Text-To-Speech software. How about OCR to MP3?
Supports a Command Line Interface and a GUI
TopOCR´s entire interface can be easily customized
Make a high performance document Search and Indexing system
Browser Helper Mode supports creating free audio eBooks
ats and is also compatible with TWAIN devices like scanners.
FreeOCR also has the familiar double window interface with easy to understand settings.
Before starting the one click conversion process, you can adjust the image contrast for better readability.
সুভাষ বিশ্বাস। subhasbiswaschak@gmail.com ইমেজ থেকে বাংলা টেক্সট উদ্ধার করার জন্য নির্মিত সর্বশেষ সফটওয়ারের সম্পর্কে কিছু জানতে চাই।
উত্তরমুছুন