5 Perkhidmatan OCR Dalam Talian Diuji dan Ditinjau
Mempunyai dokumen PDF atau imej yang anda ingin tukar kepada teks? Baru-baru ini, seseorang menghantar saya dokumen dalam mel yang perlu saya edit dan hantar semula dengan pembetulan. Orang itu tidak dapat mencari salinan digital, jadi saya ditugaskan untuk mendapatkan semua teks itu dalam format digital.
Tidak ada cara yang saya akan menghabiskan berjam-jam menaip segala-galanya kembali, jadi saya akhirnya mengambil gambar yang berkualiti tinggi dari dokumen itu dan kemudian membakar jalan saya melalui sekumpulan perkhidmatan OCR dalam talian untuk melihat mana yang akan memberikan saya yang terbaik keputusan.
Dalam artikel ini, saya akan melalui beberapa laman kegemaran saya untuk OCR yang bebas. Perlu diingat bahawa kebanyakan laman web ini menyediakan perkhidmatan percuma asas dan kemudian mempunyai pilihan berbayar jika anda ingin ciri-ciri tambahan seperti gambar yang lebih besar, dokumen PDF berbilang halaman, bahasa input yang berbeza, dan lain-lain.
Ia juga baik untuk mengetahui terlebih dahulu bahawa kebanyakan perkhidmatan ini tidak akan dapat memadankan pemformatan dokumen asal anda. Ini adalah terutamanya untuk mengekstrak teks dan itu sahaja. Jika anda memerlukan segalanya untuk berada dalam susun atur atau format tertentu, anda perlu melakukannya secara manual sebaik sahaja anda mendapat semua teks dari OCR.
Di samping itu, keputusan terbaik untuk mendapatkan teks akan datang dari dokumen dengan resolusi 200 hingga 400 DPI. Sekiranya anda mempunyai imej DPI yang rendah, hasilnya tidak sepadan.
Akhir sekali, terdapat banyak laman web yang saya uji bahawa hanya tidak berfungsi. Jika anda menggunakan Google OCR dalam talian percuma, anda akan melihat banyak tapak tetapi beberapa laman web dalam 10 keputusan teratas tidak dapat menyelesaikan penukaran tersebut. Ada yang akan tamat masa, yang lain akan memberikan kesilapan dan ada yang tersangkut pada halaman "menukarkan", jadi saya tidak repot-repot menyebutkan laman tersebut.
Untuk setiap laman web, saya menguji dua dokumen untuk melihat seberapa baik outputnya. Untuk ujian saya, saya hanya menggunakan iPhone 5S untuk mengambil gambar kedua-dua dokumen dan kemudian memuat naiknya terus ke laman web untuk penukaran.
Sekiranya anda ingin melihat imej yang kelihatan seperti yang saya gunakan untuk ujian saya, saya telah melampirkannya di sini: Test1 dan Test2. Ambil perhatian bahawa ini bukan versi resolusi penuh imej yang diambil dari telefon. Saya menggunakan imej resolusi penuh semasa memuat naik ke laman web.
OnlineOCR
OnlineOCR.net adalah tapak yang bersih dan ringkas yang memberikan hasil yang sangat baik dalam ujian saya. Perkara utama yang saya suka mengenainya adalah bahawa ia tidak mempunyai banyak iklan di seluruh tempat, yang biasanya berlaku dengan jenis perkhidmatan laman web khusus.
Untuk bermula, pilih fail anda dan tunggu sehingga selesai mengunggah. Saiz muat naik maks untuk laman web ini adalah 100 MB. Jika anda mendaftar untuk akaun percuma, anda akan mendapat beberapa ciri tambahan seperti saiz muat naik yang lebih besar, PDF halaman berbilang, bahasa input yang berbeza, lebih banyak penukaran sejam, dan lain-lain.
Seterusnya, pilih bahasa input anda dan kemudian pilih format output. Anda boleh memilih dari Word, Excel, atau Text Plain. Klik Tukar butang dan anda akan melihat teks yang dipaparkan di bahagian bawah dalam kotak bersama dengan pautan muat turun.
Jika semua yang anda mahukan ialah teks, cuma salin dan tampalkannya dari kotak. Walau bagaimanapun, saya cadangkan anda memuat turun dokumen Word kerana ia melakukan pekerjaan yang menghairankan untuk menjaga tata letak dokumen asal.
Sebagai contoh, apabila saya membuka dokumen Word untuk ujian kedua saya, saya terkejut mendapati dokumen itu termasuk jadual dengan tiga lajur, sama seperti pada imej.
Dari semua laman web, ini adalah yang terbaik. Ia benar-benar bernilai mendaftar jika anda perlu melakukan banyak penukaran.
Untuk kesempurnaan, saya juga akan memaut ke fail output yang dihasilkan oleh setiap perkhidmatan supaya anda dapat melihat hasilnya untuk diri sendiri. Berikut adalah hasil dari OnlineOCR: Test1 Doc dan Test2 Doc.
Perhatikan bahawa apabila membuka dokumen Word ini pada komputer anda, anda akan mendapat mesej dalam Word yang menyatakan bahawa ia dari Internet dan pengeditan telah dilumpuhkan. Itulah OK kerana Word tidak mempercayai dokumen dari Internet dan anda tidak perlu mendayakan penyuntingan jika anda hanya ingin melihat dokumen.
i2OCR
Satu lagi laman web yang memberikan hasil yang baik adalah i2OCR. Proses ini sangat serupa: pilih bahasa anda, fail, dan kemudian tekan Tekan Teks.
Anda perlu menunggu satu atau dua minit di sini kerana tapak ini mengambil sedikit masa lagi. Juga, dalam Langkah 2, pastikan imej anda menunjukkan bahagian kanan dalam pratonton, jika tidak, anda akan mendapat sekumpulan omelan sebagai keluaran. Atas sebab tertentu, imej dari iPhone saya telah ditunjukkan dalam mod potret di komputer saya, tetapi landskap ketika saya dimuat naik ke laman web ini.
Saya terpaksa membuka imej secara manual dalam aplikasi penyuntingan foto, memutarkannya 90 darjah, kemudian putarkannya kembali ke potret dan kemudian simpannya semula. Setelah selesai, tatal ke bawah dan ia akan menunjukkan pratonton teks bersama dengan butang muat turun.
Tapak ini menonjol dengan baik dengan output untuk ujian pertama, tetapi tidak melakukannya dengan baik dengan ujian kedua yang mempunyai susunan lajur. Berikut adalah hasil dari i2OCR: Test1 Doc dan Test2 Doc.
FreeOCR
Free-OCR.com akan mengambil imej anda dan mengubahnya menjadi teks biasa. Ia tidak mempunyai pilihan untuk mengeksport ke format Word. Pilih fail anda, pilih bahasa dan kemudian klik Mulakan.
Laman ini pantas dan anda akan mendapat output dengan cepat. Cukup klik pada pautan untuk memuat turun fail teks ke komputer anda.
Seperti yang dinyatakan oleh NewOCR di bawah, laman web ini memanfaatkan semua T dalam dokumen itu. Saya tidak tahu mengapa ia akan melakukan itu, tetapi untuk sebab-sebab yang aneh ini laman web dan NewOCR kedua-duanya melakukan ini. Ia bukan masalah besar untuk mengubahnya, tetapi ia adalah proses membosankan yang anda tidak perlu lakukan.
Berikut adalah hasil dari FreeOCR: Test1 Doc dan Test2 Doc.
ABBYY FineReader Online
Untuk menggunakan FineReader Online, anda perlu mendaftar untuk akaun, yang memberikan anda percubaan percuma 15 hari ke OCR sehingga 10 halaman secara percuma. Jika anda hanya perlu melakukan OCR satu kali untuk beberapa halaman, maka anda boleh menggunakan perkhidmatan ini. Pastikan anda mengklik pautan sahkan dalam e-mel pengesahan selepas anda mendaftar.
Klik pada Kenali di bahagian atas dan kemudian klik Muat naik untuk memilih fail anda. Pilih bahasa anda, format output dan kemudian klik Kenali di bawah. Laman ini mempunyai antara muka yang bersih dan tiada iklan juga.
Dalam ujian saya, laman web ini dapat merebut teks dari dokumen ujian pertama, tetapi ia benar-benar luar biasa apabila saya membuka dokumen Word, jadi saya akhirnya melakukannya sekali lagi dan memilih Text Plain sebagai format output.
Untuk ujian kedua dengan lajur, dokumen Word adalah kosong dan saya tidak dapat mencari teks itu. Tidak pasti apa yang berlaku di sana, tetapi nampaknya tidak mampu mengendalikan apa-apa selain perenggan mudah. Berikut adalah hasil dari FineReader: Test1 Doc dan Test2 Doc.
NewOCR
Tapak seterusnya, NewOCR.com, adalah OK, tetapi tidak hampir sebaik laman pertama. Pertama, ia mendapat iklan, tapi untungnya tidak satu tan. Anda mula-mula pilih fail anda dan kemudian klik Pratonton butang.
Anda kemudian boleh memutar imej dan menyesuaikan kawasan di mana anda mahu mengimbas teks. Ia agak seperti bagaimana proses pengimbasan berfungsi pada komputer dengan pengimbas yang dilampirkan.
Sekiranya dokumen mempunyai berbilang lajur, anda boleh menyemak Analisis susun atur halaman butang dan ia akan cuba untuk memecah teks ke dalam lajur. Klik butang OCR, tunggu beberapa saat untuk selesai dan kemudian tatal ke bawah apabila halaman menyegarkan.
Dalam ujian pertama, ia mendapat semua teks dengan betul, tetapi atas sebab tertentu memanfaatkan setiap T dalam dokumen itu! Tiada idea mengapa ia akan melakukannya, tetapi ia berlaku. Dalam ujian kedua dengan analisis halaman yang dibolehkan, ia mendapat sebahagian besar teks, tetapi susun aturnya sepenuhnya.
Berikut adalah hasil daripada NewOCR: Test1 Doc dan Test2 Doc.
Kesimpulannya
Seperti yang anda lihat, percuma tidak memberikan anda hasil yang sangat baik pada kebanyakan masa malangnya. Laman pertama yang disebutkan adalah yang terbaik kerana tidak hanya melakukan tugas yang baik untuk mengenali semua teks, tetapi juga dapat mengekalkan format dokumen asal.
Sekiranya anda memerlukan teks sahaja, kebanyakan laman web di atas boleh melakukannya untuk anda. Jika anda mempunyai sebarang soalan, jangan ragu untuk memberi komen. Nikmati!