Tesseract.js Membawa Imej OCR Terjemahan kepada Pelayar

Terjemahan OCR masih tidak sempurna tetapi ia telah meningkat secara dramatik sejak beberapa tahun yang lalu. Memimpin jalan adalah Tesseract enjin terjemahan kini dibuka bersumber C++.

Walaupun ini adalah perpustakaan yang luar biasa, namun ia terhad kepada perisian. Syukurlah seseorang membuat pelabuhan Tesseract ke JavaScript yang dikenali sebagai Tesseract.js. Ia menyokong sehingga 60 bahasa dan walaupun ia tidak sempurna, ia berfungsi dengan baik.

Pemasangan dan persediaan adalah mudah di mana anda boleh sasarkan mana-mana elemen imej pada halaman dan jalankan Tesseract.recognize () fungsi. Ini boleh mengambil apa-apa jenis imej dan ia akan secara automatik compress & translate betul dalam pelayar.

Anda boleh mendapatkan lebih rumit tetapi keindahannya bagaimana anda boleh menjalankan OCR dengan satu baris kod.

Lihat laman pendaratan Tesseract.js jika anda mahu melihat demo langsung. Ini berfungsi betul-betul di pelayar di mana anda boleh seret & lepaskan sebarang imej yang diimbas teks untuk mendapatkan terjemahan OCR automatik.

Anda juga boleh memuat turun contoh ini secara tempatan melalui halaman GitHub atau anda boleh membina aplikasi anda sendiri dengan memasukkan skrip Tesseract.js dari CDN.

Contoh kod paling mudah kelihatan seperti berikut myImage adalah rujukan terus kepada unsur imej HTML:

 Tesseract.recognize (myImage) .then (function (result) console.log (result));

Sama ada perpustakaan ini sangat membantu untuk bergerak dengan OCR di web. Ia jauh dari sempurna tetapi ia juga sumber terbaik untuk pemaju web yang mahu kefungsian OCR dalam halaman.

Untuk mengetahui lebih lanjut melawat laman Tesseract.js GitHub di mana anda boleh menyemak demo langsung dan menyemak imbas dokumentasi dalam talian.