Bagaimana saya boleh Salin Teks dari PDF sambil Memelihara Pemformatan?

PDF, format dokumen di mana-mana, adalah bagus untuk berkongsi dokumen sambil mengekalkan fon, imej, dan susun atur umum merentas platform. Adakah terdapat cara mudah, bagaimanapun, untuk memelihara pemformatan yang sangat ketika menyalin dan menyisipkan teks keluar dari dokumen?

Sesi Soalan & Jawapan hari ini datang kepada kami dengan ihsan SuperUser-bahagian pembahagian Stack Exchange, kumpulan yang diketuai oleh komuniti laman web Q & A.

Soalan

Pembaca SuperUser Colen mencari cara untuk mengekstrak teks dari PDF sambil mengekalkan pemformatan:

Apabila saya menyalin teks keluar dari fail PDF dan ke dalam editor teks, ia berakhir hancur dalam pelbagai cara. Pemformatan seperti huruf tebal dan huruf miring hilang; pemecahan garisan lembut dalam perenggan teks akan ditukar kepada rehat garis keras; Garis putar untuk memecah perkataan lebih dari dua baris dipelihara walaupun mereka tidak seharusnya; dan sebut harga tunggal dan berganda digantikan dengan? tanda-tanda.

Idealnya, saya ingin dapat menyalin teks dari PDF dan memformat dimuatkan kepada kod HTML, "petikan pintar" ditukar kepada "dan", dan pecahan baris dilakukan dengan betul. Adakah ada cara untuk melakukan ini?

Adakah terdapat cara yang cepat dan mudah untuk Colen (dan yang lain dari kami) untuk mendapatkan teks rawak tanpa mengorbankan pemformatan?

Jawapan

Penyumbang SuperUser Frabjous menawarkan penyelesaian yang digabungkan dengan dos berat berhati-hati:

Pertama, anda perlu memahami apa yang PDF. PDF direka untuk meniru halaman bercetak, dan mereka direka hanya sebagai format output, bukan format input. PDF pada dasarnya adalah peta yang mengandungi lokasi sebenar aksara (huruf individu atau tanda baca, dsb.) atau imej. Dalam kebanyakan kes, PDF tidak menyimpan maklumat tentang di mana satu perkataan berakhir dan yang lain bermula, lebih kurang perkara seperti rehat lembut vs rehat keras untuk penamat perenggan.

(Beberapa PDF baru-baru ini menyimpan beberapa maklumat mengenai perkara ini, tetapi itu adalah teknologi baru, dan anda akan bernasib baik untuk mencari PDF seperti itu. Walaupun anda melakukannya, penonton PDF anda mungkin tidak tahu mengenainya.)

Bagaimanapun, terpulang kepada perisian anda untuk melaksanakan semacam "kecerdasan buatan" untuk mengekstrak semata-mata dari lokasi watak individu apa perkataan, apakah perenggan, dan sebagainya. Perisian yang berbeza akan melakukan ini lebih baik daripada yang lain, dan ia juga akan bergantung pada bagaimana PDF dibuat. Walau bagaimanapun, anda tidak boleh mengharapkan hasil yang sempurna. Mempunyai PDF output tidak sama dengan mempunyai dokumen sumber. Jauh lebih baik untuk cuba mendapatkannya jika anda boleh.

Penyelesaian standard untuk jenis masalah Anda adalah dengan menggunakan Adobe Acrobat Professional (yang mahal, bukan pembaca bebas) untuk mengubah PDF ke HTML. Walaupun itu tidak akan mendapat keputusan yang sempurna.

Terdapat perisian percuma yang boleh digunakan untuk mengekstrak teks dari PDF dengan beberapa format yang utuh, tetapi sekali lagi, jangan mengharapkan hasil yang sempurna. Lihat, contohnya, berkaliber (yang boleh ditukar kepada format RTF), pdftohtml / pdfreflow, atau pemproses perkataan AbiWord (dengan semua plugin import / eksport diaktifkan). Terdapat juga plugin import PDF untuk OpenOffice.

Tetapi jangan harap kesempurnaan dengan mana-mana keputusan ini. Anda akan menentang gandum di sini. PDF hanya tidak dimaksudkan sebagai format input yang boleh diedit.

Sekiranya anda menghadapi masalah untuk menentukan alat yang dimulakan, Calibre adalah dokumen pisau Swiss Army. Anda juga boleh menggunakannya untuk menukar fail PDF untuk digunakan pada pembaca ebook anda dan menyusun perpustakaan ebook / dokumen anda.

Mempunyai sesuatu untuk menambah penjelasannya? Bunyi dalam komen. Ingin membaca lebih banyak jawapan dari pengguna Stack Exchange yang berteknologi tinggi? Lihat thread perbincangan penuh di sini.