11Sep

Bagaimana Saya Menyalin Teks dari PDF sambil Melestarikan Pemformatan?

PDF, format dokumen mana-mana, sangat bagus untuk berbagi dokumen sambil melestarikan font, gambar, dan tata letak umum di seluruh platform. Apakah ada cara mudah, bagaimanapun, untuk melestarikan format itu saat menyalin dan menempelkan teks dari dokumen?

Pertanyaan Hari Ini &Sesi jawaban datang kepada kami atas izin SuperUser - subdivisi dari Stack Exchange, pengelompokan berbasis komunitas dari Q & A situs web.

Pertanyaan

Pembaca superuser Colen sedang mencari cara untuk mengekstrak teks dari PDF sambil melestarikan pemformatannya:

Ketika saya menyalin teks dari file PDF dan masuk ke editor teks, pesan itu berakhir dengan kacau dalam berbagai cara. Format seperti huruf tebal dan huruf miring hilang;jeda soft line dalam satu paragraf teks diubah menjadi jeda garis keras;Garis demi garis untuk memecahkan satu kata di atas dua garis dipertahankan bahkan jika tidak seharusnya;dan tanda kutip tunggal dan ganda diganti dengan?tanda-tanda.

Idealnya, saya ingin bisa menyalin teks dari PDF dan formatnya telah dikonversi ke kode HTML, "smart quotes" dikonversi menjadi "dan ', dan jeda baris dilakukan dengan benar. Apakah ada cara untuk melakukan ini?

Apakah ada cara cepat dan mudah bagi Colen( dan sisanya) untuk mendapatkan teks ambil tanpa mengorbankan formatnya?

Jawaban

Kontributor Superizer Frabjous menawarkan solusi yang dikombinasikan dengan hati-hati yang berat:

Pertama, Anda harus mengerti apa itu PDF.PDF dirancang untuk meniru halaman cetak, dan dirancang hanya sebagai format output, bukan format input. PDF pada dasarnya adalah peta yang berisi lokasi karakter yang tepat( masing-masing huruf atau tanda baca, dll.) atau gambar. Dalam kebanyakan kasus, PDF bahkan tidak menyimpan informasi tentang di mana satu kata berakhir dan yang lainnya dimulai, apalagi hal-hal seperti soft breaks vs hard breaks untuk akhiran paragraf.

( Beberapa PDF baru-baru ini menyimpan beberapa informasi tentang barang ini, tapi itu adalah teknologi baru, dan Anda akan beruntung menemukan PDF seperti itu. Bahkan jika Anda melakukannya, penampil PDF Anda mungkin tidak mengetahuinya.)

Bagaimanapun,terserah pada perangkat lunak Anda untuk menerapkan semacam "kecerdasan buatan" untuk mengekstrak hanya dari lokasi karakter individu apa itu kata, apa itu paragraf, dan seterusnya. Perangkat lunak yang berbeda akan melakukan ini dengan lebih baik daripada yang lain, dan ini juga tergantung pada bagaimana PDF dibuat. Bagaimanapun, Anda seharusnya tidak pernah mengharapkan hasil yang sempurna. Memiliki output PDF tidak sama dengan memiliki dokumen sumber. Jauh lebih baik mencoba mendapatkannya jika bisa.

Solusi standar untuk masalah Anda adalah menggunakan Adobe Acrobat Professional( yang mahal, bukan pembaca bebas) untuk mengubah PDF menjadi HTML.Bahkan itu pun tak akan mendapatkan hasil yang sempurna.

Ada software gratisan yang bisa digunakan untuk mengekstrak teks dari PDF dengan beberapa format utuh, namun sekali lagi, jangan mengharapkan hasil yang sempurna. Lihat, misalnya, kaliber( yang dapat dikonversi ke format RTF), pdftohtml / pdfreflow, atau pengolah kata AbiWord( dengan semua plugin impor / ekspor diaktifkan).Ada juga plugin impor PDF untuk OpenOffice.

Tapi tolong jangan mengharapkan kesempurnaan dengan hasil ini. Anda akan melawan gandum di sini. PDF saja tidak dimaksudkan sebagai format input yang dapat diedit.

Jika Anda mengalami masalah dalam menentukan alat mana yang harus dimulai, Kaliber adalah pisau Swiss Army yang benar-benar bagus. Anda juga dapat menggunakannya untuk mengkonversi file PDF untuk digunakan pada pembaca ebook Anda dan mengatur koleksi ebook / dokumen Anda.

Punya sesuatu untuk ditambahkan ke penjelasan? Terdengar dalam komentar. Ingin membaca lebih banyak jawaban dari pengguna Stack Exchange tech-savvy lainnya? Simak thread diskusi selengkapnya disini.