11Sep

Como posso copiar texto de um PDF ao preservar a formatação?

O PDF

, o formato de documento onipresente, é ótimo para compartilhar documentos, preservando fontes, imagens e o layout geral em todas as plataformas. Existe uma maneira fácil, no entanto, de preservar essa formatação mesmo ao copiar e colar texto do documento?

Today's Question &A sessão de atendimento chega a cortesia do SuperUser - uma subdivisão do Stack Exchange, um agrupamento comunitário de sites Q & A.

A pergunta

Leitor SuperUser Colen está procurando uma maneira de extrair texto de PDFs ao mesmo tempo que preserva a formatação:

Quando eu copio o texto de um arquivo PDF e em um editor de texto, ele acaba mutilando de várias maneiras. A formatação como negrito e itálico é perdida;as quebras de linha suave dentro de um parágrafo de texto são convertidas em quebras de linha dura;Raios para quebrar uma palavra em duas linhas são preservadas mesmo quando não deveriam ser;e as citações simples e duplas são substituídas por?sinais.

Idealmente, gostaria de poder copiar texto de um PDF e ter formatação convertida em códigos HTML, "citações inteligentes" convertidas em "e" e quebras de linha feitas corretamente. Há alguma maneira de fazer isso?

Existe uma maneira rápida e fácil para o Colen( e o resto de nós) pegar texto sem sacrificar a formatação?

A Resposta O contribuidor

SuperUser Frabjous oferece uma solução combinada com uma grande dose de precaução:

Em primeiro lugar, você precisa entender o que é um PDF.Os PDFs são projetados para imitar uma página impressa e são projetados apenas como um formato de saída, e não como um formato de entrada.um PDF é basicamente um mapa que contém a localização exata de caracteres( letras ou pontuação individuais, etc.) ou imagens. Na maioria dos casos, um PDF nem armazena informações sobre onde uma palavra termina e outra começa, muito menos coisas como quebras suaves versus rupturas duras para finais de parágrafo.

( Alguns PDFs recentes armazenam algumas informações sobre essas coisas, mas essa é uma nova tecnologia, e você teria sorte de encontrar PDFs assim. Mesmo que o fizesse, seu visualizador de PDF talvez não soubesse sobre isso.)

De qualquer forma,cabe ao seu software implementar algum tipo de "inteligência artificial" para extrair apenas dos locais de caracteres individuais o que é uma palavra, o que é um parágrafo e assim por diante. Software diferente vai fazer isso melhor do que outros, e também dependerá de como o PDF foi feito. Em qualquer caso, você nunca deve esperar resultados perfeitos. Ter o PDF de saída não é o mesmo que ter o documento de origem. Muito melhor para tentar obter isso se você puder.

A solução padrão para o seu tipo de problema é usar o Adobe Acrobat Professional( o caro, e não o leitor gratuito) para converter o PDF em HTML.Mesmo isso não vai conseguir resultados perfeitos.

Existe um software gratuito que pode ser usado para extrair texto de PDFs com algum formato intacto, mas novamente, não espere resultados perfeitos. Veja, por exemplo, calibre( que pode converter para formato RTF), pdftohtml / pdfreflow ou o processador de texto AbiWord( com todos os plugins import / export habilitados).Há também um plugin de importação de PDF para o OpenOffice.

Mas, por favor, não espere perfeição com nenhum desses resultados. Você está indo contra o grão aqui. O PDF simplesmente não significa um formato de entrada editável.

Se você está tendo problemas para decidir qual ferramenta começar, o Caliber é um verdadeiro documento de faca do Exército Suíço. Você também pode usá-lo para converter arquivos PDF para uso em seu leitor de ebook e organizar sua biblioteca de ebook / documento.

Tem alguma coisa a adicionar à explicação? Som na parte dos comentários. Deseja ler mais respostas de outros usuários Tech-savvy Stack Exchange? Confira o tópico de discussão completo aqui.