11Sep

¿Cómo puedo copiar texto de un PDF mientras preservo el formato?

click fraud protection

PDF, el formato de documento omnipresente, es ideal para compartir documentos conservando fuentes, imágenes y el diseño general en todas las plataformas. Sin embargo, ¿existe una manera sencilla de preservar ese mismo formato al copiar y pegar texto del documento?

Pregunta de hoy &La sesión de respuesta nos llega por cortesía de SuperUser, una subdivisión de Stack Exchange, una agrupación de sitios web Q & A dirigida por la comunidad.

El lector de SuperUser

de la pregunta Colen está buscando una forma de extraer texto de archivos PDF conservando el formato:

Cuando copio texto de un archivo PDF y en un editor de texto, termina mutilado de varias maneras. El formato como negrita y cursiva se pierde;los saltos de línea suave dentro de un párrafo de texto se convierten en saltos de línea dura;los guiones para dividir una palabra en dos líneas se conservan incluso cuando no deberían;y las comillas simples y dobles se reemplazan por?señales.

Idealmente, me gustaría poder copiar texto de un PDF y convertir el formato a códigos HTML, "comillas tipográficas" convertidas a "y", y los saltos de línea hechos correctamente.¿Hay alguna manera de hacer esto?

instagram viewer

¿Hay una manera rápida y fácil para Colen( y el resto de nosotros) de obtener texto sin sacrificar el formato?

La respuesta

SuperUser contribuidor Frabjous ofrece una solución combinada con una gran dosis de precaución:

En primer lugar, debe comprender qué es un PDF.Los PDF están diseñados para imitar una página impresa, y están diseñados solo como un formato de salida, no como un formato de entrada.un PDF es básicamente un mapa que contiene la ubicación exacta de los caracteres( letras individuales o signos de puntuación, etc.) o imágenes. En la mayoría de los casos, un PDF ni siquiera almacena información sobre dónde termina una palabra y comienza otra, y mucho menos cosas como las pausas suaves frente a las pausas para las terminaciones de los párrafos.

( Algunos archivos PDF recientes almacenan cierta información sobre esto, pero esa es una tecnología nueva, y usted tendría la suerte de encontrar archivos PDF así. Incluso si lo hiciera, su lector de PDF podría no saberlo).

De todos modos, Depende de su software implementar algún tipo de "inteligencia artificial" para extraer meramente de las ubicaciones de los caracteres individuales, qué es una palabra, qué es un párrafo, etc. Un software diferente va a hacer esto mejor que otros, y también dependerá de cómo se hizo el PDF.En cualquier caso, nunca debes esperar resultados perfectos. Tener el PDF de salida no es lo mismo que tener el documento de origen. Es mucho mejor tratar de obtener eso si puedes.

La solución estándar para su tipo de problema es utilizar Adobe Acrobat Professional( el más caro, no el lector gratuito) para convertir el PDF a HTML.Incluso eso no va a obtener resultados perfectos.

Hay software gratuito que se puede usar para extraer texto de archivos PDF con algunos formatos intactos, pero una vez más, no espere obtener resultados perfectos. Consulte, por ejemplo, calibre( que puede convertir a formato RTF), pdftohtml / pdfreflow, o el procesador de textos AbiWord( con todos los complementos de importación / exportación habilitados).También hay un complemento de importación de PDF para OpenOffice.

Pero no espere la perfección con ninguno de estos resultados. Estás yendo contra la corriente aquí.PDF no se entiende como un formato de entrada editable.

Si tiene problemas para decidir con qué herramienta comenzar, Calibre es un auténtico documento de la navaja suiza. También puede usarlo para convertir archivos PDF para usar en su lector de libros electrónicos y organizar su biblioteca de libros electrónicos / documentos.

¿Tiene algo que agregar a la explicación? Suena apagado en los comentarios.¿Desea leer más respuestas de otros usuarios de Stack Exchange expertos en tecnología? Mira el hilo de discusión completo aquí.