11Sep

Comment puis-je copier du texte à partir d'un PDF tout en préservant le formatage?

PDF, le format de document omniprésent, est idéal pour partager des documents tout en préservant les polices, les images et la présentation générale sur toutes les plates-formes. Y a-t-il un moyen facile, cependant, de préserver ce formatage lors de la copie et du collage de texte hors du document?

Question d'aujourd'hui &La session de réponse nous est offerte par SuperUser, une subdivision de Stack Exchange, un regroupement communautaire de sites Web Q & A.

La question Lecteur

SuperUser Colen recherche un moyen d'extraire du texte à partir de PDF tout en préservant le formatage:

Lorsque je copie du texte d'un fichier PDF et dans un éditeur de texte, il finit par être altéré de plusieurs façons. Formatage comme gras et italique sont perdus;les sauts de lignes souples dans un paragraphe de texte sont convertis en sauts de ligne rigides;des tirets pour casser un mot sur deux lignes sont conservés même quand ils ne le devraient pas;et les guillemets simples et doubles sont remplacés par?signes.

Idéalement, j'aimerais pouvoir copier du texte à partir d'un fichier PDF et convertir le formatage en codes HTML, les «citations intelligentes» converties en «et» et les sauts de ligne correctement. Est-ce qu'il y a un moyen de faire ça?

Y a-t-il un moyen rapide et facile pour Colen( et le reste d'entre nous) de récupérer du texte sans sacrifier le formatage?

La réponse

SuperUser contributeur Frabjous offre une solution combinée avec une forte dose de prudence:

Tout d'abord, vous devez comprendre ce qu'est un PDF.Les fichiers PDF sont conçus pour imiter une page imprimée et ils sont conçus uniquement comme format de sortie et non comme format d'entrée.un PDF est essentiellement une carte contenant l'emplacement exact des caractères( lettres individuelles ou ponctuation, etc.) ou des images. Dans la plupart des cas, un PDF ne stocke même pas d'informations sur l'endroit où un mot se termine et un autre commence, et encore moins sur des choses comme des sauts doux ou des pauses pour les fins de paragraphe.

( Quelques fichiers PDF récents stockent des informations sur ce sujet, mais c'est une nouvelle technologie, et vous auriez de la chance de trouver des fichiers PDF de ce type.) Même si vous l'avez fait, votre lecteur PDF pourrait ne pas le savoir. C'est à votre logiciel d'implémenter une sorte d '"intelligence artificielle" pour extraire simplement de l'emplacement des caractères individuels ce qu'est un mot, ce qu'est un paragraphe, et ainsi de suite. Différents logiciels vont le faire mieux que d'autres, et cela dépendra aussi de la façon dont le PDF a été créé.Dans tous les cas, vous ne devriez jamais vous attendre à des résultats parfaits. Avoir le PDF de sortie n'est pas la même chose que d'avoir le document source. Il vaut mieux essayer d'obtenir cela si vous le pouvez.

La solution standard à votre type de problème est d'utiliser Adobe Acrobat Professional( le plus cher, pas le lecteur gratuit) pour convertir le PDF en HTML.Même cela ne va pas obtenir des résultats parfaits.

Il existe un logiciel gratuit qui peut être utilisé pour extraire du texte à partir de fichiers PDF avec une partie du formatage intact, mais encore une fois, ne vous attendez pas à des résultats parfaits. Voir, par exemple, calibre( qui peut être converti au format RTF), pdftohtml / pdfreflow, ou le traitement de texte AbiWord( avec tous les plugins import / export activés).Il y a aussi un plugin d'import PDF pour OpenOffice.

Mais ne vous attendez pas à la perfection avec l'un de ces résultats. Vous allez à contre-courant ici. PDF n'est pas conçu comme un format d'entrée modifiable.

Si vous avez du mal à décider quel outil vous souhaitez utiliser, Caliber est un véritable document couteau suisse. Vous pouvez également l'utiliser pour convertir des fichiers PDF à utiliser sur votre lecteur ebook et organiser votre bibliothèque ebook / document.

Avoir quelque chose à ajouter à l'explication? Sonnez dans les commentaires. Vous voulez lire plus de réponses d'autres utilisateurs de Stack Exchange? Découvrez le fil de discussion complet ici.