11Sep

Hoe kan ik tekst uit een PDF kopiëren terwijl ik de opmaak behoud?

PDF, het alomtegenwoordige documentformaat, is geweldig voor het delen van documenten met behoud van lettertypen, afbeeldingen en de algemene lay-out op verschillende platforms. Is er echter een eenvoudige manier om diezelfde opmaak te behouden bij het kopiëren en plakken van tekst uit het document?

De vraag van vandaag &Antwoord sessie komt naar ons met dank aan SuperUser-een onderverdeling van Stack Exchange, een community-gestuurde groepering van Q & A-websites.

De vraag

SuperUser-lezer Colen is op zoek naar een manier om tekst uit PDF's te extraheren met behoud van de opmaak:

Wanneer ik tekst uit een PDF-bestand en in een teksteditor kopieer, raakt deze op verschillende manieren verminkt. Opmaak zoals vet en cursief gaan verloren;zachte regeleinden in een alinea van de tekst worden geconverteerd naar harde regeleinden;streepjes om een ​​woord te breken over twee regels blijven behouden, zelfs als ze dat niet zouden moeten zijn;en enkele en dubbele aanhalingstekens worden vervangen door?borden.

In het ideale geval zou ik graag tekst van een PDF kunnen kopiëren en opmaak omgezet hebben in HTML-codes, "slimme aanhalingstekens" geconverteerd naar "en", en regeleinden goed gedaan. Is er een manier om dit te doen?

Is er een snelle en eenvoudige manier voor Colen( en de rest van ons) om grab-tekst te krijgen zonder de opmaak op te offeren?

Het antwoord

SuperUser-bijdrager Frabjous biedt een oplossing in combinatie met een grote dosis voorzichtigheid:

Allereerst moet u begrijpen wat een PDF is. PDF's zijn ontworpen om een ​​afgedrukte pagina na te bootsen en zijn alleen ontworpen als een uitvoerindeling, niet als een invoerindeling.een PDF is in feite een kaart met de exacte locatie van tekens( individuele letters of interpunctie, enz.) of afbeeldingen. In de meeste gevallen slaat een PDF zelfs geen informatie op over waar het ene woord eindigt en het andere begint, laat staan ​​dingen zoals zachte onderbrekingen versus harde onderbrekingen voor alinea-einden.

( Een paar recente PDF's slaan wat informatie over dit soort dingen op, maar dat is een nieuwe technologie, en je hebt het geluk dat je PDF's zo vindt. Zelfs als je dat wel weet, weet je PDF-viewer het misschien niet.)

Hoe dan ook,het is aan uw software om een ​​soort "kunstmatige intelligentie" te implementeren om alleen uit de locaties van individuele tekens te halen wat een woord is, wat een alinea is, enzovoort. Verschillende software gaat dit beter doen dan anderen, en het zal ook afhangen van hoe de PDF is gemaakt. In elk geval mag u nooit perfecte resultaten verwachten. Het hebben van de uitvoer-PDF is niet hetzelfde als het hebben van het brondocument. Het is veel beter om dat te proberen als je kunt.

De standaardoplossing voor uw soort probleem is om Adobe Acrobat Professional( de dure versie, niet de gratis reader) te gebruiken om de PDF naar HTML te converteren. Zelfs dat levert geen perfect resultaat op.

Er is gratis software die kan worden gebruikt om tekst uit PDF's te extraheren met een deel van de opmaak intact, maar nogmaals, verwacht geen perfecte resultaten. Zie bijvoorbeeld calibre( dat kan worden geconverteerd naar RTF-indeling), pdftohtml / pdfreflow of de AbiWord-tekstverwerker( waarbij alle import- / exportplug-ins zijn ingeschakeld).Er is ook een PDF-import-plug-in voor OpenOffice.

Maar verwacht alsjeblieft geen perfectie met een van deze resultaten. Je gaat hier tegen de stroom in. PDF is gewoon niet bedoeld als een bewerkbaar invoerformaat.

Als je moeilijk kunt bepalen met welke tool je begint, is Caliber een echt document Zwitsers zakmes. U kunt het ook gebruiken om PDF-bestanden te converteren voor gebruik op uw e-boeklezer en uw e-boek / documentbibliotheek te ordenen.

Heeft u iets toe te voegen aan de uitleg? Geluid uit in de opmerkingen. Wilt u meer antwoorden van andere technisch onderlegde Stack Exchange-gebruikers lezen? Bekijk de volledige discussiethread hier.