11Sep
PDF, her yerde bulunan belge biçimi, yazı tiplerini, resimleri ve genel yerleşimi platformlar arasında korurken belgeleri paylaşmak için mükemmeldir. Ancak, metni kopyalayıp belgeden yapıştırırken çok biçimlendirmeyi korumanın kolay bir yolu var mı?
Bugünkü Soru &Yanıt oturumu bize Q & A web sitelerinin topluluk temelli bir gruplandırması olan Stack Exchange'in bir alt bölümü olan SuperUser nezaketen geliyor.
Soru
SuperUser okuyucu Colen, biçimlendirmeyi korurken PDF'ten metin ayıklamak için bir yol araştırıyor:
Metinleri bir PDF dosyasından bir metin düzenleyicisine kopyaladığımda, çeşitli şekillerde parçalanmış halde buluyorum. Kalın ve italik gibi biçimlendirme kaybolur;metnin bir paragrafı içindeki yumuşak satır sonları sabit satır sonlarına dönüştürülür;Bir kelimeyi iki satırdan kırmak için çizgiler kısa olmalı bile korunur;ve tek ve çift tırnak işaretleri?işaretler.
İdeal olarak, bir PDF'den metni kopyalayıp biçimlendirmeyi HTML kodlarına dönüştürmek, "akıllı tırnaklar" ve "ve" ya dönüştürmek ve satır sonlarını doğru bir şekilde yapmak istiyorum. Bunu yapmanın bir yolu var mı?
Colen'in( ve diğerlerinin) biçimlendirmeden ödün vermeden metin yakalamak için hızlı ve kolay bir yolu var mı?
Cevap
SuperUser katkıda bulunan Frabjous, dikkatli bir doz ile kombine bir çözüm sunar:
Öncelikle, PDF'nin ne olduğunu anlamanız gerekir. PDF'ler basılı bir sayfayı taklit etmek için tasarlanmıştır ve yalnızca giriş biçimi değil, yalnızca çıkış biçimi olarak tasarlanmıştır. PDF, temel olarak karakterlerin tam konumunu( tek tek harfler veya noktalama işaretleri, vb.) veya resimleri içeren bir haritadır.Çoğu durumda, bir PDF, bir kelimenin bittiği ve bir başkası başladığı hakkında bilgi bile saklamaz; paragraf bitiminde yumuşak kopmalar vs zorlu kopmalar gibi çok daha az şey.
( Birkaç yeni PDF, bu şeyler hakkında bazı bilgileri saklar, ancak bu yeni bir teknolojidir ve böyle PDF'leri bulmak için şanslı olursunuzdur bile olsa, PDF görüntüleyicisi bunu bilmeyebilir.)
Her neyse,yalnızca bir karakter, bir paragraf, vb. gibi bireysel karakterlerin konumlarından çıkartmak için birtakım "yapay zeka" uygulamak yazılımınıza kalmış.Farklı yazılımlar bunu diğerlerinden daha iyi yapacak ve aynı zamanda PDF'nin nasıl yapıldığına da bağlı olacak. Her durumda, mükemmel sonuçlar beklememelisiniz.Çıktının PDF'ye sahip olması, kaynak belgeye sahip olmakla aynı değildir. Elinizden geleni yapmaya çalışmak çok daha iyi.
Sorununuza karşı standart çözüm, PDF'yi HTML'ye dönüştürmek için Adobe Acrobat Professional'ı( ücretsiz olan okuyucu değil pahalı olanı) kullanmaktır. Hatta bu mükemmel sonuç almaz.
Bazı biçimlendirmelerin olduğu haliyle PDF'lerden metin ayıklamak için kullanılabilen, ancak yine de mükemmel sonuçlar beklemeyen ücretsiz bir yazılım var. Bakınız ör. Kalibre( RTF biçimine dönüşebilir), pdftohtml / pdfreflow veya AbiWord kelime işlemci( tüm içe aktarma / dışa aktarma eklentileri etkinleştirildiğinde).Ayrıca OpenOffice için bir PDF içe aktarma eklentisi de var.
Ancak lütfen bu sonuçlardan hiçbiriyle mükemmelliği beklemeyin. Burada tohuma karşı gidiyorsun. PDF sadece düzenlenebilir bir giriş biçimi olarak ifade edilmemiştir.
Hangi aracı başlatacağınıza karar vermekte zorlanıyorsanız, Calibre, gerçek bir Swiss Army bıçağı belgesidir. Ayrıca, e-kitap okuyucunuzda kullanmak üzere PDF dosyalarını dönüştürmek ve e-kitap / belge kitaplığınızı düzenlemek için kullanabilirsiniz.
Açıklamaya eklemek için bir şey var mı?Açıklamalarda ses çıkıyor. Diğer teknik uzman Stack Exchange kullanıcılarından daha fazla cevap okumak ister misiniz? Buradaki tam tartışma dizinine göz atın.