11Sep
PDF, פורמט המסמכים הנפוץ, מתאים לשיתוף מסמכים תוך שמירה על גופנים, תמונות ופריסה כללית בפלטפורמות.האם יש דרך קלה, עם זאת, כדי לשמור על עיצוב מאוד בעת העתקה והדבקת טקסט מתוך המסמך?
שאלה של היום &מפגש תשובה מגיע אלינו באדיבות SuperUser - חלוקה של סטאק שערי, קהילה מונחה קיבוץ של Q & אתרי אינטרנט.
השאלה
קורא SuperUser Colen מחפשת דרך לחלץ טקסט ממסמכי PDF תוך שמירה על העיצוב:
כאשר אני מעתיק טקסט מתוך קובץ PDF לתוך עורך טקסט, זה בסופו של דבר מסובכת במגוון דרכים.עיצוב כמו מודגש ונטוי אבודים;רצועות שורה רכה בתוך פסקה של טקסט מומרים קו הפסקות קו;מקפים לשבור מילה על שתי שורות נשמרים גם כאשר הם לא צריכים להיות;ואת ציטוטים בודדים כפולים מוחלפים?שלטים.
באופן אידיאלי, אני רוצה להיות מסוגל להעתיק טקסט מתוך PDF יש עיצוב המרה קודי HTML, "ציטוטים חכם" המרה ל "ו", ואת מעברי שורה נעשה כראוי.האם יש דרך לעשות זאת?
האם יש דרך קלה ומהירה עבור קולן( ושארנו) כדי לתפוס טקסט מבלי להקריב את העיצוב?
תשובה
SuperUser תורם Frabjous מציעה פתרון בשילוב עם מנה כבדה של זהירות:
ראשית, אתה צריך להבין מה זה PDF.קבצי PDF נועדו לחקות דף מודפס, והם נועדו רק בפורמט פלט, לא בפורמט קלט.PDF הוא בעצם מפה המכילה את המיקום המדויק של תווים( אותיות בודדות או פיסוק, וכו ') או תמונות.ברוב המקרים, קובץ PDF אפילו לא מאחסן מידע על שם מילה אחת מסתיימת והשניה מתחילה, הרבה פחות דברים כמו הפסקות קלות לעומת הפסקות קשות עבור קצות פסקה.
( כמה מסמכי PDF אחרונים לאחסן קצת מידע על החומר הזה, אבל זה טכנולוגיה חדשה, ואתה תהיה בר מזל כדי למצוא מסמכי PDF כאלה.גם אם כן, הצופה PDF שלך אולי לא יודע על זה.)
בכל מקרה,זה תלוי בתוכנה שלך כדי ליישם איזה סוג של "בינה מלאכותית" כדי לחלץ רק ממקומות של דמויות בודדות מה מילה, מה פיסקה, וכן הלאה.תוכנה אחרת היא לעשות את זה טוב יותר מאחרים, וזה גם הולך תלוי איך נעשה PDF.בכל מקרה, אתה אף פעם לא צריך לצפות לתוצאות מושלמות.לאחר הפלט PDF אינו זהה שיש מסמך המקור.עדיף לנסות להשיג את זה אם אתה יכול.
הפתרון הסטנדרטי לסוג הבעיה שלך הוא להשתמש Adobe Acrobat Professional( יקר אחד, לא קורא חינם) כדי להמיר את ה- HTML ל- HTML.גם זה לא הולך לקבל תוצאות מושלמות.
יש תוכנה חופשית שניתן להשתמש בה כדי לחלץ טקסט מ- PDFs עם כמה עיצוב שלם, אבל שוב, לא מצפה לתוצאות מושלמות.ראה למשל קליבר( שיכול להמיר לפורמט RTF), pdftohtml / pdfreflow או מעבד התמלילים AbiWord( עם כל התוספים לייבוא / ייצוא מופעלים).יש גם תוסף ייבוא PDF עבור OpenOffice.
אבל בבקשה אל תצפו לשלמות עם כל התוצאות הללו.אתה הולך נגד הדגן כאן.PDF פשוט לא נועד כפורמט קלט לעריכה.
אם אתה מתקשה להחליט איזה כלי להתחיל, קליבר הוא מסמך אמיתי שוויצרי סכין הצבא.אתה יכול גם להשתמש בו כדי להמיר קבצי PDF לשימוש על הקורא ספר אלקטרוני שלך ולארגן את ספר אלקטרוני / ספריית מסמכים.
יש מה להוסיף להסבר?נשמע את ההערות.רוצה לקרוא תשובות נוספות ממשתמשים אחרים בעלי ידע טכנולוגי?בדוק את נושא הדיון המלא כאן.