วิธีการแยกข้อความที่เน้นจาก PDF เป็นไฟล์ข้อความ?

การเน้นข้อความใน เอกสาร PDFนั้นมีประโยชน์ในการทำเครื่องหมายส่วนสำคัญที่คุณสามารถเข้าถึงได้ในภายหลังอย่างรวดเร็ว คุณสามารถใช้Microsoft Edge เพื่อไฮไลต์ PDF(Microsoft Edge to highlight PDF)  หรือซอฟต์แวร์อื่นๆ ที่มาพร้อมกับคุณสมบัติการเน้นPDF บางครั้ง คุณอาจรู้สึกว่าจำเป็นต้องมีเฉพาะข้อความที่ไฮไลต์ เพื่อให้คุณสามารถมีบทสรุปของPDFที่มีข้อความสำคัญทั้งหมดได้ หากคุณกำลังมองหาวิธีบันทึกเฉพาะข้อความที่เน้นสีจากPDFเป็น ไฟล์ TXTโพสต์นี้จะเป็นประโยชน์

แยกข้อความที่เน้นจาก PDF

มีซอฟต์แวร์ฟรีและบริการสำหรับดึงข้อความที่ไฮไลต์จากไฟล์ PDF(PDF)และบันทึกเป็นไฟล์ข้อความ:

  • ตัวแยกไฮไลท์ PDF
  • Foxit Reader
  • Sumnotes.net
  • DyAnnotationExtractor

มาตรวจสอบ ซอฟต์แวร์ PDF Highlight Extractor เหล่านี้ ทีละตัวกัน

1] ตัวแยกไฮไลท์ PDF

ซอฟต์แวร์ตัวแยกไฮไลท์ PDF

PDF Highlight Extractorเป็นหนึ่งในตัวเลือกที่ง่ายที่สุดในการแยกข้อความที่ไฮไลต์จากไฟล์PDF ตัวแยกไฮไลท์ข้อความ PDF แบบ(PDF text highlight extractor)โอเพนซอร์ส(open-source) นี้มีคุณสมบัติสองประการที่ดึงดูดความสนใจ คุณสามารถดูตัวอย่างข้อความที่ไฮไลต์(preview highlighted text)ของ PDF ได้บนอินเทอร์เฟซซอฟต์แวร์

คุณลักษณะที่สองคือคุณสามารถตั้งค่าหน้าเริ่มต้นหรือสิ้นสุดหรือช่วงหน้าเพื่อแยก(set start or end page or page range to extract the text)ข้อความ ดังนั้น แทนที่จะสแกนทั้งPDFคุณสามารถกำหนดหมายเลขหน้าเพื่อรับข้อความที่เน้นสีได้

คุณลักษณะที่ดีอีกประการหนึ่งคือ คุณมีตัวเลือกในการบันทึกข้อความเป็นข้อความธรรมดา(save text as plain text)หรือไฟล์Excel(Excel file)

บนอินเทอร์เฟซ ให้เพิ่มไฟล์ PDF(PDF) ของคุณ โดยใช้ตัวเลือกที่กำหนด จากนั้นกดปุ่มExtract ยกเลิกการ เลือกตัวเลือก หน้าทั้งหมด(All Pages)หากคุณต้องการตั้งค่าช่วงหน้าหรือปล่อยไว้ตามเดิม เมื่อดึงข้อความแล้ว คุณสามารถดูตัวอย่างได้ สุดท้าย ให้กดปุ่มTextหรือExcelเพื่อบันทึกข้อความที่ไฮไลต์

คุณสามารถดาวน์โหลดซอฟต์แวร์นี้ได้จากที่นี่ (here)จำเป็นต้องใช้ Java(Java)เพื่อใช้ซอฟต์แวร์นี้ ดังนั้นให้ติดตั้งJava (หากยังไม่ได้ดำเนินการ) และรันซอฟต์แวร์นี้เพื่อใช้งาน

2] Foxit Reader

แยกข้อความที่เน้นจาก PDF

Foxit Reader เป็นหนึ่งในโปรแกรมอ่าน PDF ฟรีที่ดีที่สุด คุณสามารถเปิดไฟล์ PDF(PDF) หลาย ไฟล์ในแท็บแยกกัน ไฮไลท์PDFเพิ่มบันทึก ส่งออก ความคิดเห็น(export comments)เพิ่มลายเซ็น(add signatures)และอื่นๆ ในบรรดาคุณสมบัติมากมาย การดึงข้อความที่ไฮไลต์จากPDFก็อยู่ที่นั่นด้วย ส่วนที่ดีที่สุดของคุณสมบัตินี้คือบันทึกหมายเลขหน้าพร้อมกับข้อความที่แยกออก(saves page numbers along with the extracted text)มา

ในการดึงข้อความที่ไฮไลต์จากPDFให้เปิดไฟล์ PDF(PDF)บนอินเทอร์เฟซ และเข้าถึงแท็บความคิดเห็น (Comment)ในแท็บนั้น คลิกที่ ตัวเลือกการ ส่งออก(Export) ที่ มีอยู่ในส่วนจัดการความคิดเห็น (Manage Comments)คุณจะเห็นตัวเลือกข้อความที่เน้น สี (Highlighted Text)ใช้ตัวเลือกนั้นแล้วคุณสามารถบันทึกข้อความที่ไฮไลต์ทั้งหมดเป็นไฟล์ข้อความได้

นี่(Here)คือลิงค์ดาวน์โหลดสำหรับซอฟต์แวร์นี้ ระหว่างการติดตั้ง คุณควรเลือกการติดตั้งแบบกำหนดเอง(custom installation)เพื่อรวมเฉพาะส่วนประกอบที่จำเป็นของซอฟต์แวร์นี้

3] Sumnotes.net

ซัมโนท

Sumnotes.netเป็นบริการฟรีที่ให้คุณใส่คำอธิบายประกอบPDFและแยกข้อความที่ไฮไลต์ ข้อความที่ไฮไลต์ทั้งหมดจะมองเห็นแยกต่างหากบนแถบด้านข้างทางซ้าย เมื่อใช้แถบด้านข้างนั้น คุณยังสามารถลบข้อความที่เน้นสีที่คุณไม่ต้องการออก(remove highlighted text that you don’t need)แล้วดาวน์โหลดส่วนที่เหลือของข้อความที่ไฮไลท์ไว้ได้

ก่อนดาวน์โหลดข้อความที่ไฮไลต์ คุณยังสามารถรวมหมายเลขหน้าและยกเว้น(exclude) ข้อความ ที่เน้นสี(highlighted text of specific color)เฉพาะ

คุณยังมีตัวเลือกในการบันทึกข้อความที่ไฮไลต์จาก PDF เป็นไฟล์(save highlighted text from PDF as Excel) Excel หรือWord ดังนั้นคุณสมบัติที่ดี คุณสามารถลงทะเบียนด้วยแผนบริการฟรี จากนั้นดึงไฮไลต์(extract 50 highlights)หรือคำอธิบายประกอบ 50 รายการ ต่อการดาวน์โหลด(per download)ซึ่งเพียงพอแล้วสำหรับกรณีส่วนใหญ่

นี่(Here)คือลิงค์ไปยังหน้าแรก หากต้องการแยกข้อความที่ไฮไลต์จากPDFให้เพิ่มPDFจากพีซีหรือGoogle ไดร(Google Drive)ฟ์ เมื่อ อัปโหลด PDFแล้ว คำอธิบายประกอบและข้อความที่ไฮไลต์จะปรากฏทางด้านซ้าย ใช้ ตัวเลือก ดาวน์โหลดคำอธิบายประกอบ(Download Annotations)จากนั้นคุณสามารถบันทึกข้อความที่เน้นสีในไฟล์รูปแบบTXT , XLSXหรือDOC

4] DyAnnotationExtractor

ซอฟต์แวร์บรรทัดคำสั่ง DyAnnotationExtractor

ซอฟต์แวร์ DyAnnotationExtractor(DyAnnotationExtractor)สามารถช่วยคุณแยกข้อความและความคิดเห็น(comments) ที่เน้นสี ออกจากเอกสาร PDF เป็น ซอฟต์แวร์ บรรทัดคำสั่ง(command-line)แต่ใช้งานได้ง่ายมาก เพียงคำสั่งเดียวก็จะดึงข้อความที่เน้นในไฟล์ PDF(PDF) ที่ป้อนเข้า มา

คุณสามารถรับซอฟต์แวร์นี้ได้โดยใช้ลิงก์(this link)นี้ ดาวน์โหลด(Download)ไฟล์ZIPแล้ว แตกไฟล์ เพื่อให้เรียกใช้คำสั่งได้ง่ายขึ้น คุณควรใส่PDF ไว้ ในโฟลเดอร์เดียวกับที่คุณแตกซอฟต์แวร์นี้ หลังจากนั้นให้เปิด หน้าต่าง พรอมต์คำสั่ง(Command Prompt)ในโฟลเดอร์นั้น คุณสามารถทำได้โดยพิมพ์cmdในกล่องที่อยู่ของโฟลเดอร์นั้นแล้วกดปุ่มEnter

เมื่อเปิดหน้าต่างCMD ให้เพิ่มไฟล์ (CMD)BATของซอฟต์แวร์นี้ คำสั่งอินพุตรวมถึงเส้นทางของอินพุตPDFคำสั่งเอาต์พุต และชื่อไฟล์เอาต์พุตพร้อมกับนามสกุล '.txt' คำสั่งเต็มจะเป็น-

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

ดำเนินการคำสั่ง รอสักครู่(Wait)และไฟล์ข้อความธรรมดาจะพร้อมสำหรับข้อความที่ไฮไลต์และความคิดเห็นที่ดึงมาจากPDFนั้น ไฟล์เอาต์พุตถูกบันทึกในโฟลเดอร์อินพุตเดียวกัน

ดังนั้น นี่คือตัวเลือกบางส่วนที่คุณสามารถใช้เพื่อแยกข้อความที่ไฮไลต์จากPDFแล้วบันทึกผลลัพธ์เป็นไฟล์ข้อความ หวังว่าความ(Hope)ช่วยเหลือเหล่านี้



About the author

ฉันเป็น windows, ios, pdf, ข้อผิดพลาด, วิศวกรแกดเจ็ตที่มีประสบการณ์มากกว่า 10 ปี ฉันได้ทำงานกับแอปพลิเคชันและเฟรมเวิร์กคุณภาพสูงของ Windows มากมาย เช่น OneDrive for Business, Office 365 และอื่นๆ งานล่าสุดของฉันได้รวมการพัฒนาโปรแกรมอ่าน pdf สำหรับแพลตฟอร์ม windows และการทำงานเพื่อทำให้ข้อความแสดงข้อผิดพลาดชัดเจนยิ่งขึ้นสำหรับผู้ใช้ นอกจากนี้ ฉันได้มีส่วนร่วมในการพัฒนาแพลตฟอร์ม ios มาสองสามปีแล้ว และคุ้นเคยกับทั้งคุณสมบัติและลักษณะเฉพาะของมันมาก



Related posts