แยกข้อความจากไฟล์ PDF และไฟล์รูปภาพ

มีเอกสาร PDF(PDF document)ที่คุณต้องการแยกข้อความทั้งหมดหรือไม่? แล้วไฟล์รูปภาพของเอกสารที่สแกนแล้วที่คุณต้องการแปลงเป็นข้อความที่แก้ไขได้ล่ะ นี่คือปัญหาทั่วไปบางส่วนที่ฉันพบในที่ทำงานเมื่อทำงานกับไฟล์

ในบทความนี้ ผมจะพูดถึงหลายวิธีที่คุณสามารถลองแยกข้อความจากPDFหรือจากรูปภาพ ผลการแยกของคุณจะแตกต่างกันไปขึ้นอยู่กับประเภทและคุณภาพ(type and quality)ของข้อความในPDF หรือรูปภาพ (PDF or image)นอกจากนี้ ผลลัพธ์ของคุณจะแตกต่างกันไปตามเครื่องมือที่คุณใช้ ดังนั้นจึงเป็นการดีที่สุดที่จะลองใช้ตัวเลือกด้านล่างให้มากที่สุดเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

แยกข้อความจากรูปภาพหรือ PDF

วิธีที่ง่ายและรวดเร็วที่สุดในการเริ่มต้นคือการลองใช้บริการ ตัว แยก(extractor service)ข้อความ PDF(PDF text) ออนไลน์ โดยทั่วไปแล้วสิ่งเหล่านี้จะให้บริการฟรีและสามารถให้สิ่งที่คุณต้องการได้โดยไม่ต้องติดตั้งอะไรบนคอมพิวเตอร์ของคุณ ต่อไปนี้คือ 2 อย่างที่ฉันใช้แล้วได้ผลดีมากถึงดีเยี่ยม:

แตกไฟล์PDF

extractpdf

ExtractPDFเป็นเครื่องมือฟรีในการดึงรูปภาพข้อความ และแบบอักษร(text and fonts)ออกจากไฟล์PDF (PDF file)ข้อจำกัดเพียงอย่างเดียวคือขนาดสูงสุด(max size)ของไฟล์ PDF(PDF file)คือ 10 MB มันเล็กไปหน่อย ดังนั้น หากคุณมีไฟล์ที่ใหญ่กว่า ให้ลองใช้วิธีอื่นๆ ด้านล่างนี้ เลือกไฟล์ของคุณแล้วคลิกปุ่มส่งไฟล์ (Send file)ผลลัพธ์มักจะเร็วมาก และคุณควรดูตัวอย่างข้อความเมื่อคุณคลิกที่แท็บ(Text tab)ข้อความ

ดาวน์โหลดข้อความ

นอกจากนี้ยังเป็นประโยชน์เพิ่มเติมที่ดีที่จะดึงรูปภาพออกจากไฟล์ PDF(PDF file)เช่นกัน ในกรณีที่คุณต้องการ! โดยรวมแล้ว เครื่องมือออนไลน์ใช้งานได้ดี แต่ฉันพบเอกสาร PDF(PDF docs) สองสาม ฉบับที่ให้ผลลัพธ์ที่ตลกขบขัน ข้อความถูกดึงออกมาได้ดี แต่ด้วยเหตุผลบางอย่าง ข้อความแต่ละคำจะมีตัวแบ่งบรรทัด(line break) ! ไม่ใช่ปัญหาใหญ่สำหรับไฟล์ PDF แบบ(PDF file) สั้น แต่แน่นอนว่าเป็นปัญหาสำหรับไฟล์ที่มีข้อความจำนวนมาก หากสิ่งนั้นเกิดขึ้นกับคุณ ให้ลองใช้เครื่องมือถัดไป

OCR ออนไลน์

OCR ออนไลน์(Online OCR)มักจะทำงานกับเอกสารที่ไม่ได้แปลงอย่างถูกต้องด้วยExtractPDFดังนั้นจึงควรลองใช้บริการทั้งสองเพื่อดูว่าบริการใดให้ผลลัพธ์ที่ดีกว่า OCR ออนไลน์(Online OCR)ยังมีคุณสมบัติที่ดีกว่าที่สามารถพิสูจน์ได้ว่าสะดวกสำหรับทุกคนที่มีไฟล์ PDF(PDF file) ขนาดใหญ่ ที่ต้องการแปลงข้อความในไม่กี่หน้าเท่านั้น แทนที่จะเป็นทั้งเอกสาร

สิ่งแรกที่คุณต้องการทำคือ สร้างบัญชีฟรี ค่อนข้างน่ารำคาญ แต่ถ้าคุณไม่ได้สร้างบัญชีฟรี มันจะแปลงไฟล์ PDF(PDF) ของคุณเพียงบางส่วน แทนที่จะเป็นทั้งเอกสาร นอกจากนี้ แทนที่จะอัปโหลดได้เพียงเอกสารขนาด 5 MB(MB document)คุณสามารถอัปโหลดได้สูงสุด 100MB ต่อไฟล์ด้วยบัญชี

ออนไลน์ ocr

ขั้นแรก เลือกภาษาแล้วเลือกประเภทของรูปแบบผลลัพธ์ที่คุณต้องการสำหรับไฟล์ที่แปลง คุณมีสองตัวเลือกและคุณสามารถเลือกได้มากกว่าหนึ่งตัวเลือกหากต้องการ ภายใต้เอกสารหลายหน้า(Multipage document)คุณสามารถเลือกหมายเลขหน้า(Page numbers)จากนั้นเลือกเฉพาะหน้าที่คุณต้องการแปลง จากนั้นเลือกไฟล์และคลิก(file and click) แปลง(Convert) !

เอกสาร ocr ออนไลน์

หลังจากการแปลง คุณจะเข้าสู่ ส่วน เอกสาร(Documents) (หากคุณลงชื่อเข้าใช้) ซึ่งคุณสามารถดูจำนวนหน้าที่ว่างที่คุณเหลืออยู่และลิงก์สำหรับดาวน์โหลดไฟล์ที่แปลงของคุณ ดูเหมือนว่าคุณมีหน้าเว็บฟรีเพียง 25 หน้าต่อวัน ดังนั้นหากคุณต้องการมากกว่านั้น คุณจะต้องรอสักครู่หรือซื้อหน้าเพิ่ม

OCR ออนไลน์(Online OCR)ทำได้ดีมากในการแปลงไฟล์ PDF(PDF) ของฉัน เพราะมันสามารถรักษาเลย์เอาต์ที่แท้จริงของข้อความได้ ในการทดสอบของฉัน ฉันใช้เอกสาร Word(Word doc)ที่ใช้สัญลักษณ์แสดงหัวข้อย่อย ขนาดแบบอักษรต่างกัน ฯลฯ และแปลงเป็นPDF จากนั้นฉันใช้OCR ออนไลน์(Online OCR)เพื่อแปลงกลับเป็นรูปแบบ Word(Word format)และมีค่าเท่ากับต้นฉบับประมาณ 95% นั่นค่อนข้างน่าประทับใจสำหรับฉัน

นอกจากนี้ หากคุณต้องการแปลงรูปภาพเป็นข้อความOnline OCRสามารถทำได้ง่ายๆ เหมือนกับการแยกข้อความจากไฟล์PDF

ฟรี OCR ออนไลน์

เนื่องจากกำลังพูดถึงรูปภาพเป็นข้อความOCRให้ฉันพูดถึงเว็บไซต์ที่ดีอีกแห่งที่ใช้งานได้ดีกับรูปภาพ OCR ออนไลน์ฟรี(Free Online OCR)นั้นดีมากและแม่นยำมากเมื่อแยกข้อความจากภาพทดสอบของฉัน ฉันถ่ายรูปสองสามรูปจาก iPhone ของฉันจากหน้าหนังสือ แผ่นพับ ฯลฯ และฉันรู้สึกประหลาดใจที่มันสามารถแปลงข้อความได้ดีเพียงใด

ออนไลน์ฟรี ocr

เลือกไฟล์ ของคุณแล้วคลิกปุ่มอัปโหลด (Upload button)ในหน้าจอถัดไป มีตัวเลือกสองสามตัวและการแสดงตัวอย่างรูปภาพ คุณสามารถครอบตัดได้หากคุณไม่ต้องการ OCR ทั้งหมด จากนั้นเพียงคลิกปุ่ม OCR(OCR button)แล้วข้อความที่แปลงของคุณจะปรากฏใต้ภาพตัวอย่าง (image preview)นอกจากนี้ยังไม่มีข้อจำกัดใดๆ ซึ่งดีมาก

นอกจากบริการออนไลน์แล้ว ยังมี ตัวแปลง PDF ฟรีแวร์สอง ตัวที่ฉันต้องการพูดถึง ในกรณีที่คุณต้องการซอฟต์แวร์ที่ทำงานอยู่ในคอมพิวเตอร์ของคุณเพื่อแปลงไฟล์ ด้วยบริการออนไลน์ คุณจะต้องมีการเชื่อมต่ออินเทอร์เน็ต(Internet connection) เสมอ และนั่นอาจไม่ใช่สำหรับทุกคน อย่างไรก็ตาม ฉันสังเกตเห็นว่าคุณภาพของการแปลงจากโปรแกรมฟรีแวร์นั้นแย่กว่าของเว็บไซต์อย่างมาก

ตัวแยกข้อความ A-PDF

A-PDF Text Extractorเป็นฟรีแวร์ที่แยกข้อความออกจากไฟล์ PDF(PDF file)ได้ ค่อนข้างดี เมื่อ(Once)คุณดาวน์โหลดและติดตั้งแล้ว ให้คลิกปุ่มเปิด(Open button)เพื่อเลือกไฟล์ PDF(PDF file)ของ คุณ จากนั้นคลิกแยกข้อความ(Extract text)เพื่อเริ่มกระบวนการ

ตัวแยกไฟล์ apdf

มันจะถามคุณถึงตำแหน่งที่จะเก็บไฟล์เอาท์พุตข้อความ(text output file)จากนั้นระบบจะเริ่มแตกไฟล์ คุณยังสามารถคลิกที่ ปุ่ม ตัวเลือก(Option)ซึ่งให้คุณเลือกเฉพาะบางหน้าที่จะแยกและประเภทการดึง(extraction type)ข้อมูล ตัวเลือกที่สองน่าสนใจเพราะมันจะแยกข้อความในเลย์เอาต์ที่แตกต่างกัน และมันคุ้มค่าที่จะลองทั้งสามแบบเพื่อดูว่าอันไหนให้ผลลัพธ์ที่ดีที่สุดแก่คุณ

PDF2Text Pilot

PDF2Text Pilot  ทำงานได้ดีในการแยกข้อความ ไม่มีตัวเลือกใดๆ คุณเพียงแค่เพิ่มไฟล์หรือโฟลเดอร์แปลงและหวังว่าจะ(convert and hope)ดีที่สุด มันทำงานได้ดีกับPDF(PDFs) บางไฟล์ แต่สำหรับส่วนใหญ่แล้ว มีปัญหามากมาย

pdf2text

เพียงคลิกเพิ่มไฟล์(Add Files)แล้วคลิกแปลง (Convert)เมื่อการแปลงเสร็จสมบูรณ์ ให้คลิกที่เรียกดู(Browse)เพื่อเปิดไฟล์ ไมล์สะสมของคุณจะแตกต่างกันไปเมื่อใช้โปรแกรมนี้ ดังนั้นอย่าคาดหวังมาก

นอกจากนี้ ยังควรบอกด้วยว่า หากคุณอยู่ในองค์กรหรือสามารถซื้อAdobe Acrobatจากที่ทำงาน คุณก็จะได้ผลลัพธ์ที่ดีขึ้นมาก เห็นได้ชัดว่า Acrobat(Acrobat)ไม่ฟรี แต่มีตัวเลือกในการแปลงPDFเป็นWord , Excel และรูปแบบ(Excel and HTML format) HTML นอกจากนี้ยังทำหน้าที่รักษาโครงสร้างของเอกสารต้นฉบับและแปลงข้อความที่ซับซ้อนได้ดีที่สุด



About the author

ฉันเป็น windows, ios, pdf, ข้อผิดพลาด, วิศวกรแกดเจ็ตที่มีประสบการณ์มากกว่า 10 ปี ฉันได้ทำงานกับแอปพลิเคชันและเฟรมเวิร์กคุณภาพสูงของ Windows มากมาย เช่น OneDrive for Business, Office 365 และอื่นๆ งานล่าสุดของฉันได้รวมการพัฒนาโปรแกรมอ่าน pdf สำหรับแพลตฟอร์ม windows และการทำงานเพื่อทำให้ข้อความแสดงข้อผิดพลาดชัดเจนยิ่งขึ้นสำหรับผู้ใช้ นอกจากนี้ ฉันได้มีส่วนร่วมในการพัฒนาแพลตฟอร์ม ios มาสองสามปีแล้ว และคุ้นเคยกับทั้งคุณสมบัติและลักษณะเฉพาะของมันมาก



Related posts