วิธีแยกตารางจากเอกสาร PDF

บทความนี้จะแสดงวิธีการแยกตารางจากเอกสาร(extract tables from PDF documents) PDF คุณอาจมีไฟล์ PDF(PDF) จำนวนมาก ที่มีหลายตารางที่คุณต้องการใช้แยกกัน การคัดลอก(Copying)และวางตารางเหล่านั้นไม่ใช่ตัวเลือกที่ดี เนื่องจากอาจไม่ให้ผลลัพธ์ที่คาดไว้ ดังนั้นคุณต้องมีตัวเลือกง่ายๆ อื่น ๆ ที่สามารถแยกตารางออกจากไฟล์ PDF(PDF)และบันทึกตารางเหล่านั้นเป็นไฟล์แยกต่างหาก

เครื่องมือแยกตาราง PDF(PDF table extractor tools)เหล่านี้ส่วนใหญ่ไม่สามารถช่วยได้หากสแกนตารางPDF แล้ว (PDF)ในกรณีเช่นนี้ คุณควรทำให้ PDF สามารถค้นหาได้(make the PDF searchable)  ก่อนแล้วจึงลองใช้ตัวเลือกเหล่านี้

แยกตารางจากเอกสาร PDF

ในโพสต์นี้ เราได้เพิ่มบริการออนไลน์ฟรี 2 รายการและซอฟต์แวร์ฟรี 3 รายการเพื่อแยกตารางจากไฟล์ PDF(PDF) :

  1. PDF เป็น XLS
  2. PDFtoExcel.com
  3. ตาราง
  4. ByteScout PDF Multitool
  5. Sejda PDF เดสก์ท็อป

1] PDF เป็น XLS

บริการ PDF เป็น XLS

PDFเป็นXLSเป็นหนึ่งในตัวเลือกที่ดีที่สุดสำหรับการแยกตารางออกจากPDF มีคุณสมบัติสองประการที่ทำให้สะดวก คุณสามารถดึงตารางจาก เอกสาร PDF 20(20 PDF)ฉบับพร้อมกัน นอกจากนี้ การ แยกตาราง PDFยังเป็นแบบอัตโนมัติ มันสร้างผลลัพธ์เป็นไฟล์XLSX หากPDFมีหลายตาราง แต่ละตารางจะถูกจัดเก็บแยกกันใน ชี ตไฟล์XLSX เอาต์พุตที่ต่างกัน(XLSX)

เปิดหน้าแรก(Open the homepage)ของบริการนี้ หลังจากนั้น ให้ลากและวางไฟล์ PDF(PDF)หรือใช้ปุ่มUPLOAD FILES PDF ที่ อัปโหลดแต่ละรายการจะถูกแปลงเป็นไฟล์รูปแบบ XLSX โดยอัตโนมัติ เมื่อไฟล์เอาท์พุตพร้อมแล้ว คุณสามารถดาวน์โหลดไฟล์ทีละไฟล์หรือดาวน์โหลด ไฟล์ ZIPที่จะมีไฟล์เอาท์พุตทั้งหมด

2] PDFtoExcel.com

แยกตารางจากเอกสาร PDF

บริการ PDFtoExcel.com(PDFtoExcel.com)สามารถดึงตารางจากPDF หนึ่งไฟล์ ในคราวเดียว แต่รองรับหลายแพลตฟอร์มเพื่ออัปโหลดPDF รองรับ แพลตฟอร์ม OneDrive , เดสก์ท็อป(desktop) , Google Drive(Google Drive)และDropboxเพื่ออัปโหลดPDF นอกจากนี้ กระบวนการแปลงยังเป็นแบบอัตโนมัติ

หน้าแรกของบริการนี้อยู่ที่นี่ (here)เลือกตัวเลือกการอัปโหลดเพื่อเพิ่มPDF หลังจากนั้น มันจะอัปโหลดและแปลงไฟล์ PDF(PDF)เป็นExcel ( XLSX ) โดยอัตโนมัติ เมื่อเอาต์พุตพร้อม คุณจะได้รับลิงก์ดาวน์โหลดเพื่อบันทึกไฟล์เอาต์พุตที่มีตารางPDF

หมายเหตุ:(Note: )แม้ว่าบริการนี้จะระบุว่าสามารถดึงตารางออกจากไฟล์ PDF(PDF) ที่สแกน ได้ แต่ก็ไม่ได้ผลสำหรับฉัน คุณยังสามารถลองใช้ PDF(PDF)ที่สแกนได้

3] ตาราง

ซอฟต์แวร์ตัวแยกตาราง PDF

Tabulaเป็นซอฟต์แวร์ที่ทรงพลังที่สามารถตรวจจับตารางที่มีอยู่ในPDF ได้โดยอัตโนมัติ จากนั้นให้คุณบันทึกตารางเหล่านั้นเป็นไฟล์TSV , JSONหรือCSV คุณสามารถเลือกตัวเลือกเพื่อบันทึกไฟล์ CSV(CSV) แยกกัน สำหรับ ตาราง PDF แต่ละ ตาราง หรือบันทึกตารางทั้งหมดในไฟล์ CSV(CSV)ไฟล์ เดียว

หากต้องการดาวน์โหลด ตัว แยกตาราง PDF แบบโอเพนซอร์ส(open-source)คลิกที่(click here)นี่ นอกจากนี้ยังต้องใช้ Java(requires Java)เพื่อเรียกใช้และใช้งานได้สำเร็จ

แตก ไฟล์ ZIPที่คุณดาวน์โหลด และเรียกใช้ไฟล์tabula.exe จะเปิดหน้าในเบราว์เซอร์เริ่มต้นของคุณ หากหน้าเว็บไม่เปิดขึ้น ให้เพิ่ม http://localhost:8080 ในเบราว์เซอร์แล้วกดEnter

ตอนนี้ คุณจะเห็นอินเทอร์เฟซซึ่งคุณสามารถใช้ตัว เลือก เรียกดู(Browse)เพื่อเพิ่มPDF หลังจากนั้นให้กดปุ่มนำเข้า (Import)เมื่อ เพิ่ม PDFแล้ว คุณจะเห็น หน้า PDFบนอินเทอร์เฟซ

ใช้ปุ่มAutodetect Tables และมันจะเน้นตารางทั้งหมดที่มีอยู่ใน (Autodetect Tables)PDF นั้น โดยอัตโนมัติ คุณยังสามารถเน้นตารางด้วยตนเองโดยเลือกตารางที่ต้องการ คุณยังสามารถลบตาราง(remove selected tables)ที่เลือกได้หากต้องการ

ซึ่งจะช่วยให้คุณบันทึกเฉพาะตารางที่คุณต้องการ เมื่อ ตาราง PDFถูกเน้น ให้คลิกที่ปุ่มแสดงตัวอย่างและส่งออกข้อมูล(Preview & Export Extracted Data) ที่แยกออก มา

สุดท้าย ใช้เมนูแบบเลื่อนลงที่ด้านบนเพื่อเลือกรูปแบบผลลัพธ์ แล้วกดปุ่มส่งออก (Export)การดำเนินการนี้จะบันทึก ตาราง PDFในไฟล์รูปแบบเอาต์พุตที่คุณเลือก

4] ByteScout PDF Multitool

ByteScout PDF Multitool- เพิ่ม pdf และตรวจจับตาราง

ตามชื่อที่แนะนำ ซอฟต์แวร์นี้มาพร้อมกับเครื่องมือหลายอย่าง มันมีเครื่องมือต่างๆ เช่นแปลง PDF เป็น TIFF หลายหน้า(convert PDF to multipage TIFF)หมุนเอกสาร PDF (rotate PDF document)ทำให้ PDF(make PDF unsearchable)ไม่สามารถ ค้นหา ได้เพิ่มประสิทธิภาพ PDF (optimize PDF)เพิ่มรูปภาพเป็น PDF(add an image to PDF)และอื่นๆ คุณสมบัติตัวตรวจจับตาราง PDF(PDF)ก็อยู่ที่นั่นด้วยซึ่งค่อนข้างยอดเยี่ยม ข้อดีของเครื่องมือนี้คือ คุณสามารถแยกตารางออกจาก PDF ที่สแกนได้(extract tables from scanned PDF)เช่นกัน คุณสามารถตรวจหาตารางในหลาย ๆ หน้า แล้วแยกตารางเหล่านั้นออกเป็น ไฟล์ รูปแบบCSV , XLS , XML , TXTหรือJSON ก่อนการแยกข้อมูล ยังให้คุณกำหนดช่วงของหน้าได้ อีกด้วย(page range)เพื่อแยกตารางจากหน้าที่ระบุเท่านั้น

คุณสามารถคว้าซอฟต์แวร์นี้ได้ที่นี่ (here)ฟรีสำหรับ การใช้งานที่ไม่ใช่เชิงพาณิชย์(free for non-commercial use)เท่านั้น หลังการติดตั้ง ให้เรียกใช้ซอฟต์แวร์นี้และใช้ตัว เลือก Open Documentเพื่อเพิ่มPDF หลังจากนั้น ให้คลิกที่ เครื่องมือ Detect tablesดังที่ไฮไลต์ในภาพด้านบน เครื่องมือนี้มีอยู่ในหมวดการแยกข้อมูล(Data Extraction)

มันจะเปิดกล่องที่คุณสามารถกำหนดเงื่อนไขในการตรวจจับตารางได้ ตัวอย่างเช่น คุณสามารถกำหนดจำนวนขั้นต่ำของคอลัมน์ แถว การขึ้นบรรทัดใหม่ระหว่างตาราง ตั้งค่าโหมดการตรวจหาตารางเป็นตารางแบบมีขอบหรือไม่มีขอบ ฯลฯ ใช้ตัวเลือกหรือคงการตั้งค่าเริ่มต้นไว้

หลังจากนั้นให้กดปุ่มDetect next tableในกล่องนั้น จะระบุและเลือกตารางในหน้าปัจจุบัน ด้วยวิธีนี้ คุณสามารถย้ายไปยังหน้าอื่นและตรวจหาตารางเพิ่มเติมได้

ตรวจจับตารางและบันทึกตาราง pdf ด้วยเอาต์พุตที่เลือก

เมื่อคุณทำเสร็จแล้ว ให้ใช้ ปุ่ม ดำเนินการเพื่อแยก(Proceed to extraction)และเลือกรูปแบบผลลัพธ์ สุดท้าย คุณสามารถใช้ตัวเลือกเพื่อบันทึกตารางจากหน้าปัจจุบัน หรือกำหนดช่วงของหน้า และบันทึกผลลัพธ์

เครื่องมือนี้ให้ผลลัพธ์ที่น่าพอใจ แต่บางครั้ง อาจตรวจพบเนื้อหาอื่นในPDFและอาจไม่สามารถแยกตารางจากหลายหน้าได้ ในกรณีนั้น คุณควรใช้เพื่อดึงและบันทึกตารางทีละรายการ

5] Sejda PDF Desktop

Sejda PDF Desktop พร้อม pdf เป็น excel converter

Sejda PDF Desktopยังเป็นซอฟต์แวร์อเนกประสงค์อีกด้วย มันสามารถเพิ่มประสิทธิภาพหรือบีบอัด PDF(compress PDF)เพิ่มลายน้ำลงใน PDF ลบข้อ จำกัด จาก PDF(remove restrictions from PDF)แก้ไข เอกสาร PDFฯลฯ อย่างไรก็ตามแผนฟรีมีข้อจำกัด ในแผนฟรี สามารถทำได้เพียง 3 งานต่อวัน นอกจากนี้ขีดจำกัดขนาดPDF คือ (PDF)50 MBหรือ10(10 pages)หน้า

คุณสามารถใช้เครื่องมือแปลงPDF เป็น Excel(PDF to Excel) เพื่อแยก ตารางPDF โดยจะตรวจจับตารางใน หน้า PDF โดยอัตโนมัติ และให้คุณบันทึกตารางเหล่า นั้นเป็น XLSX หรือCSV

ลิงค์ดาวน์โหลดอยู่ที่นี่ (here)หลังการติดตั้ง ให้ใช้ เครื่องมือ PDFเป็นExcelจากอินเทอร์เฟซหลัก หลังจากเลือกเครื่องมือนั้นแล้ว ให้ใช้ปุ่มเลือกไฟล์ PDF (Choose PDF files)สามารถเพิ่ม PDF(PDF) ได้ เพียงไฟล์เดียวในแผนฟรี

เมื่อ เพิ่ม PDFแล้ว จะมีปุ่มแปลง PDF เป็น CSV(Convert PDF to CSV)และแปลง PDF เป็น Excel (Convert PDF to Excel)ใช้ปุ่ม จากนั้นคุณสามารถบันทึกผลลัพธ์ไปยังตำแหน่งที่ต้องการบนพีซีของคุณ

แปลงตาราง pdf เป็น excel หรือ csv

เครื่องมือตรวจ จับ ตาราง PDFนั้นดี คุณไม่จำเป็นต้องตรวจหาตารางด้วยตนเอง อย่างไรก็ตาม บางครั้งอาจรวมเนื้อหาข้อความอื่นๆ เป็น ตาราง PDFและจัดเก็บไว้ในเอาต์พุต แต่ผลลัพธ์โดยรวมถือว่าดี

นั่นคือทั้งหมดที่

นี่เป็นเครื่องมือที่ดีในการดึงตารางออกจากPDF ซอฟต์แวร์ Tabula(Tabula)มีประสิทธิภาพมากกว่าเครื่องมืออื่นๆ อย่างไรก็ตาม คุณสามารถลองใช้เครื่องมือทั้งหมดและตรวจสอบว่าเครื่องมือใดช่วยได้

อ่านที่คล้ายกัน:(Similar reads:)



About the author

ฉันเป็น windows, ios, pdf, ข้อผิดพลาด, วิศวกรแกดเจ็ตที่มีประสบการณ์มากกว่า 10 ปี ฉันได้ทำงานกับแอปพลิเคชันและเฟรมเวิร์กคุณภาพสูงของ Windows มากมาย เช่น OneDrive for Business, Office 365 และอื่นๆ งานล่าสุดของฉันได้รวมการพัฒนาโปรแกรมอ่าน pdf สำหรับแพลตฟอร์ม windows และการทำงานเพื่อทำให้ข้อความแสดงข้อผิดพลาดชัดเจนยิ่งขึ้นสำหรับผู้ใช้ นอกจากนี้ ฉันได้มีส่วนร่วมในการพัฒนาแพลตฟอร์ม ios มาสองสามปีแล้ว และคุ้นเคยกับทั้งคุณสมบัติและลักษณะเฉพาะของมันมาก



Related posts