Cách chuyển PDF sang Excel (XLSX) mà không làm vỡ bảng

Trước tiên: bảng trong PDF của bạn là văn bản thật hay ảnh scan?
Câu hỏi này quyết định kết quả sẽ sạch đến đâu — và hầu hết các hướng dẫn đều bỏ qua nó. Mở PDF lên, thử bôi đen một ô trong bảng. Nếu con trỏ di chuyển qua text và highlight được, bạn đang có PDF dạng văn bản. Nếu con trỏ kéo ra một hình chữ nhật xanh phủ cả trang như đang chọn ảnh, đó là PDF dạng ảnh scan.
PDF dạng văn bản chuyển đổi tốt — cột, số hàng, dấu thập phân thường giữ nguyên. PDF scan thì cần qua OCR (nhận dạng ký tự quang học) trước khi có thể trích xuất bảng, và độ chính xác của OCR giảm khi ảnh bị nghiêng, độ phân giải thấp, hoặc mực bản gốc đã nhạt. Hãy đặt kỳ vọng thực tế: một ảnh scan 300 dpi thẳng thớm của bảng hai cột đơn giản sẽ ra gần như hoàn hảo; bản photo nghiêng của báo cáo tài chính 40 cột thì dù dùng công cụ nào cũng cần sửa tay.
Chuyển PDF sang Excel bằng Filuni
Công cụ chuyển PDF sang Excel của Filuni xử lý được cả PDF văn bản lẫn PDF scan. Không cần tài khoản, không giới hạn số lần upload trong một phiên, file kết quả không có watermark. Đây là quy trình cụ thể:
- Mở công cụ. Vào trang PDF sang Excel. Bạn sẽ thấy vùng kéo thả ở giữa màn hình.
- Upload file. Kéo thả PDF vào, hoặc nhấn vào vùng upload để duyệt file. File được gửi qua HTTPS và tự động xóa khỏi máy chủ sau khi xử lý — không lưu lại gì cả.
- Chờ chuyển đổi. PDF 5 trang với hai ba bảng thường xong trong 10 giây. Tài liệu scan 50 trang có OCR có thể mất 30–60 giây tùy độ phân giải.
- Tải XLSX về. Nhấn nút tải xuống. Mở bằng Excel, Google Sheets, hoặc LibreOffice Calc.
Đó là toàn bộ quy trình, không có bước nào hiện ra màn hình yêu cầu trả tiền.
Cách giữ cho cột hàng không bị vỡ
Ngay cả PDF văn bản sạch cũng có thể tạo ra bảng tính lộn xộn nếu bố cục gốc có ô ghép, tiêu đề nhiều dòng, hoặc chú thích nằm lẫn trong bảng. Kiểm tra ngay mấy điểm này sau khi mở XLSX:
- Ô ghép ở đầu bảng. Công cụ chuyển đổi thường tách tiêu đề spanning thành nhiều ô riêng, hoặc ngược lại ghép các cột lẽ ra phải độc lập. Xem kỹ hàng 1 và 2 trước.
- Số bị lưu dưới dạng text. Nếu Excel hiển thị tam giác xanh ở góc ô số, ô đó đã vào dưới dạng chuỗi văn bản. Chọn cột bị lỗi, dùng Data > Text to Columns với fixed-width delimiter, hoặc paste-special thành giá trị sau thủ thuật nhân với 1. Cách nào cũng được, nhưng phải sửa trước khi chạy bất kỳ công thức SUM hay AVERAGE nào.
- Ký hiệu tiền tệ dính vào số. Giá trị như «$4,320.00» sẽ không cộng được. Dùng Find & Replace (Ctrl+H) để gỡ ký hiệu ra khỏi cả cột.
- Hàng bị cắt qua trang. PDF đôi khi ngắt trang giữa chừng một hàng. Tìm những hàng ngắn bất thường (chỉ một hai ô có dữ liệu) ở vị trí ngắt trang — thường cứ 50–60 hàng dữ liệu là một lần — rồi ghép tay.
Nếu bảng vẫn dùng không được sau các bước trên, thử upload riêng những trang chứa bảng thay vì cả file. Hầu hết công cụ chuyển đổi — kể cả Filuni — xử lý trích đoạn 2 trang tốt hơn nhiều so với file 200 trang mà bảng bạn cần nằm ở trang 147.
Các lựa chọn khác đáng biết
Adobe Acrobat Pro làm tốt nhất với PDF nhiều bảng phức tạp nhưng tốn phí. Microsoft Word có thể mở PDF và chuyển thành tài liệu chỉnh sửa được — hữu ích khi bạn cần chuyển PDF sang Word trước rồi mới copy bảng vào Excel. Google Drive sẽ OCR một file PDF nếu bạn mở bằng Google Docs, đôi khi cho kết quả tốt hơn với file scan. Tabula là ứng dụng desktop miễn phí chuyên trích xuất bảng từ PDF văn bản. Không cái nào trong số này bằng Filuni ở điểm không cần tài khoản, không cần trả tiền, dùng ngay.
Câu hỏi thường gặp
Tại sao file Excel sau khi chuyển lại dồn hết dữ liệu vào một cột thay vì nhiều cột riêng?
Thường là do PDF gốc dùng khoảng trắng thay vì tab để căn cột, nên công cụ xử lý cả hàng như một chuỗi. Trong Excel, chọn cột A, vào Data > Text to Columns, chọn Fixed Width, rồi kéo các đường ngắt cột vào đúng chỗ dữ liệu thật sự phân cách. Mất khoảng hai phút và giải quyết được 90% trường hợp này.
PDF của tôi là hóa đơn scan. OCR có nhận bảng đúng không?
Phụ thuộc vào chất lượng scan. Ảnh scan thẳng, sạch, từ 200 dpi trở lên của hóa đơn đơn giản thường chuyển tốt. Nếu ảnh bị nghiêng dù chỉ một chút, hoặc bản gốc là giấy than, hãy chuẩn bị sửa tay một vài giá trị. Với dữ liệu tài chính quan trọng, luôn đối chiếu hai ba hàng với bản gốc trước khi tin vào toàn bộ kết quả.
Có thể chuyển bao nhiêu trang cùng lúc?
Filuni không công bố giới hạn trang cứng, và không có giới hạn số file trong một phiên. File rất lớn (hàng trăm trang, đặc biệt là scan) tự nhiên sẽ mất thêm thời gian. Nếu bạn có báo cáo 300 trang nhưng chỉ cần ba bảng cụ thể, hãy cắt PDF về đúng những trang đó trước — chuyển nhanh hơn và kết quả sạch hơn.
Upload tài liệu mật dưới dạng PDF có an toàn không?
Filuni xóa file đã upload ngay sau khi chuyển đổi — không lưu, không lập chỉ mục, không chia sẻ. Với tài liệu cực kỳ nhạy cảm như hồ sơ pháp lý hay bệnh án, lựa chọn an toàn nhất vẫn là dùng phần mềm cài trên máy. Còn với dữ liệu kinh doanh thông thường như báo cáo doanh số hay bảng tồn kho, cách xử lý phía máy chủ mà Filuni dùng là thực hành tiêu chuẩn của các công cụ file trực tuyến.
Dùng thử các công cụ miễn phí của Filuni
Mọi thứ trong bài viết này — cùng hơn 120 công cụ khác. Miễn phí, không cần đăng ký, ngay trên trình duyệt.