PDFの表をExcel(XLSX)に変換する方法——崩れないためのポイント

まず確認:PDFの表は選択できるテキストか、スキャン画像か
変換の品質を左右するのは、この一点につきます。多くの解説記事が触れないまま手順に入ってしまうのですが、ここを飛ばすと後で余計な手間がかかります。PDFを開いてセルの値をドラッグで選択してみてください。カーソルがテキストの上を滑ってハイライトできれば、それはテキスト型PDFです。写真を選ぶときのように青い矩形が全体にかかるなら、スキャン画像PDFです。
テキスト型なら変換結果はかなりきれいになります。列の区切りや行数、小数点もたいていそのまま残ります。スキャン画像の場合はOCR(光学文字認識)を通さないと表を取り出せません。スキャンが傾いていたり解像度が低かったりリボンの色が薄れた印刷物だったりすると、OCRの精度は落ちます。300 dpiの真っ直ぐな2列の表であればほぼ完璧に変換できますが、40列ある財務報告書を斜めにコピーしたものは、どのツールを使っても手作業での修正が必要になります。
FiluniでPDFをExcelに変換する手順
FilunuのPDF→Excel変換ツールはテキスト型・スキャン型の両方に対応しています。アカウント登録不要、セッション中のアップロード件数制限なし、出力ファイルへのウォーターマークもありません。手順は以下のとおりです。
- ツールを開きます。PDF→Excelページにアクセスすると、画面中央にドロップゾーンが表示されます。
- ファイルをアップロードします。PDFをドラッグ&ドロップするか、アップロードエリアをクリックしてファイルを選択します。ファイルはHTTPS経由で送信され、処理後にサーバーから自動的に削除されます。データが保存されることはありません。
- 変換を待ちます。2〜3の表を含む5ページ程度のPDFなら10秒以内に完了します。50ページのスキャン文書をOCRにかける場合は、解像度によって30〜60秒かかることがあります。
- XLSXをダウンロードします。ダウンロードボタンをクリックし、Excel・Google Sheets・LibreOffice Calcで開いてください。
手順はこれだけです。途中で課金画面が出てきたりはしません。
列や行が崩れないようにするには
きれいなテキスト型PDFでも、もとのレイアウトにセル結合や複数行のヘッダー、表の中に埋め込まれた脚注があると、スプレッドシートが乱れることがあります。XLSXを開いたらすぐに次の点を確認しましょう。
- 先頭行の結合セル。PDF変換ツールは、横に広がるヘッダーを別々のセルに分割したり、逆に独立しているはずの列をまとめてしまったりすることがあります。まず1行目と2行目を見てください。
- 数値がテキストとして入力されている。数値セルの左上に緑色の三角が表示されていたら、文字列として取り込まれています。該当列を選択して「データ」→「区切り位置」で固定幅に設定するか、「1を掛けてから形式を選択して貼り付け」などで数値に変換してください。SUMやAVERAGE式を使う前に必ず直しておきましょう。
- 数字に通貨記号が含まれている。「¥4,320」や「$4,320.00」はそのままでは合計できません。「ホーム」→「検索と置換」(Ctrl+H)で記号を一括削除します。
- ページをまたいで行が分断されている。PDFのページ区切りが行の途中に入ると、前後で行が分かれてしまいます。データの50〜60行ごとを目安に、中途半端に短い行(1〜2セルしか埋まっていない行)がないか探して、手動で結合してください。
これらを確認しても表が使い物にならない場合は、ファイル全体ではなく必要なページだけを切り出して再アップロードしてみてください。FilunuをはじめとするPDF変換ツールは、200ページのファイルの147ページ目に埋もれた表よりも、2ページの抜粋のほうがずっときれいに処理できます。
ほかのツールについて
Adobe Acrobat Proは複数の表が混在する複雑なPDFで最も高い精度を発揮しますが、有料です。Microsoft WordはいったんPDFをWordに変換して編集可能な文書として開けるので、その後Excelに表をコピーする流れでも使えます。Google DriveはPDFをGoogle Docsで開くとOCR処理されるため、スキャン画像の場合に選択肢になります。Tabulaはテキスト型PDFから表を抽出することに特化した無料のデスクトップアプリです。ただし、アカウントなし・コストなし・手間なしという条件ではFiluniが一番シンプルです。
よくある質問
変換後のExcelファイルで、すべてのデータが1列にまとめられてしまうのはなぜですか?
もとのPDFがタブ区切りではなくスペースで列を揃えていた場合に起こりやすい問題です。行全体が1つの文字列として取り込まれています。列Aを選択して「データ」→「区切り位置」を開き、「固定幅」を選んでデータの区切れ目に合わせて列の境界線を引いてください。2分もあれば対処でき、このケースの9割はこれで解決します。
スキャンした請求書のPDFです。OCRで表を正しく読み取れますか?
スキャンの品質次第です。真っ直ぐで200 dpi以上のクリアなスキャンであれば、シンプルな請求書はきれいに変換できます。少しでも傾いていたり、複写式の薄い紙だったりすると、数値の修正が数か所必要になることがあります。金融データのような重要な書類は、全体を信頼する前に2〜3行をもとのPDFと照合する習慣をつけておくと安心です。
一度に何ページまで変換できますか?
Filunuはページ数の上限を明示していませんし、セッション中のファイル数制限もありません。ページ数が多いファイル(特にスキャン)は時間がかかります。300ページのレポートから3つの表だけ必要なときは、先にそのページだけ切り出しておくと変換が速く、結果もきれいになります。
機密情報を含むPDFをアップロードしても大丈夫ですか?
Filunuは変換後にアップロードされたファイルをサーバーから削除します。保存・インデックス化・共有は行われません。法的書類や医療記録のように特に機密性の高い文書には、ローカルで動くデスクトップツールを使うのが最も安全です。売上レポートや在庫データといった一般的な業務データであれば、Filunuのようなオンラインツールのサーバーサイド処理は業界標準の手法です。
Filuni の無料ツールを試す
この記事の内容すべて — さらに120以上のツール。無料・登録不要、ブラウザですぐに。