Как конвертировать PDF в Excel (XLSX), не сломав таблицу

Сначала главное: таблица в PDF — это реальный текст или скан?
От ответа на этот вопрос зависит всё — а большинство инструкций его просто игнорируют. Откройте PDF и попробуйте выделить мышью значение в ячейке. Если курсор движется по тексту и выделяет его — перед вами текстовый PDF. Если курсор рисует синий прямоугольник поверх страницы, как при выделении картинки, — это PDF из сканированного изображения.
Текстовые PDF конвертируются хорошо: столбцы, количество строк и десятичные точки чаще всего остаются на месте. Сканы сначала надо пропустить через OCR (распознавание символов), и лишь потом можно извлекать таблицу. Качество OCR падает, если скан перекошен, низкого разрешения или напечатан выгоревшей лентой принтера. Ожидания стоит настроить заранее: чистый скан 300 dpi с простой двухколоночной таблицей выйдет почти идеально; кривая ксерокопия 40-колоночного финансового отчёта потребует ручной правки — каким бы инструментом вы ни пользовались.
Конвертация PDF в Excel через Filuni
Инструмент Filuni «PDF в Excel» работает с обоими типами файлов — и с текстовыми, и со сканами. Регистрация не нужна, ограничений на количество загрузок в сессии нет, водяных знаков на выходном файле тоже нет. Вот полный процесс:
- Открыть инструмент. Перейти на страницу «PDF в Excel». В центре экрана будет зона загрузки.
- Загрузить файл. Перетащить PDF в зону или нажать на неё и выбрать файл. Передача идёт по HTTPS, файл удаляется с сервера автоматически после обработки — ничего не сохраняется.
- Дождаться конвертации. Типичный пятистраничный PDF с двумя-тремя таблицами обрабатывается меньше чем за 10 секунд. Пятидесятистраничный скан с OCR может занять 30–60 секунд — зависит от разрешения.
- Скачать XLSX. Нажать кнопку скачивания и открыть файл в Excel, Google Sheets или LibreOffice Calc.
Вот и весь процесс. Никаких платных стен на каком-либо этапе нет.
Как не дать строкам и столбцам «развалиться»
Даже из чистого текстового PDF таблица может выйти неаккуратной — если в оригинале были объединённые ячейки, многострочные заголовки или сноски внутри таблицы. После открытия XLSX стоит сразу проверить несколько вещей:
- Объединённые ячейки в шапке. Конвертеры нередко разбивают единый заголовок на отдельные ячейки или, наоборот, объединяют столбцы, которые должны быть независимы. Первым делом смотреть на строки 1 и 2.
- Числа, сохранённые как текст. Если Excel показывает зелёный треугольник в углу ячейки с цифрами, значит значение пришло как текстовая строка. Нужно выделить нужный столбец и использовать Данные → Текст по столбцам с фиксированной шириной — или вставить значения через «умножение на 1». Главное сделать это до того, как использовать формулы SUM или AVERAGE.
- Символы валюты, приклеенные к числам. Значение вроде «$4 320,00» не просуммируется корректно. Для удаления символа по всему столбцу подходит «Найти и заменить» (Ctrl+H).
- Строки, разорванные между страницами. PDF иногда разрывает строку при переходе на следующую страницу. Стоит поискать подозрительно короткие строки (одна-две заполненные ячейки) — они обычно появляются примерно на каждом 50–60-м ряду данных, где были бы переносы страниц. Такие строки придётся объединить вручную.
Если таблица всё равно не поддаётся, попробуйте загрузить только нужные страницы, а не весь документ. Большинство конвертеров — включая Filuni — справляются с двухстраничным фрагментом лучше, чем с 200-страничным файлом, где таблица спрятана на странице 147.
Альтернативные варианты
Adobe Acrobat Pro лучше всего справляется со сложными PDF-файлами с несколькими таблицами, но стоит денег. Microsoft Word умеет открывать PDF и превращать его в редактируемый документ — удобно, когда нужно сначала перевести PDF в Word, а потом скопировать таблицы в Excel. Google Drive при открытии через Google Docs распознаёт текст в PDF, что иногда даёт лучший результат для сканов. Tabula — бесплатное настольное приложение, созданное специально для извлечения таблиц из текстовых PDF. Ни один из этих вариантов не сравнится с Filuni по простоте: без регистрации, без ограничений, без оплаты.
Вопросы и ответы
Почему все данные в конвертированном Excel оказались в одном столбце вместо нескольких?
Скорее всего, в PDF для выравнивания столбцов использовались пробелы, а не табуляция — конвертер воспринял всю строку как единую строку текста. В Excel нужно выделить столбец A, перейти в Данные → Текст по столбцам, выбрать Фиксированная ширина и расставить границы столбцов там, где реально заканчиваются данные. Занимает пару минут и решает 90% подобных случаев.
PDF — это скан счёта-фактуры. OCR правильно распознает таблицу?
Зависит от качества скана. Чистый, ровный скан 200 dpi и выше с простым счётом конвертируется хорошо. Если скан слегка повёрнут или оригинал был под копирку — несколько значений придётся поправить вручную. С критически важными финансовыми данными всегда лучше сверить две-три строки с оригиналом, прежде чем доверять всему результату.
Сколько страниц можно конвертировать за один раз?
Filuni не публикует жёсткого ограничения по страницам, и лимита на количество файлов за сессию тоже нет. Очень большие файлы — сотни страниц, особенно сканы — обработаются дольше. Если из 300-страничного отчёта нужны только три конкретные таблицы, лучше сначала обрезать PDF до нужных страниц: конвертация пройдёт быстрее и результат будет чище.
Безопасно ли загружать конфиденциальные данные в формате PDF?
Filuni удаляет загруженные файлы с сервера сразу после конвертации — они не хранятся, не индексируются и не передаются третьим лицам. Для особо чувствительных документов (судебные материалы, медицинские записи) надёжнее всего локальный настольный инструмент. Для обычных рабочих данных — отчётов о продажах, товарных таблиц — серверная обработка, которую использует Filuni, является стандартной практикой для онлайн-инструментов работы с файлами.
Попробуйте бесплатные инструменты Filuni
Всё из этой статьи — и ещё более 120 инструментов. Бесплатно, без регистрации, прямо в браузере.