Перенос данных из PDF в Excel: от скана до идеальной таблицы
Чтобы перенести таблицу или текст из PDF в Excel, используйте встроенную функцию Power Query (для цифровых файлов) или онлайн-конвертеры с OCR (для сканов). Это позволяет сохранить структуру данных и избежать ручного перебивания. Ниже приведены проверенные алгоритмы действий для разных типов документов.
Способ 1: Встроенный инструмент Power Query (для цифровых PDF)
Это самый надежный метод, если ваш PDF создан программно (экспортирован из Word, Excel или 1С), а не является фотографией документа. Функция доступна в Excel 2016, 2019, 2021 и подписке Microsoft 365.
Алгоритм действий:
- Откройте чистый лист в Excel.
- Перейдите на вкладку Данные → Получить данные → Из файла → Из PDF.
- Выберите нужный файл на компьютере. Откроется окно «Навигатор».
- Слева вы увидите список объектов:
Table001,Table002и т.д. Кликните по ним, чтобы увидеть предпросмотр справа. - Выделите галочками нужные таблицы.
- Если нужно извлечь сплошной текст, выберите объект с иконкой документа (обычно называется
DocumentилиPage).
- Если нужно извлечь сплошной текст, выберите объект с иконкой документа (обычно называется
- Нажмите кнопку Трансформировать данные (не «Загрузить» сразу, чтобы проверить качество).
- В открывшемся редакторе Power Query удалите лишние заголовки или футеры, исправьте типы данных (например, превратите текстовые числа в числовой формат).
- Нажмите Закрыть и загрузить. Данные появятся на новом листе.
Если таблица разбита на несколько страниц и попала в разные блоки (Table001, Table002), в редакторе Power Query можно объединить их: выделите запросы → правая кнопка мыши → Добавить (Append).
Способ 2: OCR-распознавание для сканированных документов
Если ваш PDF — это отсканированная картинка или фото, обычный импорт не сработает (Excel увидит пустоту или одну большую картинку). Здесь необходимо оптическое распознавание символов (OCR).
Вариант А: Онлайн-сервисы (быстро и бесплатно)
Подходит для разовых задач и файлов объемом до 10–20 МБ. Популярные сервисы: Smallpdf, iLovePDF, PDF2Go.
- Зайдите на сайт сервиса (например, smallpdf.com/ru/pdf-v-excel).
- Перетащите файл в область загрузки.
- Обязательно выберите опцию «Распознать текст» (OCR) или «Конвертировать с распознаванием», если файл является сканом.
- Укажите язык документа (русский/английский) для повышения точности.
- Скачайте готовый
.xlsxфайл.
Не загружайте документы с конфиденциальными данными (паспорта, финансовые отчеты) на бесплатные публичные сервера. Для таких случаев используйте оффлайн-софт.
Вариант Б: Профессиональный софт (Adobe Acrobat Pro)
Если у вас есть подписка Adobe, качество распознавания будет максимальным.
- Откройте файл в Adobe Acrobat.
- Выберите Инструменты → Экспорт PDF.
- В формате экспорта укажите Электронная таблица → Книга Microsoft Excel.
- В настройках убедитесь, что включено распознавание текста для изображений.
- Нажмите Экспорт.
| Инструмент | Тип файла | Точность распознавания | Безопасность данных |
|---|---|---|---|
| Excel Power Query | Цифровой PDF | 100% (структура сохраняется) | Высокая (локально) |
| Smallpdf / iLovePDF | Скан / Цифровой | 90–95% (зависит от качества скана) | Средняя (загрузка в облако) |
| Adobe Acrobat Pro | Скан / Цифровой | 98–99% (лучшая работа с таблицами) | Высокая (локально/корпоративное облако) |
| Google Документы | Скан / Цифровой | 85–90% (часто ломает сложные сетки) | Средняя (аккаунт Google) |
Способ 3: Лайфхак через Google Документы
Универсальный бесплатный метод, если под рукой нет платного софта, а встроенный импорт в Excel выдает ошибку.
- Загрузите PDF-файл на свой Google Диск.
- Нажмите на файл правой кнопкой мыши → Открыть с помощью → Google Документы.
- Система автоматически проведет OCR. Текст и простые таблицы появятся в документе.
- Проверьте результат, исправьте явные ошибки распознавания.
- Перейдите в меню Файл → Скачать → Microsoft Excel (.xlsx).
Этот способ хорош для извлечения большого объема текста, но сложные таблицы с объединенными ячейками часто требуют ручной доработки уже в Excel.
Частые ошибки и способы их решения
- Таблица «развалилась» на множество столбцов.
- Причина: Лишние пробелы вместо разделителей табуляции.
- Решение: В Excel выделите столбец → вкладка Данные → Текст по столбцам → выберите разделитель «Пробел» или «Табуляция».
- Вместо букв «кракозябры» или иероглифы.
- Причина: Неверно выбран язык при OCR.
- Решение: Повторите конвертацию, явно указав русский язык в настройках распознавания.
- Файл слишком большой и конвертер зависает.
- Решение: Разбейте исходный PDF на части (по 10–20 страниц) через любой онлайн-сплиттер, обработайте по очереди, затем скопируйте данные в один файл Excel.
- Данные импортировались как одно изображение.
- Причина: Попытка открыть скан через стандартный импорт без OCR.
- Решение: Используйте только методы с поддержкой OCR (Способ 2 или 3).
FAQ
Можно ли распознать рукописный текст из PDF в таблицу? Стандартные инструменты (Power Query, обычные онлайн-конвертеры) плохо справляются с рукописным вводом. Для этого нужны специализированные нейросети (например, Abbyy FineReader с режимом рукописного ввода), но даже они дают низкую точность. Ручная проверка обязательна.
Сохранятся ли формулы из исходного Excel, если он был сохранен в PDF? Нет. При сохранении в PDF формулы превращаются в значения или текст. Распознавание восстановит только цифры и структуру ячеек, но не логику вычислений.
Какой способ лучше для макетов со сложной версткой? Для документов, где таблица является частью дизайна (рамки, фон, картинки внутри ячеек), лучше всего подходит Adobe Acrobat Pro илиABBYY FineReader. Бесплатные инструменты часто игнорируют визуальные границы ячеек.