Практическое руководство по импорту данных из Excel в Python

Иван Корнев·21.05.2024·⏱3 мин

Чтобы прочитать Excel-файл в Python, используйте функцию pd.read_excel() из библиотеки pandas. Базовый синтаксис выглядит так: df = pd.read_excel('путь_к_файлу.xlsx'). Эта команда автоматически загружает первый лист книги в объект DataFrame, готовый к анализу. Для работы обязательно потребуется установленный движок (например, openpyxl для современных файлов .xlsx).

Подготовка окружения и установка зависимостей

Функция read_excel не работает «из коробки» без дополнительных библиотек-движков. Выбор движка зависит от формата файла:

.xlsx, .xlsm, .xlsb: требуется библиотека openpyxl (рекомендуется) или odfpy.
.xls (устаревший формат): требуется xlrd (версии < 2.0).

Для установки необходимых пакетов выполните в терминале:

pip install pandas openpyxl

После установки импортируйте библиотеку в скрипт:

import pandas as pd

Всегда явно указывайте параметр engine='openpyxl', если работаете с современными форматами. Это избавит от ошибок автоопределения и ускорит загрузку.

Базовый синтаксис и выбор листов

По умолчанию функция считывает первый лист книги. Однако реальные данные часто разбросаны по разным вкладкам. Управление выбором листа осуществляется через параметр sheet_name.

Чтение конкретного листа

Вы можете обратиться к листу по имени (строка) или по индексу (число, где 0 — первый лист):

# Чтение по имени листа
df_sales = pd.read_excel("report.xlsx", sheet_name="Продажи")

# Чтение по индексу (второй лист)
df_stats = pd.read_excel("report.xlsx", sheet_name=1)

Чтение всех листов одновременно

Если нужно загрузить всю книгу целиком, передайте sheet_name=None. Результатом станет словарь, где ключи — имена листов, а значения — соответствующие DataFrame:

all_sheets = pd.read_excel("book.xlsx", sheet_name=None)

# Доступ к данным конкретного листа из словаря
df_january = all_sheets["Январь"]

Тонкая настройка импорта данных

Грязные данные в Excel — частая проблема. Параметры функции позволяют отсеять лишнее ещё на этапе чтения, экономя память и время.

Выбор конкретных столбцов

Используйте usecols, чтобы загрузить только нужные колонки. Это критически важно для тяжелых файлов.

# Загрузка только столбцов A, C и E
df = pd.read_excel("data.xlsx", usecols="A,C,E")

# Загрузка по именам заголовков
df = pd.read_excel("data.xlsx", usecols=["Дата", "Сумма", "Клиент"])

Работа с заголовками и пропусками

Если в файле нет шапки или она находится не в первой строке, настройте параметры header и names. Для обработки пустых ячеек используйте na_values.

df = pd.read_excel(
    "raw_data.xlsx",
    header=1,                # Заголовок находится во второй строке (индекс 1)
    names=["ID", "Val", "Note"], # Принудительные имена, если header=None
    na_values=["-", "н/д", "NULL"], # Считать эти значения как NaN
    skiprows=3               # Пропустить первые 3 строки (например, служебную информацию)
)

Не полагайтесь на автоматическое определение типов данных для финансовых отчетов. Даты могут считаться как строки, а числа с ведущими нулями (коды товаров) — как числа. Всегда проверяйте .dtypes после загрузки.

Оптимизация работы с большими файлами

Попытка загрузить гигантский Excel-файл целиком может привести к ошибке MemoryError. Используйте стратегию частичной загрузки.

Ограничение строк: Параметр nrows считывает только указанное количество строк. Полезно для тестирования логики на части данных.

    df_sample = pd.read_excel("big_data.xlsx", nrows=1000)
    ```
2.  **Итеративная обработка (Chunking)**: Хотя `read_excel` не поддерживает `chunksize` напрямую так же гибко, как `read_csv`, вы можете комбинировать `skiprows` и `nrows` в цикле или предварительно конвертировать файл в CSV для потоковой обработки.

Наиболее эффективный подход для огромных объемов — чтение только необходимых колонок (`usecols`) и фильтрация строк сразу при импорте, если это возможно через логику отбора.

## Типичные ошибки и способы их решения

<div class="table-container"><table style="border-collapse: collapse; width: 100%; margin: 16px 0;"><thead><tr><th style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; background: #f9fafb; font-weight: 600;">Проблема</th><th style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; background: #f9fafb; font-weight: 600;">Причина</th><th style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; background: #f9fafb; font-weight: 600;">Решение</th></tr></thead><tbody><tr><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;"><strong>ImportError: Missing optional dependency &#39;openpyxl&#39;</strong></td><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;">Не установлен движок для .xlsx</td><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;">Выполнить <code style="background-color: rgba(0,0,0,0.05); padding: 2px 4px; border-radius: 3px; font-family: monospace; font-size: 0.9em;">pip install openpyxl</code></td></tr><tr><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;"><strong>Неверные типы данных</strong></td><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;">Смешанный контент в столбце</td><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;">Использовать параметр <code style="background-color: rgba(0,0,0,0.05); padding: 2px 4px; border-radius: 3px; font-family: monospace; font-size: 0.9em;">dtype</code> или преобразовать после чтения (<code style="background-color: rgba(0,0,0,0.05); padding: 2px 4px; border-radius: 3px; font-family: monospace; font-size: 0.9em;">pd.to<em>numeric</code>, <code style="background-color: rgba(0,0,0,0.05); padding: 2px 4px; border-radius: 3px; font-family: monospace; font-size: 0.9em;">pd.to</em>datetime</code>)</td></tr><tr><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;"><strong>Ошибка кодировки или макросов</strong></td><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;">Формат .xlsm с макросами</td><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;"><code style="background-color: rgba(0,0,0,0.05); padding: 2px 4px; border-radius: 3px; font-family: monospace; font-size: 0.9em;">openpyxl</code> игнорирует макросы, но читает данные. Для сложных случаев конвертируйте в .xlsx заранее</td></tr><tr><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;"><strong>Блокировка файла</strong></td><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;">Файл открыт в другом процессе</td><td style="border: 1px solid #e5e7eb; padding: 8px; text-align: left; vertical-align: top;">Закройте файл в Excel перед запуском скрипта</td></tr></tbody></table></div>


## Часто задаваемые вопросы (FAQ)

**Как прочитать файл, защищенный паролем?**
Библиотека `pandas` не поддерживает чтение зашифрованных файлов напрямую. Необходимо сначала снять защиту в самом Excel или использовать сторонние утилиты для дешифровки перед импортом.

**Можно ли читать данные из закрытой книги Excel?**
Да, `pandas` считывает файл с диска, поэтому он не должен быть открыт в программе Excel. Если файл открыт пользователем, операционная система может заблокировать доступ на чтение, что вызовет ошибку `PermissionError`.

**Как сохранить результат обратно в Excel?**
Используйте метод `.to_excel()`. Пример: `df.to_excel("output.xlsx", index=False, engine="openpyxl")`. Параметр `index=False` важен, чтобы не сохранять нумерацию строк pandas в отдельный столбец.

**Что делать, если даты читаются как строки?**
Примените конвертацию после загрузки: `df['Дата'] = pd.to_datetime(df['Дата'], format='%d.%m.%Y', errors='coerce')`. Параметр `errors='coerce'` превратит некорректные даты в `NaT`, а не вызовет ошибку выполнения.