Как подготовить Excel файл для анализа — очистка данных, форматирование

«Мусор на входе — мусор на выходе» — эта поговорка про данные верна на 100%. Если загрузить в аналитическую систему (или ИИ) грязный Excel файл, выводы будут неправильные или бесполезные.

Часто компании пытаются анализировать данные, которые никогда не были предназначены для анализа. В Excel лежат записи, заметки, формулы, ошибки. Аналитик часто проводит 60% времени на очистке данных, а не на анализе. Давайте научимся готовить данные правильно.

Диагностика текущего состояния

Перед тем как исправлять, нужно понять, что исправлять.

Откройте ваш Excel файл и проверьте:

ВопросПризнак проблемыДействие
Структура понятна?Несколько таблиц на одном листе, слиянные ячейкиПереструктурировать
Заголовки есть?Первая строка пустая или содержит данныеДобавить/переместить заголовки
Данные одного типа?В колонке смешаны числа и текстРазделить на разные колонки
Пропуски?Пустые ячейки, N/A, ошибки (#DIV/0!)Заполнить или задокументировать
Форматирование единое?Даты в разных форматах (01.02.2026 и 2026-02-01)Привести к единому формату
Шум?Комментарии, лишние пробелы, спецсимволыУдалить

Если у вас есть проблемы в этой таблице, файл нужно чистить.

Шаг 1: Резервная копия и структура

Никогда не редактируйте оригинальный файл. Сделайте копию:

Структура файла должна быть логичной:

Лист 1: Данные (основная таблица)
Лист 2: Справочники (если нужны)
Лист 3: Примечания (что, когда, откуда)

Первый лист всегда содержит основные данные. Если у вас было несколько таблиц на одном листе (даже если разделены пустыми строками), переместите каждую на отдельный лист.

Шаг 2: Заголовки и названия колонок

Хорошие заголовки — половина успеха. Заголовок должен быть:

Плохие заголовки:

Хорошие заголовки:

Правило: один заголовок = одна концепция = одна колонка.

Шаг 3: Удаление пустых строк и столбцов

Пустые строки между данными — враг аналитики. Они путают аналитические инструменты.

Как найти и удалить:

  1. Выделите всю таблицу (Ctrl+A)
  2. Используйте “Правка → Удалить пусто строки” или сортируйте по какой-нибудь колонке
  3. Убедитесь, что начинается с заголовков в строке 1 и идут подряд без разрывов

Пустые столбцы удаляйте вручную (обычно их мало). Правой кнопкой на столбец → Удалить.

Шаг 4: Типы данных и единообразие

Очень часто в одной колонке оказывается мусор разного типа. Например, в колонке “Цена” лежат числа и текст:

Цена
100
150
200 (без налога)
250
N/A

Нужно привести всё к одному типу.

Даты

Проблема: Даты в разных форматах

01.02.2026
2026-02-01
1 февраля 2026
02/01/26

Решение:

  1. Выделите колонку с датами
  2. Формат → Ячейки → Дата → выберите единый формат (например, ДД.ММ.ГГГГ)
  3. Если дата как текст, используйте функцию ДАТАЗНАЧ() для преобразования

Числа

Проблема: Числа как текст, с пробелами, спецсимволами

1 000
1,000
1000 руб.
~1000

Решение:

  1. Используйте Найти и заменить (Ctrl+H)
  2. Найдите спецсимволы: пробелы, буквы, запятые
  3. Замените на пусто или на правильный разделитель

Для колонки “Цена” пример:

Затем выделите колонку, Формат → Ячейки → Число → Дробные разряды = 0.

Текст

Проблема: Лишние пробелы, разный регистр

Иван
 Иван (пробел спереди)
Иван  (пробел сзади)
ИВАН (заглавные буквы)
иван (строчные)

Решение:

  1. Создайте вспомогательную колонку
  2. Используйте формулы:
    • =TRIM(A2) — удалить пробелы спереди и сзади
    • =UPPER(A2) — привести в ВЕРХНИЙ регистр
    • =LOWER(A2) — привести в нижний регистр
  3. Скопируйте результат, вставьте как значения обратно в исходную колонку
  4. Удалите вспомогательную колонку

Шаг 5: Пропущенные значения

Пустые ячейки — это бомба замедленного действия. Разные системы анализа интерпретируют их по-разному.

Что делать:

  1. Заполнить, если знаете значение

    • Иногда пусто просто потому что забыли заполнить
    • Найдите источник и заполните
  2. Удалить строку, если данные неполные

    • Если в строке критичных полей нет, удалите строку целиком
    • Используйте фильтры для поиска пустых ячеек
  3. Отметить специальным значением

    • Если пусто — не может быть понятной причины, отметьте: Нет данных, Unknown, N/A
    • Аналитик будет знать, что это не ошибка, а осознанный пропуск
  4. Задокументировать

    • На листе “Примечания” напишите: “Колонка X имеет 5% пропусков потому что…”

Для анализа ИИ (как на https://ai-reports.ru) пропуски менее критичны, но для SQL запросов и стандартной аналитики они создают проблемы.

Шаг 6: Удаление дубликатов

Дубликаты искажают статистику.

Как найти:

  1. Выделите все данные (Ctrl+A)
  2. Данные → Удалить дубликаты
  3. Выберите колонки, по которым считать дубликатом (обычно ID или ключевые поля)

Пример: если в таблице “Клиенты” два одинаковых строкой, оставьте только одну.

Шаг 7: Проверка на ошибки и аномалии

Ошибки в формулах:

Замените эти значения на 0, N/A текстом или на последовательное значение (в зависимости от контекста).

Логические ошибки: Используйте фильтры для поиска:

Шаг 8: Форматирование для читаемости

Хорошо отформатированный файл легче читать и анализировать.

Заголовки:

Цифры:

Даты:

Альтернативные строки:

Шаг 9: Проверка на полноту

Перед тем как отправить файл на анализ, проверьте:

Шаг 10: Экспорт и проверка

  1. Сохраните файл как .xlsx (Excel 2007+)
  2. Откройте в новом окне, проверьте, что всё выглядит правильно
  3. Если используете Google Sheets, экспортируйте как XLSX перед анализом
  4. Убедитесь, что файл не содержит скрытые строки/столбцы

Документация

Добавьте лист с описанием:

ЛИСТ "Описание"

Источник данных: CRM система, экспорт от 2026-02-25
Период: 01.01.2026 - 25.02.2026
Количество записей: 1250
Что включено: все заказы статус "завершён"
Что исключено: отмене заказы, тестовые данные
Особенности:
  - Статус "на паузе" - это 15 заказов, приостановлены по запросу клиента
  - Дата обновления может быть позже даты создания
  - Сумма без учёта скидок (скидки в отдельной колонке)

Контакт: analyst@company.ru

Эта информация критична для правильного анализа.

Автоматизация подготовки

Если вы готовите данные регулярно, создайте макрос или используйте Python:

import pandas as pd

# Загрузить
df = pd.read_excel('данные.xlsx')

# Очистить
df.columns = df.columns.str.strip()  # удалить пробелы в названиях
df = df.dropna(how='all')  # удалить полностью пустые строки
df = df.drop_duplicates()  # удалить дубликаты
df['дата'] = pd.to_datetime(df['дата'])  # преобразовать даты

# Сохранить
df.to_excel('данные_чистые.xlsx', index=False)

Сохраните этот скрипт и используйте каждый раз, когда получаете новые данные.

Результат

После подготовки:

Хорошо подготовленные данные — это инвестиция, которая окупается на каждом анализе.

Заключение

Подготовка данных — это не скучная работа, это основание аналитики. Потратьте время на очистку один раз, и потом каждый анализ будет качественнее.

Если у вас нет времени на ручную подготовку, используйте готовые инструменты. Например, AI Reports поддерживает загрузку даже слегка грязных файлов и автоматически нормализует структуру, поэтому вы можете загрузить Excel и сразу получить аналитические выводы.

Готовы автоматизировать отчёты?
Загрузите Excel-файл и получите аналитический отчёт за 2 минуты. 1000 бесплатных тиков при регистрации.
Попробовать бесплатно