«Мусор на входе — мусор на выходе» — эта поговорка про данные верна на 100%. Если загрузить в аналитическую систему (или ИИ) грязный Excel файл, выводы будут неправильные или бесполезные.
Часто компании пытаются анализировать данные, которые никогда не были предназначены для анализа. В Excel лежат записи, заметки, формулы, ошибки. Аналитик часто проводит 60% времени на очистке данных, а не на анализе. Давайте научимся готовить данные правильно.
Диагностика текущего состояния
Перед тем как исправлять, нужно понять, что исправлять.
Откройте ваш Excel файл и проверьте:
| Вопрос | Признак проблемы | Действие |
|---|---|---|
| Структура понятна? | Несколько таблиц на одном листе, слиянные ячейки | Переструктурировать |
| Заголовки есть? | Первая строка пустая или содержит данные | Добавить/переместить заголовки |
| Данные одного типа? | В колонке смешаны числа и текст | Разделить на разные колонки |
| Пропуски? | Пустые ячейки, N/A, ошибки (#DIV/0!) | Заполнить или задокументировать |
| Форматирование единое? | Даты в разных форматах (01.02.2026 и 2026-02-01) | Привести к единому формату |
| Шум? | Комментарии, лишние пробелы, спецсимволы | Удалить |
Если у вас есть проблемы в этой таблице, файл нужно чистить.
Шаг 1: Резервная копия и структура
Никогда не редактируйте оригинальный файл. Сделайте копию:
- Исходный файл:
данные_оригинал.xlsx(сохраняется, не трогается) - Рабочий файл:
данные_чистые.xlsx(редактируется)
Структура файла должна быть логичной:
Лист 1: Данные (основная таблица)
Лист 2: Справочники (если нужны)
Лист 3: Примечания (что, когда, откуда)
Первый лист всегда содержит основные данные. Если у вас было несколько таблиц на одном листе (даже если разделены пустыми строками), переместите каждую на отдельный лист.
Шаг 2: Заголовки и названия колонок
Хорошие заголовки — половина успеха. Заголовок должен быть:
- Ясным — понятно, что в колонке
- Уникальным — нет дублей
- Кратким — не более 30 символов
- На одном языке — лучше русском, если данные русские
Плохие заголовки:
Данные(непонятно что)Col1,Column A(технический, бесполезный)Статус заказа / Order Status(смешанный язык)Дата создания и дата обновления(две концепции в одной колонке)
Хорошие заголовки:
Дата заказаСтатус заказаСумма, руб.Email клиентаДата обновления
Правило: один заголовок = одна концепция = одна колонка.
Шаг 3: Удаление пустых строк и столбцов
Пустые строки между данными — враг аналитики. Они путают аналитические инструменты.
Как найти и удалить:
- Выделите всю таблицу (Ctrl+A)
- Используйте “Правка → Удалить пусто строки” или сортируйте по какой-нибудь колонке
- Убедитесь, что начинается с заголовков в строке 1 и идут подряд без разрывов
Пустые столбцы удаляйте вручную (обычно их мало). Правой кнопкой на столбец → Удалить.
Шаг 4: Типы данных и единообразие
Очень часто в одной колонке оказывается мусор разного типа. Например, в колонке “Цена” лежат числа и текст:
Цена
100
150
200 (без налога)
250
N/A
Нужно привести всё к одному типу.
Даты
Проблема: Даты в разных форматах
01.02.2026
2026-02-01
1 февраля 2026
02/01/26
Решение:
- Выделите колонку с датами
- Формат → Ячейки → Дата → выберите единый формат (например,
ДД.ММ.ГГГГ) - Если дата как текст, используйте функцию
ДАТАЗНАЧ()для преобразования
Числа
Проблема: Числа как текст, с пробелами, спецсимволами
1 000
1,000
1000 руб.
~1000
Решение:
- Используйте Найти и заменить (Ctrl+H)
- Найдите спецсимволы: пробелы, буквы, запятые
- Замените на пусто или на правильный разделитель
Для колонки “Цена” пример:
- Найти:
руб\.?(пробел + “руб” + опционально точка), Заменить: (пусто) - Найти:
,(запятая), Заменить: (пусто) - Найти:
(пробел), Заменить: (пусто)
Затем выделите колонку, Формат → Ячейки → Число → Дробные разряды = 0.
Текст
Проблема: Лишние пробелы, разный регистр
Иван
Иван (пробел спереди)
Иван (пробел сзади)
ИВАН (заглавные буквы)
иван (строчные)
Решение:
- Создайте вспомогательную колонку
- Используйте формулы:
=TRIM(A2)— удалить пробелы спереди и сзади=UPPER(A2)— привести в ВЕРХНИЙ регистр=LOWER(A2)— привести в нижний регистр
- Скопируйте результат, вставьте как значения обратно в исходную колонку
- Удалите вспомогательную колонку
Шаг 5: Пропущенные значения
Пустые ячейки — это бомба замедленного действия. Разные системы анализа интерпретируют их по-разному.
Что делать:
-
Заполнить, если знаете значение
- Иногда пусто просто потому что забыли заполнить
- Найдите источник и заполните
-
Удалить строку, если данные неполные
- Если в строке критичных полей нет, удалите строку целиком
- Используйте фильтры для поиска пустых ячеек
-
Отметить специальным значением
- Если пусто — не может быть понятной причины, отметьте:
Нет данных,Unknown,N/A - Аналитик будет знать, что это не ошибка, а осознанный пропуск
- Если пусто — не может быть понятной причины, отметьте:
-
Задокументировать
- На листе “Примечания” напишите: “Колонка X имеет 5% пропусков потому что…”
Для анализа ИИ (как на https://ai-reports.ru) пропуски менее критичны, но для SQL запросов и стандартной аналитики они создают проблемы.
Шаг 6: Удаление дубликатов
Дубликаты искажают статистику.
Как найти:
- Выделите все данные (Ctrl+A)
- Данные → Удалить дубликаты
- Выберите колонки, по которым считать дубликатом (обычно ID или ключевые поля)
Пример: если в таблице “Клиенты” два одинаковых строкой, оставьте только одну.
Шаг 7: Проверка на ошибки и аномалии
Ошибки в формулах:
#DIV/0!— деление на ноль#N/A— значение не найдено#REF!— неправильная ссылка#VALUE!— неправильный тип данных
Замените эти значения на 0, N/A текстом или на последовательное значение (в зависимости от контекста).
Логические ошибки: Используйте фильтры для поиска:
- Возраст = -5 лет
- Цена = 0
- Сумма больше лимита в 100 раз
Шаг 8: Форматирование для читаемости
Хорошо отформатированный файл легче читать и анализировать.
Заголовки:
- Выделите строку заголовков (строка 1)
- Применить стиль: полужирный, фон светло-серый, выравнивание по центру
Цифры:
- Числовые колонки: выравнивание по правому краю
- Денежные: форматирование валюты (рубли, доллары)
- Проценты: добавьте знак %
Даты:
- Единый формат для всего столбца
- Выравнивание по центру
Альтернативные строки:
- Для больших таблиц (>500 строк) применяйте чередующуюся заливку строк для лучшей читаемости
Шаг 9: Проверка на полноту
Перед тем как отправить файл на анализ, проверьте:
- Все строки данных подряд, без пропусков
- Все колонки имеют понятные заголовки
- Типы данных единообразны в каждой колонке
- Нет дубликатов или они задокументированы
- Нет формул с ошибками (#DIV/0!, #N/A и т.д.)
- Пропущенные значения задокументированы
- Файл не содержит ненужные листы (или они помечены)
- Размер файла разумный (не более 50 МБ для типовой аналитики)
Шаг 10: Экспорт и проверка
- Сохраните файл как
.xlsx(Excel 2007+) - Откройте в новом окне, проверьте, что всё выглядит правильно
- Если используете Google Sheets, экспортируйте как XLSX перед анализом
- Убедитесь, что файл не содержит скрытые строки/столбцы
Документация
Добавьте лист с описанием:
ЛИСТ "Описание"
Источник данных: CRM система, экспорт от 2026-02-25
Период: 01.01.2026 - 25.02.2026
Количество записей: 1250
Что включено: все заказы статус "завершён"
Что исключено: отмене заказы, тестовые данные
Особенности:
- Статус "на паузе" - это 15 заказов, приостановлены по запросу клиента
- Дата обновления может быть позже даты создания
- Сумма без учёта скидок (скидки в отдельной колонке)
Контакт: analyst@company.ru
Эта информация критична для правильного анализа.
Автоматизация подготовки
Если вы готовите данные регулярно, создайте макрос или используйте Python:
import pandas as pd
# Загрузить
df = pd.read_excel('данные.xlsx')
# Очистить
df.columns = df.columns.str.strip() # удалить пробелы в названиях
df = df.dropna(how='all') # удалить полностью пустые строки
df = df.drop_duplicates() # удалить дубликаты
df['дата'] = pd.to_datetime(df['дата']) # преобразовать даты
# Сохранить
df.to_excel('данные_чистые.xlsx', index=False)
Сохраните этот скрипт и используйте каждый раз, когда получаете новые данные.
Результат
После подготовки:
- Аналитик быстрее разбирается в данных
- ИИ (ChatGPT, Claude, или AI Reports) генерирует более точные выводы
- Статистика и расчёты становятся надёжными
- Снижается вероятность ошибок и неправильных интерпретаций
Хорошо подготовленные данные — это инвестиция, которая окупается на каждом анализе.
Заключение
Подготовка данных — это не скучная работа, это основание аналитики. Потратьте время на очистку один раз, и потом каждый анализ будет качественнее.
Если у вас нет времени на ручную подготовку, используйте готовые инструменты. Например, AI Reports поддерживает загрузку даже слегка грязных файлов и автоматически нормализует структуру, поэтому вы можете загрузить Excel и сразу получить аналитические выводы.