
УДК 004.4'242+519.246.8
Разработка программного комплекса для статистического анализа реальных временных рядов
Осовцова Д.С., студент. Научный руководитель: Цеховая Т.В., доцент
Белорусский государственный университет, Беларусь
Разработан программный комплекс анализа временных рядов. Его основное отличие — полная автоматизация цикла от первичной диагностики исходных данных до декомпозиции с формированием итогового аналитического отчета. Работа комплекса показана на примере реальных данных концентрации CO₂.
В современных условиях повышения требований к точности и оперативности мониторинга природных ресурсов анализ временных рядов (например, концентрации парниковых газов, температуры, уровня вод, содержания загрязняющих веществ) становится критически важным. Эти данные могут обладать сложной временной структурой, включающей тренды, сезонность и аномалии. Поэтому адекватная интерпретация подобных рядов и выявление закономерностей требуют применения формальных статистических методов анализа временных рядов [1-3].
Для обработки исходных данных традиционно применяются специализированные пакеты, такие как SPSS, STATISTICA, или библиотеки R. Однако их эффективное использование требует от специалиста глубоких знаний в статистике для корректного выбора процедур и тестов в обширном интерфейсе либо навыков программирования для написания скриптов. Главным ограничением является отсутствие в этих инструментах готовой автоматизации для полного цикла первичного анализа — этапа, фундаментального для понимания природы данных и выбора корректных методов дальнейшего моделирования.
Таким образом, существует запрос на программный комплекс, способный автоматически выполнять всесторонний первичный анализ, который обеспечивал бы методологическую строгость, основанную на корректной реализации статистических процедур, но при этом обладал свойством интуитивно понятного интерфейса, не требующего от пользователя специальной подготовки: полная автоматизация рутинных операций, воспроизводимость результатов и возможность бесшовной интеграции в процессы обработки данных мониторинга.
Описание разработанного программного комплекса
Для решения указанных задач был создан программный комплекс на языке Python. Его ядром является алгоритм, который, получая на вход временной ряд, управляет последовательностью проверок и вычислений, автоматизируя весь путь от первичного описания данных до их декомпозиции на структурные компоненты.
Этапы работы алгоритма следующие:
1. Первичный анализ
На данном этапе осуществляется построение графика исходного временного ряда, автоматический расчет описательных статистик, построение гистограммы и проверка нормальности распределения с помощью тестов Shapiro-Wilk, D'Agostino, Anderson-Darling, Jarque-Bera, а также анализ на наличие выбросов методами IQR и Z-score [1].
2. Анализ стационарности и структуры
Второй этап направлен на исследование гипотезы о стационарности ряда с помощью взаимодополняющих тестов Дики-Фуллера (ADF) и Квятковского-Филлипса-Шмидта-Шина (KPSS). При обнаружении нестационарности запускается модуль структурного анализа для выявления тренда и сезонности, включая автоматическое определение периода сезонности через анализ автокорреляционной функции (ACF). [3]
3. Декомпозиция
На данном этапе производится разделение ряда на составляющие. Алгоритм оценивает динамику амплитуды сезонных колебаний и выбирает тип модели — аддитивную A = T + S + E, где исходный ряд равен сумме трендовой, сезонной и остаточной компонент соответственно, или мультипликативную A = T × S × E, где он равен их произведению. Далее для количественного выделения компонент выполняется классическая декомпозиция методом скользящих средних. В случае четного периода сезонности для устранения смещения используется центрированное скользящее среднее. [п. 3.3, 1; 5]
4. Верификация и отчет
На заключительном этапе выполняется проверка адекватности построенной модели. Расчет метрик качества модели, включая MAD (Mean Absolute Deviation — среднее абсолютное отклонение), MSE (Mean Squared Error — средняя квадратическая ошибка) и коэффициент детерминации R². Проводится комплексный анализ остаточной компоненты и формируется итоговый отчет с таблицами, графиками и текстовыми интерпретациями.
Работа комплекса продемонстрирована на примере ряда данных ежемесячных концентраций CO₂ за период с 1959 по 2025 год. [4] (Рисунок 1). Этот ряд из 803-х наблюдений является классическим примером ярко выраженной нестационарности, обусловленной долгосрочным линейным трендом и устойчивой годовой сезонностью, что делает его идеальным объектом для демонстрации возможностей разработанного инструмента.
Представим ключевые графики и таблицы, наиболее наглядно демонстрирующие принцип работы комплекса и основные результаты анализа.

Рисунок 1 — График исходного ряда
На этапе первичного анализа сразу были выявлены ключевые свойства данных: распределение ряда характеризуется умеренной правосторонней асимметрией (коэффициент асимметрии 0.37)(Рисунок 2), отсутствием статистических выбросов (Рисунок 3), достоверным отклонением от нормального по всем применяемым критериям (Рисунок 4).

Рисунок 2 — Основные описательные статистики ряда

Рисунок 3 — Результаты количественного анализа временного ряда на наличие выбросов

Рисунок 4 — Гистограмма распределения и вывод тестов о нормальности распределения
На этапе проверки на стационарность ряд был идентифицирован как нестационарный (Рисунок 5), что выступило условием для запуска последующего алгоритмического блока. Данный блок, выполняя последовательность функций по анализу автокорреляции, рассчитал период сезонности, который составил 12 месяцев.

Рисунок 5 — Таблица с результатами тестов на стационарность
На этапе декомпозиции, на основании анализа динамики амплитуды сезонных колебаний, была рекомендована и применена аддитивная модель. Алгоритм успешно выделил все компоненты.
Тренд (T): Линейный тренд с высоким коэффициентом детерминации был описан уравнением: T = 305.3365 + 0.1392 * t, R² = 0.9792, что количественно отражает известный глобальный тренд роста концентрации CO₂.
Сезонная компонента (S): рассчитана и откорректирована, наглядно показав повторяющийся годичный цикл.
Остаток (E): Анализ остаточной компоненты показал, что её среднее значение близко к нулю, выполнены условия гомоскедастичности и некоррелированности составляющих, что характерно для «белого шума».
В завершении проводим процесс валидации модели. Здесь рассчитываются метрики качества, результаты агрегируются в структурированный аналитический отчет. На фрагменте (Рисунок 6) представлены ключевые графики, формируемые на этом этапе: десезонализация данных, выделение тренда, полное разложение ряда на компоненты и визуализация ряда ошибки.
Далее адекватность декомпозиции окончательно проверяется через полный статистический анализ остаточной компоненты теми же методами, что использовались для исходного ряда (п. 1-3).

Рисунок 6 — Визуализация результатов декомпозиции
Заключение
Разработанный программный комплекс представляет собой законченное решение для автоматизированного первичного анализа временных рядов. Иллюстрация работы на репрезентативном ряду концентрации CO₂ позволила подчеркнуть ключевые особенности предложенного инструмента. А именно, он выполняет детерминированную последовательность операций — от расчета описательных статистик и проверки гипотез на нормальность и стационарность распределения до идентификации структурных компонент и декомпозиции ряда. Такой подход гарантирует воспроизводимость результатов и исключает субъективные ошибки, характерные для ручного выбора процедур.
Важным свойством является реализация алгоритмической логики, которая на основе интерпретации результатов статистических тестов автономно определяет переход к последующим этапам анализа и выбирает адекватную модель. Это минимизирует необходимость экспертного вмешательства на этапе первичного разведочного анализа.
Итогом работы комплекса служит готовый к практическому применению структурированный аналитический отчет. Он объединяет количественные результаты, ключевые визуализации и содержательные выводы, что снижает когнитивную нагрузку на специалиста и облегчает интеграцию выводов в процессы принятия решений.
Таким образом, комплекс формализует и автоматизирует критически важный этап первичного анализа данных. Его архитектура обеспечивает стандартизацию и повышает обоснованность аналитической работы в различных предметных областях, включая мониторинг окружающей среды.
Библиографический список
-
Айвазян С.А. Прикладная статистика. Основы эконометрики / С.А. Айвазян, В.С. Мхитарян - М.: Изд. объедин. « Юнити-Дана», 2001. – 1088 с.
-
Труш Н.Н., Цеховая Т.В. Случайные процессы и их основные характеристики [Электронный ресурс] / Н. Н. Труш, Т. В. Цеховая/. – Минск : БГУ, 2016. – ISBN 978-985-566-315-8.
-
Цеховая Т.В., Труш Н.Н. Оценки характеристик второго порядка во временной области стационарных процессов / Т. В. Цеховая, Н. Н. Труш. – Минск : БГУ, 2020. – 75 с.
-
NOAA Earth System Research Laboratory. Global Monitoring Laboratory. Monthly mean carbon dioxide data, Mauna Loa Observatory, Hawaii [Электронный ресурс]. – Silver Spring, MD : NOAA, 2025. – Режим доступа: https://gml.noaa.gov/webdata/ccgg/trends/co2/co2_mm_mlo.csv.
-
Элдоус, М. Методы принятия решений / М. Элдоус, Р. Стэнсфилл ; пер. с англ.; под ред. И. И. Елисеевой. — М. : Аудит : ЮНИТИ, 1997. — 590 с.
|