Главная > Математика > Статистический анализ временных рядов
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

3.3.2. Свойства процедур сглаживания

Перейдем теперь к рассмотрению некоторых свойств указанных методов сглаживания. Одна из основных задач сглаживания состоит в том, чтобы уменьшить случайную ошибку, т. е. сделать дисперсию сглаженной последовательности малой по сравнению с дисперсией исходной последовательности.

Теорема 3.3.1. Дисперсия величины равна

где верхний левый угловой элемент матрицы обратной к матрице В коэффициентов уравнений (13), элементы которой суть

Доказательство. Если обозначить правые части уравнений (13) через то эти уравнения можно записать в виде

а их решения относительно в виде

Здесь Поскольку не содержат значения для то является коэффициентом при Общая теория метода наименьших квадратов утверждает, однако, что дисперсия равна

Таблица 3.4. (см. скан) ДИСПЕРСИИ СГЛАЖЕННЫХ ЗНАЧЕНИЙ

Если то дисперсия величины есть Для она равна

а для

В табл. 3.4 приведены дисперсии некоторых сглаженных значений.

Для фиксированного дисперсия уменьшается с ростом используемого числа точек. При фиксированном числе точек (т. е. при фиксированном дисперсия увеличивается с возрастанием Фактически

для фиксированного значения которое вдвое меньше разности числа точек и числа неявно подбираемых констант, дисперсия увеличивается с ростом

Отметим также, что разность наблюдаемого и сглаженного значений не коррелирована с , поскольку оценки коэффициентов регрессии не коррелированы с остатками. (См упр. 7 гл. 2.) Поэтому

Как было указано выше, последовательные сглаженные величины являются коррелированными. Например, корреляции с для случая равны соответственно

Мы изучим еще это явление после того как разовьем более мощный математический аппарат.

Если и используется сглаживающая формула с коэффициентами то систематическая ошибка сглаженной величины имеет вид

Если сглаживающая формула основывается на полиноме степени и тренд является полиномом той же (или меньшей) степени, то систематическая ошибка будет равна 0. В противном случае она отлична от нуля. Предположим, что или 1) и коэффициенты те же. Тогда систематическая ошибка выражается соотношением

т. е. разностью между и средним арифметическим соседних значений. Предположим, что записывается с помощью ортогональных полиномов степени, не превышающей (ортогональных на множестве ), в виде

Тогда использование сглаживающей формулы, основывающейся на полиноме степени или приводит к систематической

ошибке

поскольку выравнивающий полином состоит из элементов соотношения (32) степени до или включительно и для нечетных (См. упр. 30.)

В гл. 4 мы будем изучать случай, когда среднее значение является функцией т. е. косинусом с периодом Если при этом коэффициенты то ожидаемое значение сглаженной переменной запишется в виде

(См. упр. 31.) Таким образом, операция сглаживания здесь просто уменьшает амплитуду функции Если X мало (т. е. период велик), то и это уменьшение мало (упр. 32). При фиксированном X большим значениям (удовлетворяющим неравенству соответствует меньший коэффициент пропорциональности (упр. 33). Если (длина скользящего усреднения равна периоду), то сглаженное значение равно нулю.

Основная цель сглаживания состоит в оценивании тренда, или ожидаемого значения с наименьшей ошибкой. Ошибка складывается здесь из смещения (30) и случайной составляющей Первую составляющую можно измерить ее квадратом, а вторую — ее дисперсией При фиксированном смещение с увеличением в большинстве случаев возрастает, а дисперсия убывает. В то же время при фиксированном смещение с увеличением убывает, а дисперсия возрастает. Статистик, которому приходится использовать сглаживающую формулу, должен выбрать значения Он мог бы использовать в качестве меры ошибки среднеквадратичную ошибку, которая является суммой указанной дисперсии и среднего квадрата смещения. Если бы дисперсия случайных ошибок была известна и если бы были известны средние квадраты смещений для каждой комбинации то статистик смог бы выбрать комбинацию минимизирующую эту меру ошибки. Однако здесь трудно дать какую-либо рекомендацию, поскольку дисперсия и среднеквадратичное смещение ведут

себя в отношении противоположным образом. Если мало, то можно удовлетвориться относительно малым . Чем более гладкой является тем меньшим может быть выбрано при фиксированном тем большим выбрано при фиксированном . В действительности, конечно, эти характеристики не известны, а должны быть оценены по имеющимся данным. Поэтому выбор является статистической задачей со многими решениями, которую трудно даже сформулировать, не говоря уже о ее строгом статистическом решении. Поэтому практик должен действовать здесь исходя из своей интуиции и накопленного опыта.

Другой подход состоит в том, чтобы выяснить, каково наименьшее такое, что средний квадрат смещения близок или равен нулю, когда фиксировано или когда заданная функция переменной например Мы рассмотрим этот подход в следующем параграфе.

Преимуществом сглаживания для оценки тренда является его гибкость в том смысле, что предположения, при которых его можно использовать, не очень обременительны. Однако, поскольку этот метод не основывается на явной вероятностной модели, свойства его не вполне определены и статистические выводы ограничены. Например, тренд здесь не определяется малым числом параметров, для которых можно было бы указать доверительные области. Невозможно проверять гипотезы относительно тренда. Нельзя непосредственно связать функцию, оценивающую тренд, с теорией или с моделью образования наблюдаемого ряда. При сглаживании оценивающая тренд функция годится скорее для целей описания, нежели для целей анализа ряда и его интерпретации. Из-за того, что этот метод не базируется на явной вероятностной модели, он не может быть изложен полностью и строго в терминах математической статистики (по крайней мере кратко).

Имеется и серьезная практическая трудность в применении сглаживания. Для того чтобы получить величину оценивающую тренд в точке необходимо импользовать значения Поскольку эта процедура основывается на наблюдениях то первым сглаженным значением будет а последним Тем самым, мы не имеем оценок тренда в начале периода наблюдений и в его конце. Для оценки тренда в этих точках необходимо привлекать какие-то другие соображения.

Сглаживание само по себе, конечно, не дает средних прогнозирования. Экстраполяция оцененного тренда весьма ненадежна отчасти из-за того, что тренд не оценивается для последних моментов времени.

Мы основывали сглаживание на нечетном числе членов с симметричными весами. Если используется четное число членов с симметричными весами, то сглаженное значение интерпретируется как

оценка тренда в точке, лежащей посередине между двумя средними точками. Это может оказаться неудобным.

Скользящее усреднение с равными весами можно легко осуществить на клавишной вычислительной машине, поскольку сумма измеряется при каждом путем вычитания одного члена и добавления другого. Эти суммы запоминаются и затем каждая делится на (или умножается на Представляет значительный интерес аппроксимация процедуры сглаживания с неравными весами последовательностью процедур сглаживания, использующих равные веса. Конечно, при наличии быстродействующей вычислительной машины нет никакой нужды упрощать коэффициенты.

Сглаживание с использованием скользящего среднего имеет длинную историю, причем к нему пришли первоначально с точки зрения, отличной от статистической. [См. Уиттекер и Робинсон (1926). 1 Иногда бывает необходимо интерполировать между точками, в которых наблюдения производились. В интерполяционных формулах используются последовательные разности. Для того чтобы эти разности вели себя гладким образом, перед интерполированием можно применить формулы сглаживания. С этой точки зрения две сглаживающие процедуры эквивалентны с точностью до некоторого порядка, если разности этого порядка согласуются для каждой пары сглаженных рядов, полученных в результате применения этих двух процедур. (См. § 3.4.) Говорят, что процедура является точной до разностей некоторого порядка, если она не нарушает разностей этого порядка для полиномов. Одной из часто используемых процедур, точных до разностей третьего порядка, является -то-чечная формула Спенсера. Эта процедура выполняется таким образом. Сначала вычисляются величины

затем усредняются (с равными весами) 5 последовательных далее — 4 последовательных члена полученного ряда и, наконец, усредняются 4 последовательных члена последнего ряда. Другой процедурой, сохраняющей разности третьего порядка, является -точечная формула Спенсера, соответствующая вычислению величин

и поочередному усреднению 7, затем 5 и 5 членов получающихся рядов. Обе эти процедуры сравнительно легко реализуются,

<< Предыдущий параграф Следующий параграф >>
Оглавление