Главная > Математика > Линейный регрессионный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

10.2.3. Метод ковариационного анализа

В случаях, когда пропущено более одного наблюдения, Yates (1933) предложил применять повторное использование формулы для одного пропущенного наблюдения, начиная этот процесс с предположительных значений для всех пропущенных наблюдений, кроме одного. Итерации производятся до тех пор, пока все остатки, соответствующие пропущенным наблюдениям, не станут пренебрежимо малыми. Однако такой метод не пригоден, например, для программ для универсальных ЭВМ, поскольку каждому плану соответствуют свои собственные формулы для и

Более общая итерационная процедура описана Hartley (1956). Если пропущено только одно наблюдение, то для него можно найти приемлемую оценку, трижды анализируя имеющиеся данные и придавая при этом пропущенному наблюдению три различных равноотстоящих значения (например, —1, 0, 1). Соответствующая оценка задается простой формулой, включающей лишь эти три выбранных значения и полученные при этом остаточные суммы квадратов. Если пропущено более одного наблюдения, то этот метод применяется итеративным образом.

Другая общая итерационная процедура, описанная Healey, Westmacott (1956), требует только использования подпрограммы для отыскания остатков в индивидуальных ячейках. Начиная с предположенных значений для пропущенных наблюдений (например, со средних по имеющимся данным значений ячейки, строки или столбца), мы производим анализ полной модели и затем вычитаем полученный остаток из каждого из предположенных значений пропущенных наблюдений. Полученные разности образуют новые оценки для пропущенных наблюдений, и мы продолжаем этот процесс до тех пор, пока все остатки для пропущенных наблюдений не станут пренебрежимо малыми. Хотя эта процедура является итерационной даже при одном пропущенном наблюдении, она весьма быстро сходится к решению, получаемому методом наименьших квадратов. Модификация этой процедуры [Реагсе (1965, § 7.3); Реагсе, Jeffers (1971); Ргеесе (1971)] увеличивает скорость сходимости, так что при пропуске только одного наблюдения требуется не более двух итераций. Эту модификацию можно применять и в случае перепутанных значений [Ргеесе, Gower (1974)]. Другую итерационную процедуру для факторных планов, которая при единственном пропущенном наблюдении становится неитеративной, предложил Shearer (1973).

Не являющуюся итерационной процедуру обработки пропущенных наблюдений предложил Bartlett (1937b, с. 151). Имеющиеся данные дополняются произвольными значениями (например, нулями) для пропущенных наблюдений, и влияние выбора этих значений на анализ пополненной совокупности данных ликвидируется путем проведения ковариационного анализа над фиктивными сопутствующими переменными. При этом фиктивная переменная равна 1 в позиции, соответствующей пропущенному наблюдению, а во всех остальных случаях равна 0. Мы увидим ниже, что, когда все пропущенные наблюдения полагаются равными нулю, оценка наименьших квадратов для пропущенного наблюдения отличается лишь знаком от коэффициента регрессии фиктивной переменной. Этот метод описан в ряде работ (например, Tocher (1952), Wilkinson (1960) и Seber (1966)) и иллюстрируется примером 10.8. Неитерационная процедура обработки пропущенных наблюдений в перекрестных классификациях описана Haseman, Gaylor (1973).

Пример 10.8. Предположим, что в плане с рандомизированными блоками, описанном в примере 10.5, пропущено наблюдение Тогда мы предполагаем модель

где (произвольная постоянная) и Оценку наименьших квадратов у для у легко найти методом наименьших

квадратов, описанным в примере 10.1 (разд. 10.1.1). Таким образом,

где

и

Если то из (10.18) видно; что

Полученный результат следовало ожидать, поскольку двухшаговый метод наименьших квадратов в применении к (10.21) сводится просто к замене на т. е. к замене на —у и минимизации остаточной суммы квадратов относительно у. Это равносильно методу Иэйтса минимизации относительно Попутно отметим, что с (10.4)]

Продемонстрировав суть метода ковариационного анализа на простом примере, приведем теперь общую теорию и процедуру вычислений для случая пропущенных наблюдений. Рассмотрим модель ковариационного анализа

где

Если матрица X имеет полный ранг и то оценка наименьших квадратов для у является решением (ср. с (3.22) в § 3,7) уравнения

т. е. уравнения

Из уравнения (10.16) замечаем, что этого опять-таки следовало ожидать ввиду эквивалентности двухшагового метода наименьших квадратов и метода Иэйтса. Метод ковариационного анализа используется при пропущенных наблюдениях, по-видимому, не очень широко, поскольку на первый взгляд он требует компьютерной программы для общего ковариационного анализа с сопутствующими переменными. Однако Rubin (1972) указал, что в действительности это не так. Все, что здесь требуется, — это программа для отыскания остатков и подпрограмма для обращения матрицы размера Чтобы убедиться в этом, заметим прежде всего, что является вектором остатков, который получился бы, если бы мы использовали в качестве вектора наблюдений Поскольку элементов вектора равны единице, а остальные его элементы равны нулю, то

является элементом вектора т. е. остатком, соответствующим пропущенному наблюдению, когда все наблюдения, включая и пропущенные, полагаются равными нулю, за исключением пропущенного наблюдения, которому приписывается значение 1. Аналогично

можно рассматривать как остаток, соответствующий пропущенному наблюдению, когда все пропущенные наблюдения (но не элементы вектора полагаются равными нулю. Таким образом, из уравнения (10.22) находим

или в обозначениях Рубина (с векторами-столбцами вместо векторов-строк) Если матрица вырождена, то нужно использовать обобщенную обратную [Wilkinson (1958а)]. Из общей теории разд. 10.2.1 вытекает, что таковой будет всякое решение уравнения (10.16), т.е. На практике вырожденность возникает, когда пропущены такие части плана, как блоки.

<< Предыдущий параграф Следующий параграф >>
Оглавление