Главная > Математика > Линейный регрессионный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

10.2. Пропущенные наблюдения

10.2.1. Теория оценивания

При реализации планов эксперимента иногда возникает такое положение, когда одно или большее число наблюдений оказывается пропущенным. Например, в ходе эксперимента какое-то растение может погибнуть, пробирка — разбиться, а пациент — отказаться от обследования. В таких случаях нарушается симметрия (сбалансированность) плана, и обычные вычисления дисперсионного анализа к оставшимся данным непосредственно не применимы. Один общий способ действий в подобной ситуации состоит в отыскании таких оценок пропущенных наблюдений, чтобы дисперсионный анализ полученного таким образом "полного" множества данных был равносилен анализу данных, действительно имеющихся в наличии. Матрица плана при работе с этим полным множеством данных определяется без труда, и при вычислениях можно уже полностью использовать симметрию плана.

Предположим, что в общей модели в которой матрица X имеет размер пропущено из наблюдений. Тогда, переобозначая, если требуется, переменные модель можно записать в виде

где только наблюдений из имеются в распоряжении, т. е.. получены. Пусть

и р — оценка наименьших квадратов для т.е. достигает минимума при где решение нормальных уравнений Тогда величина достигает минимума относительно пары если (т.е. Из равенства получаем полезное соотношение

Определенное выше называют оценкой наименьших квадратов для

Заметим, что приведенные соображения, представленные в различном виде многими авторами (см., например, Wilkinson (1958а, b, 1960) и "Letters to the Editor" в журнале. The American Statistican (1972 (4))), сохраняют силу независимо от того, имеет

матрица X полный ранг или нет. Более общие, "бескоординатные" соображения, допускающие другие представления для (например, вместо приводят Kruskal (1960) и Seber (1966, гл. 8).

Предположим теперь, что матрица размера имеет ранг Тогда

и это есть просто то значение, которое мы могли бы "предсказать" для основываясь на совокупности значений х, заданной матрицей В то же время можно получить и более удобную формулу, использующую полноту ранга матрицы X (которая также имеет ранг поскольку она содержит линейно независимых строк матрицы Для этой цели сложим уравнения Получим уравнение

Умножая обе его части на получаем

или

Соотношения (10.14) и показывают, что

так что для отыскания можно сначала минимизировать относительно а затем минимизировать остаточную сумму квадратов относительно пропущенных наблюдений Этот результат принадлежит Yates (1933). Польза уравнения (10.14) станет ясна из следующего примера.

Пример 10.5 (план с рандомизированными блоками). Пусть модель

представляет собой план с рандомизированными блоками. Предположим, что последнее наблюдение пропущено. Тогда из соотношений вытекает, что

где

Разрешая это уравнение относительно получаем

В соответствии с (10.17) остаточная сумма квадратов для имеющихся в наличии данных равна и заменяется на Заметим, что остаток (равный равен нулю.

Пример (классификация по одному признаку). Пусть

и предположим, что наблюдение пропущено. Тогда

и

т. е. равно среднему из оставшихся наблюдений, соответствующих

Приложение указанной техники к латинским квадратам и квадратам Юдена можно найти в работе Jaech (1966). Другие формулы оценивания единственного наблюдения приведены для большинства стандартных планов в книге Cochran, Сох (1957),

10.2.2. Проверка гипотез

Пусть задана общая модель где матрица X имеет размер и ранг Предположим, что мы хотим проверить (допускающую проверку) гипотезу где матрица А имеет размер и ранг Если бы пропущенных наблюдений не было, то -статистика для проверки гипотезы Я имела бы вид

Однако если пропущен вектор то в качестве его оценки можно взять где и получается минимизацией RSS относительно (или, что равносильно, решением уравнения как в приведенных выше примерах 10.5 и 10.6). Минимальное значение RSS, обозначаемое здесь символом является в точности остаточной суммой квадратов для исходной модели. С другой стороны, значение RSS суммы RSS при уже не является остаточной суммой квадратов при гипотезе Я, так что разность не будет соответствующей гипотезе суммой квадратов, используемой при проверке гипотезы Я. Нам нужна здесь такая оценка вектора которая была бы совместима с моделью Н. Решая уравнение относительно получим значение которое уже можно использовать для построения -статистики для проверки гипотезы Н:

Здесь степеней свободы оказываются "потерянными" в знаменателе -статистики из-за того, что приходится оценивать пропущенных наблюдений (предполагается, что матрица X размера имеет тот же ранг, что и матрица X, т.е. ).

Поскольку можно также получить минимизацией относительно мы должны иметь

причем вероятность равенства (т.е. равна здесь нулю. Поэтому, если мы используем статистику

и обращаемся с ней как со случайной величиной, имеющей -распределение с степенями свободы, то получаем слишком осторожный критерий, так как числитель оказывается чересчур большим [Yates (1933)].

Вместо вычисления обычно просто корректируют числитель статистики вычитая поправку

и используя следующую лемму. (Заметим, что значение надо вычислять, только если значимо.)

Лемма. Записывая имеем

(Этот результат доказал Wilkinson (1958b); более общее доказательство дал Seber (1966, стр. 70).)

Доказательство. Если то из (4.5) имеем

и

Пусть и матрица разбита следующим образом:

Из соотношения

вытекает, что Кроме того,

(последнее верно в силу (10.19)), так что

Пример 10.7. Предположим, что мы хотим проверить гипотезу (для всех для плана с рандомизированными блоками из примера 10.5. Применяя технику, которую мы там использовали, к гипотезе получаем

так что

или

Применяя теперь доказанную лемму (уравнение (10.19)) к (10.20), имеем так что

и

Таким образом, -статистика для проверки гипотезы имеет вид

Другой, несколько более сложный способ отыскания значения в указанном примере предложил Kshirsagar (1971).

<< Предыдущий параграф Следующий параграф >>
Оглавление