Главная > Математика > Линейный регрессионный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 10. КОВАРИАЦИОННЫЙ АНАЛИЗ И ПРОПУЩЕННЫЕ НАБЛЮДЕНИЯ

10.1. Ковариационный анализ

10.1.1 Оценивание методом наименьших квадратов

В экспериментальных ситуациях некоторые "факторы" могут быть количественными, а другие — качественными. Предположим, например, что мы исследуем влияние температуры и концентрации с некоторого реактива на выход процесса и подбираем модель регрессии

Температура и концентрация представлены здесь количественно, и наша модель имеет вид , где - матрица данных размера . В то же время в планах экспериментов мы часто имеем факторы, являющиеся чисто качественными. К таким факторам относятся, например, географическое положение, тип удобрения, сорт зерна, способ обработки, тип лекарства и др. Мы, скажем, можем пожелать сравнить действие на людей трех различных лекарств, измеряя некоторую реакцию Если обозначает реакцию пациента, принявшего лекарство -го типа, то можно произвести однофакторный анализ (один фактор на трех уровнях), используя модель или Качественный характер фактора проявляется здесь в том, что элементы матрицы плана могут быть равны только единице или нулю (уравнение Конечно, количественные факторы, подобные температуре и концентрации, можно трактовать и как качественные. Так, в приведенной однофакторной модели можно говорить, скажем, о трех различных температурах или группах температур.

Вообще говоря, мы используем термин дисперсионный анализ, когда все факторы трактуются как качественные, и говорим о регрессионном анализе, если все факторы трактуются как количественные. Если же мы имеем смешанную модель, скажем в котороц одни факторы являются количественными, а другие — качественными, то мы используем термин «ковариационный ацализ» [Scheffe (1959)]. Например, мы можем

обнаружить, что действие некоторого лекарства зависит от возраста пациента, так что одной из возможных моделей может быть модель

где возраст пациента, принимающего лекарство и типа. Эту модель можно представить в виде

где

Если взаимодействие между возрастом больного и типом лекарства отсутствует, т. е. влияние возраста оказывается одинаковым для каждого из типов лекарств, то модель можно привести к более простому виду:

или

Действие лекарства может зависеть, кроме возраста, и от веса пациента, также не взаимодействующего с типом лекарства. При этом подходящей может быть модель

где вес пациента, принимающего лекарство. Если лекарства изменяют вес пациентов, то можно трактовать как рачальщлй вес. Входящие в модель (10.1) три величины — возраст,

(возраст) и вес — обычно называют сопутствующими переменными. Они часто бывают случайными величинами и не управляются экспериментатором. Это означает, что методы, рассмотренные в настоящей главе, относятся непосредственно к условным моделям. Например, левая часть (10.1) должна иметь вид а предположения об обычной составляющей характеризующей ошибку, будут условными относительно наблюдающихся значений

Если в упомянутом выше эксперименте возраст и вес, по всей вероятности, существенно влияют на действие лекарства и нас особенно интересует как раз это влияние, то более подходящим может оказаться трехфакторный план с тремя факторами, трактуемыми как качественные: лекарство, возраст и вес. Поскольку модели ковариационного анализа обычно не имеют тех свойств устойчивости, которыми обладают модели дисперсионного анализа (разд. 10.1.3), то их следует использовать с осторожностью. Некоторые полезные замечания по поводу выбора подходящих моделей имеются в работах Cochran (1957, 1969).

Рассмотрим общую модель ковариационного анализа

где -матрица размера -матрица размера и столбцы матрицы не зависят линейно от столбцов матрицы Хотя эту модель можно исследовать и как одну большую модель регрессии, тем не менее общий метод состоит здесь в том, чтобы использовать наши знания о модели дисперсионного анализа и использовать двухшаговый метод наименьших квадратов, описанный в разд. 3.7.3. Этот метод применим даже тогда, когда матрица X имеет неполный ранг или когда имеются ограничения на вектор (разд. 3.8.3). Прежде чем привести два примера, мы хотим выделить предположение об отсутствии влияния на "способов обработки" в Например, как было указано выше, если некоторое лекарство вызывает изменение веса, то о следует говорить как об исходном весе, на который данное лекарство, конеччо, не влияет.

Пример 10.1 (план с рандомизированными блоками). Рассмотрим модель

где Такой моделью может описываться, например, сельскохозяйственный эксперимент, проводимый на песчаной почве, в котором способов обработки могут соответствовать различным удобрениям, блоков — различным полоскам земли, а гц может быть мерой содержания песка на участке.

Даже хотя модель дисперсионного анализа и не имеет полного ранга, с помощью двухшаговой процедуры наименьших квадратов все же можно найти оценки наименьших квадратов неизвестных параметров и остаточную сумму квадратов для Шаги этой процедуры состоят в следующем (ср. с разд. 3.7.3).

(1) Находим оценки наименьших квадратов и остаточную сумму квадратов

для модели

(2) Заменяем на в RSS и минимизируем полученное выражение относительно у. После замены имеем

где

и т. п. Уравнение дает

откуда и получаем оценку наименьших квадратов для у в модели

(3) Остаточная сумма квадратов для модели равна

или

(4) Заменяя на и т. д., получаем

(5) Коэффициент при в (10.3) равен так что

Последний результат можно получить и непосредственно (ср. с упр. 1 в конце главы).

Пример 10.2 (классификация по одному признаку). Для анализа модели

мы применим двухшаговый метод наименьших квадратов к модели Для последней модели и причем эта процедура, как оказывается, совпадает с процедурой, приведенной в примере 10.1, с той лишь разницей, что

10.1.2. Проверка гипотез

Теперь мы на нескольких примерах продемонстрируем основные идеи проверки гипотез в моделях ковариационного анализа.

Пример (проверка гипотезы о параллельности линий регрессии). Пусть модель

в которой случайные величины независимы и имеют одно и то же распределение описывает линий регрессии с У наблюдениями на каждую линию, и пусть мы хотим проверить гипотезу Для модели остаточная сумма квадратов равна Заменяя в этом выражении на получаем

где

и т. д. Уравнение приводит к оценке

При этом

Число степеней свободы, соответствующее равно поскольку матрица лежащая в основе модели является, очевидно, матрицей размера ранга

Если гипотеза Я верна, то модель редуцируется к модели, рассмотренной в примере 10.2, так что из соотношения (10.5) имеем

Поскольку гипотеза имеет вид

или где А — матрица размера ранга -статистика для проверки гипотезы имеет вид

Несмотря на различия в обозначениях, этот результат совпадает с результатом, приведенным в разд. 7.5.2.

Пример (план с рандомизированными блоками). Сейчас мы рассмотрим проверку двух различных гипотез для модели с рандомизированными блоками из примера 10.1. (i) Проверка гипотезы Из примера 10.1 (выражение (10.5)) имеем

степенями свободы (поскольку мы добавили еще один параметр у к обычной модели; разд. 9.4.1). Если то возвращаемся к обычной модели без сопутствующих переменных, так что Те же рассуждения, что и в примере 10.3, показывают, что гипотезе соответствует одна степень свободы, так что -статистика для проверки этой гипотезы имеет вид

Если это отношение оказывается значимым, т. е. сопутствующей переменной пренебрегать нельзя, то может возникнуть желание построить для доверительный интервал. Применяя к модели (10.2) общую теорию регрессии, находим, что и 6 не зависит от (равной ). Поскольку в рассмотренном примере

то (будучи элементом вектора и

имеет -распределение с степенями свободы,

(ii) Проверка гипотезы для всех

Для отыскания где

опять применим двухшаговый метод наименьших квадратов к модели Мы отправляемся от суммы

производим замену на и получаем выражение

где

и т. д. Из уравнения получаем

Окончательно -статистика для проверки гипотезы Н имеет вид

Число степеней свободы для числителя можно получить из соображений, аналогичных приведенным в разд. 9.2.2.

Если отношение оказывается значимым, то можно проверить все сравнения параметров используя метод множественного сравнения Шеффе (разд. 9.2.4). При этом следует применить оценку (ср. с (10.6))

Действительно, из того, что для всех

вытекает (см. также (3.34))

и

Поэтому совокупность совместных доверительных интервалов дается соотношением

Требующиеся в ковариационном анализе суммы квадратов и попарных произведений обычно размещают в виде таблицы, подобной табл. 10.1. Здесь

и

Таблица 10.1. (см. скан) Суммы квадратов и смешанных произведений для ковариационного анализа плана с рандомизированными блоками

Отметим также, что определенная выше сумма дается формулой

Правила, аналогичные тем, которые использовались для разложения сумм квадратов, можно легко получить и для разложения сумм попарных произведений. Например,

и

10.1.3. Основные предположения

Общие замечания гл. 6 применимы и к моделям ковариационного анализа, поскольку они являются частными случаями модели регрессии. Например, в свете разд. 6.3.1 можно ожидать, что в моделях со сбалансированными планами (которые в отсутствие сопутствующих переменных устойчивы к отклонениям от нормальности) именно степень "ненормальности" сопутствующих переменных определяет чувствительность произвольного -критерия к ненормальности наблюдений Этот факт иллюстрирует, например, Atiqullah (1964), который исследует влияние ненормальности на -статистику для проверки гипотезы в следующем однофакторном плане с сопутствующими переменными:

где Используя метод разд. 6.3.2, он находит приближенные выражения для среднего и дисперсии статистики Эти выражения выписаны подробно для частного случая

Atiqullah (1964), кроме того, выяснял также, что будет со статистикой для указанной модели, когда случайные величины независимы и нормально распределены с одной и той же дисперсией но действительная модель имеет вид

или

Он показал, что в случае при больших влияние переменной по-видимому, не слишком существенно, если

где

В то же время влияние квадратичной составляющей в (10.11). уже значительно более существенно, хотя оно и ослабляется при

Адекватность каждой конкретной модели можно проверить, используя общие методы графиков остатков, указанные в § 6.6. В то же время имеются и другие графики, позволяющие проверять предположения, относящиеся к сопутствующим переменным. Например, в модели (10.9) предположение о том, что регрессия на линейная и не зависит от "способов обработки" (т. е. от можно проверить, вычерчивая для каждого график зависимости от Если все эти графики линейны и имеют почти одинаковый наклон, то такое предположение разумно. Можно применить также критерий для проверки равенства углов наклона (разд. 10.1.2, пример 10.3). Однако указанный метод не применим, если что как раз и свойственно планам эксперимента без повторений, таким, как планы с рандомизированными блоками и латинские квадраты. В этом случае Snee (1971) рекомендует для каждого способа обработки строить обычный график зависимости остатков от остатков (вычисляемых точно таким же образом) для проверки равенства наклонов. Комбинированный график зависимости К-остатков от -остатков дает возможность проверки линейности. Например, в плане с рандомизированными блоками упомянутые К-остатки -остатки равны соответственно. Этот метод иллюстрируется в работе Snee (1971) на примере греко-латинского квадрата.

В моделях ковариационного анализа более трудно определить значения сопутствующих переменных заранее, поскольку более важными обычно являются другие черты плана (например, сбалансированность плана, равные числа наблюдений на каждое среднее). Это означает, что сопутствующими переменными обычно служат случайные величины, так что любой анализ является условным относительно принимаемых ими значений. Если вдобавок сопутствующие переменные измерены с ошибкой, следует использовать метод DeGracie, Fuller (1972).

<< Предыдущий параграф Следующий параграф >>
Оглавление