Главная > Математика > Линейный регрессионный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 7. ЛИНЕЙНАЯ ОДНОМЕРНАЯ РЕГРЕССИЯ

7.1. Введение

Простейшей моделью регрессии является модель одномерной линейной регрессии

в которой ошибки предполагаются независимыми случайными величинами, каждая из которых имеет распределение Если и оегрессор X является случайной величиной, то можно изучать модель как условную относительно действительно наблюдавшихся значений регрессора, конечно, при условии, что сами не содержат какой-либо информации о параметре При этом модель, по существу, принимает вид

Если случайны и X, и У, то имеем также модель

и именно ее мы использовали бы для предсказания значений X по значениям Вопросы, связанные со случайностью регрессора, рассмотрены далее в § 7.7.

Хотя в качестве средства "сжатия" двумерных данных полезной может являться любая подобранная регрессия, все же было бы желательно, чтобы соответствующая связь была устойчивой и воспроизводимой [Сох (1968)]. Под устойчивостью мы здесь понимаем сохранение линейности "формы" при повторении эксперимента в различных условиях, выражающееся в том, что либо (1) уравнение регрессии остается без изменений, даже когда изменяются другие аспекты данных, либо (2) получаемые в различных условиях линии регрессии параллельны, либо (3) линии регрессии всегда получаются удовлетворительными, но их наклоны и расположение различны. В § 7.5 описаны критерии для проверки выполнения (1) и (2).

Часто регрессия на х бывает нелинейной, и мы тогда ищем такое преобразование для У, а возможно, и для х, чтобы "преобразованное удовлетворяло обычным предположениям, а

регрессия "преобразованного Y" на "преобразованном х" была линейной (ср. с. § 6.7). Предварительное графическое представление данных называемое диаграммой рассеяния, обычно приводит к некоторым соображениям относительно возможного типа модели, соответствующей этим данным. В этой связи полезен набор графиков теоретических кривых, имеющийся в книге Daniel, Wood (1971; с. 20—24). При выборе модели естественно принимать во внимание результаты теоретического анализа системы, включая анализ размерности, а также предельное поведение системы (например, при или при Целый ряд соответствующих примеров из биологии приведен в книге Seber (1973, с. 128, 141, 145, 150—151, 254, 260—266, 276 и далее, 297, 325 и далее). Следующий пример из работы Сох (1968) иллюстрирует ситуацию.

Предположим, что изучается связь между разрывающим усилием У и диаметром х нити, имеющим относительно небольшую вариацию. Тогда, поскольку большинство кривых будут приблизительно линейными в узком интервале изменения значений х, нас не должно удивлять, что линейная регрессия на х дает разумное согласие с данными (модель I). В то же время столь же хорошее согласие с данными может давать и линейная регрессия на (модель II). Какую из этих моделей следует выбрать? Ясно, что при -Кроме того, разумно предположить, что разрывающее усилие пропорционально площади сечения нити. Это означает, что здесь следует выбрать модель II. Действительно, (1) она допускает более простое сравнение с теоретической моделью (или ), (2) в ней заведомо при модели для выполнения этого условия мы должны подобрать прямую проходящую через начало координат, что является довольно сильным ограничением на модель), (3) угловой коэффициент линии регрессии в модели II является величиной безразмерной (следовательно, он будет одним и тем же независимо от того, в каких единицах измерены усилие и диаметр). При желании для проверки модели II при конкурирующей модели I можно применить критерий значимости, используя методы работ (1961, 1962). Можно также рассмотреть и более общую модель, включающую в себя в качестве частных случаев как модель I, так и модель И. Например, можно предполагать существование таких при которых регрессия

линейна и удовлетворяют обычным предположениям нормальной теории; при степенное преобразование переходит в логарифмическое (ср. с соотношением (6.55)). Тогда значения всех параметров, включая и можно оценить и проверить,

используя метод максимального правдоподобия [Box, Tidwell (1962), Box, Сох (1964)].

На практике подобная пара преобразований может и не существовать. Однако при выборе между линеаризацией регрессии и стабилизацией дисперсии обычно предпочитают первое. Например, в § 6.7 было показано, что переход к логарифмам в модели с аддитивной ошибкой приводит к линейной модели, в которой дисперсия ошибки зависит от В этом случае можно применить взвешенный метод наименьших квадратов (см. § 7.4). Однако, для того, чтобы оценки наименьших квадратов давали заметный выигрыш в точности, изменения дисперсии должны быть весьма значительными (Сох (1968)).

При поиске подходящего преобразования можно использовать различные типы масштабной бумаги. Например, если мы сравниваем различные логарифмические преобразования, скажем берем или и и то можно использовать специальным образом разграфленную бумагу с одной или двумя, логарифмическими шкалами. Мы можем сначала вычертить график зависимости у от х, провести от руки сглаживающую этот график кривую, а затем выбрать нужное преобразование, попросту нанося на масштабную бумагу по нескольку хорошо отобранных точек этой кривой [Smith (1972)]. Иногда бывает известно распределение и это может помочь в выборе соответствующего преобразования. Так, например, при пуассоновском распределении данных обычно используется логарифмическое преобразование.

Адекватность какой-нибудь частной модели можно проверить, используя графики остатков, описанные в § 6.6. Резюмируя, отметим следующие основные типы отклонений от основных предположений и способы их обнаружения:

(1) наличие выделяющихся наблюдений (приближенная процедура проверки, основанная на максимальном стьюдентизированном остатке описана в работе Tietjen и др.

(2) нелинейность регрессии, обнаруживаемая с помощью графика зависимости стъюдентизироваиного остатка от по криволинейному характеру зависимости;

(3) непостоянство дисперсии, обнаруживаемое при помощи графиков зависимости от или от

(4) наличие корреляции между различными обнаруживаемое с помощью критерия Дербина-Ватсона для сериального коэффициента корреляции или с помощью графика зависимости двух следующих друг за другом (по времени) остатков;

(5) отличие распределения ошибок от нормального, обнаруживаемое по графику зависимости от т. е. зависимости по величине (в порядке возрастания) остатка (приложение С) от математического ожидания и порядковой статистики стандартного нормального распределения.

<< Предыдущий параграф Следующий параграф >>
Оглавление