Главная > Математика > Линейный регрессионный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

12.2. Построение всех возможных регрессий

Если мы предположим для простоты изложения, что включается в модель всегда (хотя это и не обязательно), то очевидней подход к получению "наилучшего подмножества" состоит в

подборе всех возможных уравнений регрессии, которые можно получить, выбирая по регрессоров из совокупности Поскольку для каждого регрессора мы имеем только две возможности: он либо включается в уравнение, либо не включается в него, то всего имеется возможных уравнений регрессии. Если значение К велико, мы сталкиваемся с необходимостью сравнения очень большого количества уравнений (например, при имеем уравнения). Поэтому, во-первых, нам необходим эффективный алгоритм для получения всех возможных уравнений и, во-вторых, нужна достаточно просто вычисляемая мера для сравнения прогностической пригодности различных моделей. Описанные в разд. 12.2.2 алгоритмы обычно оказываются удовлетворительными для значений К вплоть до 10, а возможно, даже и до 15.

12.2.1. Порядок построения

Систематизированная процедура построения всех возможных регрессий приведена в работах Garside (1965, 1971) и Schatzoff и др. (1968). В первой работе для простоты описания каждая регрессия представлена К-значным двоичным числом. Например, если то двоичное слово 1010 представляет модель Так как мы обычно переходим от модели к модели, добавляя или отбрасывая каждый раз только по одному регрессору, то нужна такая последовательная процедура, которая, начиная с 00.. .0 (т. е. с модели эффективно строила бы все ненулевых К-значных двоичных чисел и при этом на каждом шаге изменялся бы только один двоичный знак. Эффективной будет такая процедура, которая не порождает одну и ту же модель регрессии дважды. Например, если то такой процедурой будет совокупность переходов Поскольку каждое К-значное двоичное число можно интерпретировать как совокупность координат одной из вершин -мерного единичного гиперкуба, то отыскание эффективной процедуры равносильно отысканию пути, проходящего по ребрам этого гиперкуба и попадающего, в каждую, вершину ровно по одному разу (такой путь называют гамильтоновым блужданием). Ясно, что такой путь определяется не единственным образом. Например, в случае мы можем начать с вершин или, выбрав какой нибудь путь, изменить нумерацию регрессоров. В то же время процесс получения искомого пути может быть довольно легко описан: используя знаки + и — для указания на включение или исключение регрессоров, мы приходим к следующим последовательностям:

Здесь где последовательность Т отличается от знаком и обратным порядком элементов. Для случая см. также табл. 12.4 в разд. 12.2.3 с.

Применяются, однако, и другие упорядочения. Например, Furnival (1971), сосредоточивший внимание на эффективном получении остаточных сумм квадратов для каждого подмножества регрессий служит основной статистикой при сравнении различных регрессий, см. разд. 12.2.3), использует двоичный порядок

т. е.

Такой же порядок используется, например, при определении главных эффектов и взаимодействий для факторных планов типа . Furnival, Wilson (1974) приводят ряд других, соответствующих их алгоритмам упорядочений,

12.2.2. Метод построения

(а) Выметание

Говорят, что -матрица выметена по строке и столбцу (или по k-му ведущему элементу), если она преобразована к матрице у которой [Beaton (1964)]

Например, при имеем

Schatzoff и др. (1968) указываюг, что оператор выметания обладает следующими полезными свойствами:

(1) Оператор выметания обратим, так что двукратное применение выметания по одному и тому же (конечно, в смысле номера. — Перев.) ведущему элементу матрицы равносильно неприменению этого оператора.

(2) Выметание коммутативно, так что выметание, производимое сначала по а затем по ведущему элементу, равносильно выполнению пары таких выметаний в обратном порядке.

Используем обозначения разд. 11.7.1, и пусть при этом X — (центрированная) матрица данных для всей совокупности регрессоров. Если расширенную матрицу

вымести по первым ее К ведущим элементам, то при условии, что матрица существует, получим

где Вообще, производя выметание матрицы А по любому подмножеству совокупности первых ее К ведущих элементов, мы получаем матрицу вектор и RSS, соответствующие регрессии на этом подмножестве регрессоров

что равносильно, регрессии на соответствующем подмножестве регрессоров х, допускающей наличие постоянной составляющей Например, если производится выметание по первым ведущим элементам то эти матрица, вектор и RSS находятся соответственно как главная (соответствующая главному минору. - Перев.) матрица размера вектор, образованный первыми элементами последнего столбца, и нижний диагональный элемент полученной в результате выметания матрицы. Кроме того, в силу обратимости и коммутативности выметания выполнение выметания по некоторому ведущему элементу матрицы А приводит либо к включению в модель соответствующего этому ведущему элементу регрессора, либо к исключению этого регрессора из модели, если он в ней уже присутствовал. В этом случае мы можем не обращать внимания на знаки в описании гамильтонова блуждания из предыдущего раздела, так что

Метод выметания можно применить также к матрице

где корреляционная матрица для К регрессоров, вектор корреляций этих К регрессоров с (см. разд. 11.7.2 с . В этом случае соответствующей В матрицей будет

где обычный множественный коэффициент корреляции. И опять выметание матрицы по произвольному подмножеству ее первых К ведущих элементов дает нам матрицу вектор а и величину соответствующие регрессии на этом подмножестве регрессоров. Предположим, в частности, что выметены первые ведущих элементов матрицы Тогда главная -матрица имеет ту же форму, что и только роль играет уже Это означает, что ведущий элемент этой главной матрицы равен значению соответствующему регрессии на которое мы обозначим Аналогично, если мы рассмотрим главную -матрицу дополненную строкой и столбцом то используя те же самые рассуждения, получим, что ведущий элемент при этом равен Таким образом, если мы хотим добавить в модель еще одну переменную которая сильно коррелирована с линейной комбинацией регрессоров, уже включенных в модель, то значение будет близко к ведущий элемент будет мал. Поскольку

же нам нужна величина, обратная этому ведущему элементу, то при его чрезмерной малости мы столкнемся с вычислительными трудностями Поэтому регрессор рекомендуется не включать в модель, если величина указанного ведущего элемента оказывается меньше некоторого допустимого значения.

Впервые метод выметания к пошаговой регрессии применил, по-видимому, Efroymson (1960), правда, в несколько ином виде. Garside (1965) предложил использовать его совместно со своим алгоритмом для построения гамильтонова блуждания. Поскольку с точностью до знаков матрица А симметрична, достаточно работать только с верхней треугольной матрицей, что сокращает наполовину объем вычислений и требуемую память [Вгеаих (1968), Schatzoff и др. (1968)]. Метод выметания, сохраняющий симметрию, описан ниже. Несколько алгоритмов для уменьшения числа выметаний указали Schatzoff и др. (1968), Furnival (1971), Morgan, Tatar (1972). Schatzoff и др. (1968) использовали тот факт, что выметания на каждом шаге всей матрицы А не требуется; выметание применяется только к некоторой минимальной подматрице. Furnival (1971) производит дальнейшее сокращение вычислений, предлагая запоминать К дополнительных подматриц, так что при этом ни один из ведущих элементов в подматрице не выметается более одного раза. Как уже отмечалось в разд. 12.2.1, в его алгоритме для определения последовательности регрессий используется упорядочение, отличное от гамильтонова блуждания. Morgan, Tatar (1972) используют метод в духе первой из упомянутых работ; только выметание модифицируется у них таким образом, что на каждом шаге подсчитывается лишь остаточная сумма квадратов (а не коэффициенты регрессии) и, кроме того, учитывается симметрия матрицы А. Основной оператор, используемый в этом методе "симметричного" выметания, описан ниже.

Newton, Spurrell (1967а, b) предложили другой подход к этой задаче. Они ввели некоторые величины, называемые элементами, и с их помощью описывали совокупность всех сумм квадратов .

(b) Симметричное выметание

Метод выметания является, по существу, адаптацией метода исключения Гаусса-Жордана для обращения матрицы на ее месте. Однако, поскольку матрицы и симметричны, в действительности необходимо работать только с верхними треугольными матрицами. Симметрию матрицы А можно сохранить, изменяя знак ведущего элемента [Stiefel (1963, с. 65), Beale и др. (1967? с. 359)? Garside (1971), Beale (1974)], так что при

включении регрессора имеем 1

а при его исключении

Если мы применим этот алгоритм к первым ведущим элементам матрицы (т. е. включим в модель все регрессоры) и будем работать только с верхней треугольной матрицей в то получим верхнюю треугольную матрицу

где а а - наш обычный вектор шкалированных коэффициентов регрессии (разд. 11.7.2).

Другой метод симметричного выметания описывают Morgan, Tatar (1972). Они прежде всего определяют -вектор элементы которого первоначально полагаются равными а также определяют кубическую матрицу размера Элементы матрицы находятся следующим образом: если в противном случае. (В памяти хранится не сама матрица а правило вычисления ее элементов.) Теперь, если — ведущая переменная, т. е. включается в регрессию или исключается из нее, то мы сначала изменяем знак и затем производим следующие вычисления:

опять в силу симметрии нам достаточно работать только с верхней треугольной частью матрицы А. Вектор фиксирует положение каждого регрессора, т. е. отмечает, включен или не

включен соответствующий регрессор в уравнение регрессии. Отрицательное значение указывает, что включен в регрессию.

В заключение отметим, что оба описанных в этом разделе оператора (симметричного) выметания обладают теми же свойствами обратимости, что и метод обычного (несимметричного) выметания из предыдущего раздела.

(с) Метод Фёрнивала

Метод исключения Гаусса, приведенный Фёрнивалом [Furnival (1971); см. также Furnivall, Wilson (1974)], лучше всего описывается с помощью "дерева регрессий" (рис. 12.1). Оператор исключения Гаусса применяется к каждому ведущему элементу в том порядке, который указан этим двоичным деревом.

Рис. 12.1. Дерево регрессий.

Корень этого дерева (на рис. 12.1 он сверху) соответствует полной матрице (12.1), а каждый внутренний узел—подматрице, получаемой из родительской матрицы последовательным выбором ведущих элементов (сплошные линии) и вычеркиваниями (пунктирные линии). Таким образом, начиная с корня дерева, матрица А "расщепляется" на две новые подматрицы, одна из которых получается использованием в качестве ведущего первого регрессора, а другая — вычеркиванием строки и столбца, соответствующих этой переменной. Процесс "расщепления" продолжается до тех пор, пока каждая из переменных не будет однажды сделана ведущей или не будет вычеркнута. В итоге каждый концевой узел будет представлять одну из регрессий, включая и "нулевую" Эту процедуру легко описать, используя для обозначений точки, как это делалось при рассмотрении частных коэффициентов корреляции. Целые числа, предшествующие точке,

являются индексами тех регрессоров в данной подматрице, которые еще не были ведущими, а индексы, расположенные после точки, соответствуют тем регрессорам, которые уже были ведущими. Например, подматрица 3.1 получается из матрицы А выделением регрессора в качестве ведущего и вычеркиванием

Кратко говоря, процедура Фёрнивала состоит в применении метода исключения Гаусса к верхней половине подматрицы, причем только к определенным строкам и столбцам. После выполнения выделения ведущего элементе (т. е. процедуры исключения Гаусса) нижний диагональный элемент дает соответствующее значение RSS.

Дерево регрессий, изображенное на рис. 12.1, можно обходить в любом "биологически возможном" порядке. Единственное ограничение состоит в том, что отец должен быть "рожден" раньше своего сына. Используя для обхода дерева горизонтальную, вертикальную и смешанную технику поиска, Фёрнивал получает ряд различных последовательностей регрессий. Подробности читатель может найти в статьях Фёрнивала.

(d) Преобразования Хаусхольдера и Гивенса

Все рассмотренные до сих пор методы требовали вычисления матриц или . В то же время из-за возможной плохой обусловленности этих матриц лучше избегать их формирования и работать непосредственно с матрицами X или где Это можно сделать, цспользуя методы § 11.9. Введение регрессора в модель производится с помощью преобразования Хаусхольдера, а выведение его из модели с помощью преобразования Гивенса. Чтобы лучше уяснить эту процедуру, рассмотрим следующую последовательность моделей:

Для введения в модель регрессора используем преобразование Хаусхольдера

Для этой модели и

С помощью еще одного преобразования Хаусхольдера введем в модель

(При этом некоторые из элементов остаются без изменений, например для Для этой модели

и

Для выведения из модели используем преобразование Гивенса, которое преобразует первую и вторую строки и обращает в нуль, а именно

Для этой модели имеем и (игнорируя первый столбец полученной матрицы)

Наконец, добавляя с помощью преобразования Хаусхольдера регрессор получаем модель

Коэффициенты регрессии в этой модели удовлетворяют уравнениям

и

Вообще, если в модель введены регрессоров, то регрессионная сумма квадратов равна сумме квадратов первых преобразованных элементов вектора Y.

12.2.3. Сравнение разных уравнений

После того как все уравнений регрессии получены, надо выбрать те из них, которые являются достаточно хорошими с точки зрения прогноза. При этом нам нужен метод, с помощью которого можно было бы сравнивать не только уравнения с одинаковым числом регрессоров, но и уравнения, мало похожие друг на друга как в отношении числа, так и в отношении выбора регрессоров. Для этой цели употребляются различные методы сравнения, и мы их сейчас подробно рассмотрим.

(а) Коэффициент детерминации R2

Раньше в качестве меры согласия модели регрессии с имеющимися данными широко использовался коэффициент детерминации квадрат множественного коэффициента корреляции. Его использование иллюстрируют Draper, Smith (1966, гл. 6) для на примере данных, взятых из Hald (1952, с. 550). Соответствующая процедура такова:

(1) Все регрессии разбиваются на пять классов. Класс А образован моделью Класс В состоит из четырех моделей с одной переменной

Класс С состоит из всех моделей с двумя переменными

класс D состоит из всех моделей с тремя переменными;

класс Е состоит из единственной модели со всеми четырьмя переменными.

(2) Внутри каждого класса модели упорядочиваются в соответствии с величиной

(3) В каждом классе берутся главные уравнения (т. е. уравнения с максимальным и выясняется, нет ли в порядке появления регрессоров какой-либо закономерности,

Результаты применения этой процедуры к данным, взятым из Hald (1952), приводят к совокупности главных уравнений, представленной в табл. 12.1. Draper, Smith (1966) считают, что возрастание величины при переходе от класса С к классу мало, и поэтому, если в модель уже включены или то заметного выигрыша от дополнительного введения в модель других регрессоров мы не получим.

Таблица 12.1 (см. скан) Подмножества регрессий с максимальными значениями

При этом, хотя значение для модели несколько выше, чем для вторую модель можно рассматривать как более подходящую, поскольку дает наилучшее уравнение с одним переменным. Однако разница между этими двумя моделями невелика.

Рассматривая матрицу выборочных коэффициентов корреляции

приведенную в табл. 12.2, мы видим, что изменения наблюдаемые в табл. 12.1, можно объяснить высокой корреляцией регрессоров и и особенно

Таблица 12.2 (см. скан) Матрица выборочных коэффициентов корреляции для данных Хальда

Приведенное рассмотрение поднимает вопрос о том, когда то или иное значение следует считать удовлетворительным. Например, какой из классов следует выбрать, исходя из данных табл. 12.1? Вполне возможно, что считать "удовлетворительными" следовало бы оба эти класса. Aitkin (1974) решает эту задачу, строя процедуру одновременной проверки, посредством которой можно одновременно определить все подмножества, для которых отличие от значения для полной модели не является значимым. Сейчас мы кратко изложим этот метод.

Предположим, что мы исследуем согласие с имеющимися данными некоторой подмодели регрессии получаемой из полной модели приравниванием нулю произвольных (кроме элементов вектора т. е. Если матрица X имеет размер и ранг а матрица имеет размер и ранг то -статистика для проверки гипотезы удовлетворяет соотношению (теорема 4.3 из § 4.2)

Мы обеспечим доверительный уровень а при одновременной проверке всех гипотез при любых наборах если не будем отвергать эти гипотезы при

где верхняя -процентная точка распределения (при нулевой гипотезе) статистики

здесь максимум берется по всем (непустым) возможным наборам Но этот максимум достигается при и тогда X, состоит только из первого столбца матрицы . В таком случае Поэтому

и если все гипотезы верны одновременно, имеет распределение

Поэтому

и совместней критерий не отвергает конкретную гипотезу при произвольном выборе если

где

Эйткин (Aitkin) называет всякое подмножество регрессоров (представляемое матрицей удовлетворяющее неравенству (12.3), -адекватным набором. Снова обращаясь к данным Хальда, имеем Если взять то

Подмножества, которые оказываются при этом -адекватными, помечены звездочками в табл. 12.3. Мы видим, таким образом, что классы из табл. 12.1 -адекватны (0.05), так что задача выбора только одного из них так и не решена.

Таблица 12.3 (см. скан) Значения для различных подмножеств регрессий

В то же время мы теперь по крайней мере знаем, что в рамках указанного критерия "адекватности" эти классы сравнимы. Идеи адекватности также коснулись Сох, Snell (1974, с. 53), когда говорили о "примитивных" подмножествах.

Если К велико, то перебор всех значений коэффициента (включая и может оказаться затруднительным. Эйткин указывает, что во многих случаях достаточно перебирать значения коэффициента только для минимальных адекватных наборов, т. е. для тех -адекватных наборов, которые нельзя сократить (отбрасывая из них те или иные регрессоры) так, чтобы после сокращения опять получился -адекватный набор регрессоров из Например, в табл. 12.3 минимальными адекватными наборами являются (1, 2), (1,4) и (2, 3, 4).

Как и при любых процедурах одновременной проверки, с уменьшением числа оставляемых в модели регрессоров указанный критерий проверки подгипотез становится все более

осторожным. Эйткин ссылается на то, что истинный размер каждого конкретного критерия для некоторой подгйпотезы можно найти путем интерполяции таблиц -распределения или таблиц неполной бета-функции.

Приведенная процедура сохраняется и при случайных регрессорах. Рассматривая все величины как условные при наблюденных значениях регрессоров, мы получаем тестовую статистику, распределение которой при нулевой гипотезе -распределение) не зависит от Поэтому и размер а совместного критерия не зависит от

Другой метод множественного сравнения для сопоставления регрессий приводит Spjetvoll (1972с).

(b) Скорректированный коэффициент детерминации

Поскольку максимизация равносильна минимизации остаточной суммы квадратов RSS. В этом смысле можно рассматривать как меру согласия. Однако, как отмечал Фёрнивал [Barrett (1974)], если значение RSS поддерживается постоянным, то с ростом крутизны поверхности регрессии будет возрастать и сумма а значит, увеличится и Поэтому при анализе двух различных совокупностей данных может возникать такое положение, когда одна из регрессий имеет меньшую RSS и в то же время имеет и меньшее значение из-за того, что соответствующая поверхность регрессии не столь крута. Однако в нашем случае мы используем для различных моделей регрессии одну и ту же совокупность данных, так что величина одинакова для каждой из регрессий. Это означает, что мы можем использовать коэффициент в качестве относительной (но не абсолютной) меры согласия. Однако даже если используется только как относительная мера, то и тогда, как мы уже видели в табл. 12.3, возникают определенные трудности при сравнении регрессий с различным числом регрессоров. Поскольку введение дополнительного регрессора приводит к увеличению (см. комментарий после теоремы 4.3), то вопрос скорее заключается не в отыскании подмножества с максимальный (которое в любом случае является совокупностью всех К регрессоров), а в отыскании подходящего подмножества с большим значением

Для преодоления некоторых из указанных трудностей была предложена модификация коэффициента называемая "выверенной" или "скорректированной" статистикой [Ezekiel (1930)]. Эта статистика имеет вид

где — число параметров (т. е. число регрессоров плюс единица из-за уравнения. Заметим, что если велико в сравнении с , то может принять отрицательное значение. Чтобы понять, как влияет на величину введение дополнительных регрессоров, рассмотрим -статистику (теорема 4.3, § 4.2)

Используя (12.4), получаем, что

в том и только том случае, когда Это означает, что возрастание значения при добавлении одного или более регрессоров будет наблюдаться, только если Аналогичные результаты получили Haitovsky (1969) и Edwards (1969). На основании изложенного имеем, что одним из критериев выбора наилучшей регрессии является выбор подмножества, максимизирующего [Haitovsky (1969)]. В то же время статистика связана с другой хорошо известной статистикой, которую мы сейчас и рассмотрим.

(с) Cp-статистика Мэлоуса

Как и прежде, будем использовать подстрочный индекс для обозначения того, что рассматривается модель с параметрами (т. е. модель, включающая других коэффициентов . Таким образом, обозначает пхр-матрицу данных ранга а аппроксимирующая подмодель регрессии в точке представляется в виде

где Если то будет обычно отличаться от из-за возможного смещения модели с параметрами, Поэтому, если мы используем для предсказания значения где (неизвестный) отклик в точке х, определенной выше, то среднеквадратичная ошибка оценки равна

Это наводит на мысль о том, что один из критериев выбора наилучшего подмножества может состоять в отыскании такого подмножества, которое минимизирует (12.5) для заданных будущих значений х [Allen] (1971а)]. В то же время, если нас интересует не одно, а большее число будущих значений х, то при этом для различных х следует скорее всего рекомендовать разные подмножества. Как отмечал Hocking (1972), по-видимому, более уместно использовать сумму или среднее (в том или ином смысле) будущих наблюдений, заслуживающих интереса. Поскольку для предсказания безопасна только область, определяемая исходным экспериментом из наблюдений, ряд авторов рекомендует использовать нечто вроде суммирования или усреднения строк -матрицы данных для полной модели с параметрами. Например, если

то один из предложенных критериев [Mallows (1964, 1966, 1973), Gorman, Toman (1966)] состоит в минимизации шкалированной суммы квадратов

Если

(последнее — в силу теоремы 3.1), так что

Здесь - "смещение" суммы квадратов, равное

где

Таким образом, нам нужна несмещенная оценка суммы квадратов с помощью которой мы могли бы отбирать подмножества с малыми значениями Кроме того, если составляющая отвечающая за смещение, в (12.8) пренебрежимо мала, то так что график зависимости от будет указывать на то, какая из моделей регрессии имеет малое смещение.

Мэлоус (Mallows) предложил использовать в качестве оценки для статистику

где -подходящая оценка для Полагая о имеем

и, рассуждая, как в теореме 3.3 (§ 3.3), получаем

Поэтому

является приблизительно несмещенной оценкой для Равенство в соотношении (12.10) вытекает из того факта, что вторую составляющую в можно получить, заменяя каждый случайный вектор в RSS его математик ческим ожиданием. Это можно доказать, и следующим образом:

так что

(Некоторые авторы, например Mallows (1973) и Hocking (1972), предполагают, что Однако в приведенном доказательстве этого делать не требуется.)

Помимо отыскания подмножеств с малым Mallows (1964) предложил строить для каждой модели регрессии график зависимости от Значения статистики для моделей с малым смещением в смысле имеют тенденцию группироваться вокруг прямой (рис. 12.2, точка А). Для моделей со значительным смещением соответствующие значения лежат над этой прямой (рис. 12.2, точка В). Как заметили Gorman, Toman (1966), хотя точка В лежит здесь над прямой она в то же время расположена циже точки А и поэтому соответствует уравнению с несколько меньшей полной среднеквадратичной ошибкой Поэтому введение в модель дополнительных регрессоров может уменьшить составляющую соответствующую смещению, но только за счет возрастания от до составляющей, соответствующей дисперсии. На тенденцию возрастания дисперсий прогноза уже указывалось в § 5.4. Если аппроксимирующее уравнение предполагается использовать для интерполяции, то, отбросив несколько регрессоров, мы можем, допуская некоторое смещение, получить взамен меньшее значение Др и более простое уравнение.

Рис. 12.2. График

Для вычисления необходима подходящая оценка для Ею часто служит средняя остаточная сумма квадратов Для полной модели. Однако при этом обязательно получаем при При использовании такой сщейки величины в формуле для предполагается, что полная модель оценена столь тщательно, что имеется достаточная уверенность в незначительности смещения. Если имеется такая возможность, эту оценку для следует сравнить оценками, полученными ранее, вида с оценками, основанными на "квазиповторных наблюдениях" [Daniel, Wood (1971, с. 123)]. Квазиповторными наблюдениями могут быть, например, пары наблюдений У, взятых в удаленные друг от друга моменты времени, но при почти совпадающих условиях на х. При этом, если какой-то. регрессор оказывает на незначительное воздействие, для него можно допустить и большую разницу уровней.

Применяя графический метод Мэлоуса к данным Хальда, Gorman, Toman (1966) получили табл. 12.4. Сравнивая значения видим, что с точки зрения прогнозирования подходящими являются четыре модели: При отсутствии информации о методе получения значений регрессоров, вероятно, уместнее выбрать простейшую модель поскольку значение для нее минимально, а именно равно 2.68. Эта модель была рекомендована в числе других и по критерию

Интересно отметить, что статистика тесно связана со

Таблица 12.4 (см. скан) Значения для всех подмножеств регрессий (данные Хальда)


скорротированным коэффициентом детерминации [KennarcT (1971)]. Замечая, что (см. (12.4))

и оценивая величиной получаем

или

Если то, замечая, что -является просто масштабным множителем, видим, что статистика грубо говоря, эквивалентна статистике В действительности обе эти статистики дают меру, характеризующую величину составляющей определяющей смещение.

Дальнейшие примеры использования статистик читатель может найти в работах Gorman, Toman (1966), Daniel, Wood (1971) и Mallows (1973).

(d) MSEP-критерий

Используя обозначения, введенные в начале предыдущего раздела, будем рассматривать теперь как оценку неизвестного отклика (а не оценку параметра в точке х. Среднеквадратичная ошибка предсказания (MSEP-mean square error of prediction. - Перев.) в соответствии с (5.21) равна при этом

и отличается от (12.5) на . Allen (1971а) предложил для предсказания значения соответствующего заданному вектору-стро-ке х (первые элементов которого образуют вектор использовать такое подмножество, которое минимизирует (12.11). Aitkin (1974) рассматривает задачу отыскания класса таких подмножеств, которые лишь ненамного "хуже" полного уравнения, и использует в качестве критерия среднеквадратичную ошибку предсказания — MSEP (и различные ее усреднения по -пространству). Например, усреднением по точкам в пространстве х-данных мы получаем (прибавляя в соотношении (12.6) и производя деление на статистику

которую можно использовать в качестве критерия. Предполагая, что. полная модель является несмещенной (т. е. , Aitkin (1974) использует процедуру одновременной проверки, если MSEP (или один из ее вариантов) для некоторого подмножества существенно отличается от MSEP для полной модели. Характер используемой процедуры проверки описан выше (см. (12.3)). Aitkin (1974) и Narula (1974) рассматривают использование MSEP-критерия для выбора подмножества при случайных регрессорах.

(e) Другие меры

Mallows (1967) и Rothman (1968) предложили другую меру сравнения подмножеств, а именно

Если то из соотношения (12.10) имеем

Это означает, что при свойства статистики аналогичны свойствам статистики В противном случае теоретические свойства весьма расплывчаты.

Помимо Hocking (1972) упоминает и другую меру, которую ввел Allen (1974), назвав ее PRESS (prediction sum of squares - предсказанная сумма квадратов). К сожалению, в отличие от мера PRESS уже не является простой функцией от и потому ее не так просто вычислить, тогда как RSS без труда получается попутно при применении алгоритмов, описанных в разд. 12.2.21).

Другой критерий, под названием AEV (average estimated variance - средняя оцененная дисперсия), предложил Helms (1974). В AEV включается усреднение дисперсии прогноза по всей представляющей интерес области -пространства, а не только по заданным точкам, и в нем используется весовая функция, придающая большие веса более "важным" точкам этой области. В одном весьма частном случае (когда в обозначениях Helms (1974)

Helms (1974, с. 269) подвергает сомнению практику обязательного включения в модель постоянной составляющей Пользуясь своим опытом, он утверждает, что "постоянные составляющие зачастую вносят основной вклад в дисперсию, в то время как их отсутствие часто вносит лишь весьма незначительный вклад в смещение".

И приведенного рассмотрения ясно, что выбор критерия во многом зависит от того, каким образом модель собираются использовать. Поскольку очевидно, что дальнейшее исследование требует определенных свойств различных мер, то при сравнении моделей рекомендуется всегда вычислять не одну, а несколько мер.

<< Предыдущий параграф Следующий параграф >>
Оглавление