Главная > Математика > Линейный регрессионный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 5. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ И ОБЛАСТИ

5.1. Совместное интервальное оценивание

5.1.1. Проблема совместных выводов

Одной из типичных статистических проблем является задача отыскания двусторонних доверительных интервалов для линейных комбинаций Ее решением могла бы являться система доверительных -интервалов вида (4.25) из разд. 4.1.5, а именно

Однако если даже мы сможем придать вероятность 1—а каждому отдельному интервалу, то общая вероятность того, что указанные доверительные утверждения будут выполняться одновременно, не будет равна 1—а. Чтобы убедиться в этом, предположим, что событие, состоящее в том, что доверительное утверждение верно, и положим Если событие, дополнительное к то

Для случая получаем неравенство

так что вероятность правильности всех доверительных утверждений не равна , а является величиной, большей Например, если то Впрочем, как указал Miller R. G. (1966, с. 8), неравенство (5.3) является в действительности не столь грубым, как это можно было бы ожидать, если не слишком велико (скажем, а а мало (скажем, .

Стоит также отметить, что если зависимость между событиями мала, то

Последняя ситуация характерна для многих задач дисперсионного анализа, в которых доверительные интервалы часто основываются на статистиках, числители которых (здесь либо взаимно независимы, либо близки к таковым, а знаменатели содержат общую для всех случайную величину, подобную Во многих случаях правая часть (5.4) дает нижнюю оценку для (см. Sidak (1968, с. 1428) и Dykstra и др. (1973)).

С событиями связана и другая проблема. Если то существует один шанс из 20, что будет сделано неправильное доверительное утверждение относительно Таким образом, можно ожидать, что при 20 сделанных доверительных утверждениях одно из них окажется неверным. Иными словами, 5% наших доверительных интервалов окажутся ненадежными. Можно говорить также об "интенсивности ошибок", равной в этом случае 1/20.

Для общего случая, когда а, - не обязательно равны, Miller R. G. (1966, с. 8) показал, что ожидаемая интенсивность ошибок равна (1972а) предложил основывать совместные статистические выводы на заданном значении у, а не на заданном значении вероятности ошибочности хотя бы одного из доверительных утверждений (обычно называемой вероятностью отличия от нуля интенсивности ошибок семейства; Miller R. G. (1966)). Во всяком случае, как видно из неравенства (5.2), .

Рассмотрим теперь несколько путей, которые позволяют обойти указанные выше трудности.

(а) t-интервалы Бонферрони

Если для каждого из доверительных интервалов вместо уровня значимости а взять уровень значимости то из (5.3) получаем

так что общая вероятность накрытия будет не меньше 1—а. Сделаем, однако, одно предостережение. Если значение велико, то этот метод может привести к столь широким доверительным интервалам, что от них не будет никакой практической пользы. Это означает, что разумного компромисса можно достичь, лишь увеличивая а, скажем беря

При использовании указанного метода часто возникает необходимость определения процентных точек -распределения, не встречающихся в обычных таблицах -распределения. В этой связи полезна следующая приближенная формула (Scott, Smith (1970)):

Здесь - верхняя -процентная точка распределения Значения можно найти путем интерполирования обычных нормальных таблиц или используя, например, обширную таблицу 1 из статистических таблиц Келли (Keliey (1948, с. 37)). Значения можно получать и на некоторых современных настольных калькуляторах. В приложении приведена таблица значений (взятая из работы Dunn (1961)) для значений Связанные с ней таблицы, содержащие и другие значения имеются в Dayton, Schafer (1973).

Доверительные интервалы, основанные на указанном методе замены а на называются -интервалами Бонферрони, поскольку соотношение (5.2) есть не что иное, как известное неравенство Бонферрони (Feller (1968)).

(b) t-интервалы, основанные на максимуме модулей

Пусть — верхняя -процентная точка распределейия максимума абсолютных значений стьюдентовских -статистик, каждая из которых основана на степенях свободы и которые имеют одинаковый коэффициент корреляции внутри каждой пары. Если мы опускаем индекс Далее, если линейные комбинации взаимно независимы, то условные коэффициенты корреляции между парами -статистик

при заданном равны нулю. Поскольку не зависит от каждой из то безусловные коэффициенты корреляции также равны

нулю и

Поэтому для совокупности интервалов

общая доверительная вероятность в точности равна , так что Если, однако, линейные комбинации линейно зависимы, что является более частой ситуацией, то доверительные интервалы (5.6) можно использовать по-прежнему, но они будут иметь некоторый запас: общая доверительная вероятность будет не меньше 1—а. (Этот результат вытекает из теоремы, доказанной Sidak (1968); см. Hahn, Hendrickson (1971) и Hahn (1972).) Hahn (1972) показал, что при доверительные интервалы

где коэффициент корреляции между равный

обеспечивают полную доверительную вероятность, в точности равную . Этот результат полезен при рассмотрении одномерной линейной регрессии

В приложении воспроизведены таблицы для из Hahn, Hendrickson (1971) для значений . В статье Tong (1970) предложена процедура, которую можно применять для получения завышенных значений при используя табулированные значения для

(c) s-метод Шеффе

Без ограничения общности можно предполагать, что первые векторов совокупности линейно независимы, а остальные векторы этой совокупности (если таковые имеются) линейно зависят от первых векторов, так что Рассмотрим -матрицу А, для которой и пусть Матрица А имеет размер и ранг так что используя те же соображения, что и при доказательстве теоремы и полагая получаем

Поэтому, используя обозначение имеем

(пятое равенство — следствие A4.11). Таким образом, для любой линейной функции мы можем построить такой доверительный интервал, а именно

что полная вероятность накрытия для всего класса этих интервалов в точности равна 1—а. Заметим, что входящая в (5.10) величина является попросту несмещенной оценкой для Ее часто можно найти, не прибегая к обращению матриц (см., например, разд. 9.1.7). Поэтому интервал (5.10) можно записать в более компактном виде

Поскольку для любого при некотором выполняется равенство то доверительный интервал для каждого входит в совокупность интервалов (5.11). Кроме того, в эту совокупность входят и интервалы для так как векторы линейно зависят от остальных Например, если то Поэтому если событие состоит в том, что значение лежит в интервале

то, поскольку полная совокупность интервалов (5.11) шире, чем та, которая нам требуется,

Заметим, что класс параметрических функций образует линейное пространство с базисом Оно является наименьшим линейным пространством, содержащим

Указанный метод принадлежит Шеффе [Scheffe (1953)] и называется в его книге (Scheffe (1959, § 3.5)) S-методом множественного сравнения. Другие методы построения совместных доверительных интервалов для специальных подмножеств пространства обсуждаются в разд. 9.1.7. По поводу ссылок на работы,

посвященные вопросам множественного сравнения, читатель может обратиться к книге Miller R.G. (1966), а также к статьям ONeill, Wetherill (1971), Hahn (1972), Miller (1977.

Класс 3 линейных функций вида является только подклассом класса всех возможных линейных функций где -теперь произвольный -вектор. Однако, полагая получаем так что соответствующие доверительные интервалы для класса всех функций принимают вид (ср. с (5,11))

Существует интересная связь между совокупностью доверительных интервалов (5.10) и -статистикой для проверки гипотезы Из (5.8) и (5.9) видно, что эта -статистика не является значимой для уровня а тогда и только тогда, когда выполняется неравенство

а оно справедливо тогда и только тогда, когда содержится в области т. е. тогда и только тогда, когда содержится в (5.10) при каждом Таким образом, статистика значима, если хотя бы один из интервалов (5.10) не накрывает и может возникнуть ситуация, когда каждый интервал для накрывает но гипотеза Я отвергается. Например, если то раздельные интервалы для образуют прямоугольник, изображенный на рис. 5.1, а область представляет собой изображенный на том же рисунке эллипс. Если какая-то точка с лежит

Рис. 5.1. Сравнение отдельных доверительных интервалов для с совместной доверительной областью.

в пределах прямоугольника, то она не обязательно будет лежать в пределах эллипса.

5.1.2. Сравнение методов

Если рассматривается доверительных интервалов, то и -интервалы Бонферрони, и -интервалы (5.6), основанные на максимуме моделей, и -интервалы Шеффе (5.12) приводят к оценке снизу для равной . Сравнивая табл. 5.1 и 5.2 (взятые в Dunn (1959)), мы видим, что для и значений не слишком превышающих

Если намного больше то выполняется обратное неравенство. Можно также показать теоретически (ср., например, табл. 5.1 с приложением , что

так что для обычной ситуации, когда интервалы, основанные на максимуме модулей, являются наиболее узкими, -интервалы— наиболее широкими. Например, если , то

Если бы нас интересовал только один -интервал, то мы бы использовали значение которое намного меньше предыдущих трех чисел.

Таблица 5.1 (см. скан) Значения для

Таблица 5.2 (см. скан) Значения для

Anderson D. A. (1972) указал способ сравнения метода Шеффе с простым подходом, использующим -интервалы. В некоторых ситуациях -интервалы Бонферрони можно использовать для проверки гипотез (Christensen (1973)).

<< Предыдущий параграф Следующий параграф >>
Оглавление