Реферат Курсовая Конспект
Расчетно-графическая работа по высшей математике - раздел Математика, Министерство Образования И Науки Российской Федерации  ...
|
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ
РОССИЙСКОЙ ФЕДЕРАЦИИ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«САМАРСКИЙ ГОСУДАРСТВЕННЫЙ АЭРОКОСМИЧЕСКИЙ
УНИВЕРСИТЕТ имени академика С. П. КОРОЛЕВА»
Расчетно-графическая работа по высшей математике
«Статистический анализ данных»
Выполнил:
Самара 2011г.
ВВЕДЕНИЕ
Математическая статистика – это прикладная математическая дисциплина, примыкающая к теории вероятностей. Она базируется на понятиях и методах теории вероятностей, но решает свои специфические задачи специальными методами.
Основная задача математической статистики – получить обоснованные выводы о параметрах, видах распределений и других свойствах случайных величин по конечной совокупности наблюдений над ними.
В расчетной работе рассматриваются основные методы анализа одномерных статистических данных: определение точечных и интервальных оценок параметров распределения, проверка гипотез о виде распределения. Рассматриваются также элементы корреляционного и регрессионного анализа двумерных статистических данных.
ЗАДАНИЕ НА РАСЧЕТНУЮ РАБОТУ
«СТАТИСТИЧЕСКИЙ АНАЛИЗ ОДНОМЕРНЫХ ДАННЫХ»
Дана выборка значений случайной величины (выборка объема из генеральной совокупности).
1. Найти выборочную оценку математического ожидания случайной величины , указать свойства этой оценки.
2. Найти выборочные оценки дисперсии и среднеквадратического отклонения случайной величины , указать свойства этих оценок.
3. Составить группированный вариационный ряд, разбив выборку на равных интервалов.
4. Построить гистограмму и полигон относительных частот. На их основе выдвинуть нулевую гипотезу о виде распределения (нормальное распределение).
5. На одном чертеже с гистограммой построить график теоретической плотности вероятностей. Сделать вывод об их визуальном совпадении.
6. Составить эмпирическую функцию распределения и построить ее график.
7. На одном чертеже с эмпирической функцией распределения построить график теоретической функции распределения. Сделать вывод об их визуальном совпадении.
8. С помощью критерия согласия Пирсона проверить гипотезу о виде распределения генеральной совокупности для уровня значимости . Сделать статистический вывод.
9. Построить доверительные интервалы для неизвестных математического ожидания и дисперсии нормально распределенной генеральной совокупности с параметрами и для уровней значимости , и . Сделать вывод о ширине доверительного интервала, в зависимости от уровня значимости .
У к а з а н и е: все вычисления проводить с точностью до 0,0001
Предположим, что изучается некоторая случайная величина , закон распределения которой неизвестен. Требуется приближенно определить этот закон из опыта и проверить гипотезу о том, что случайная величина подчинена этому закону.
Генеральной совокупностью называют всю совокупность реализации случайной величины , все возможные наблюдения некоторого показателя, все возможные исходы некоторого испытания.
Выборкой называют часть генеральной совокупности , то есть конечное подмножество значений случайной величины из множества элементов генеральной совокупности.
Объемом выборки называют количество содержащихся в ней значений случайной величины .
Задача математической статистики состоит в исследовании свойств выборки и обобщении этих свойств на всю генеральную совокупность.
Выборка является исходной информацией для статистического анализа и принятия решений о неизвестных вероятностных характеристиках случайной величины . Для этих целей на выборку следует смотреть как на набор реализаций независимых одинаково распределенных случайных величин .
Для того чтобы по выборке можно было достаточно уверенно судить о генеральной совокупности, выборка должна быть представительной (репрезентативной), то есть достаточно полно представлять признаки и параметры генеральной совокупности. Репрезентативность выборки улучшается при увеличении её объема.
Пусть – выборка объема из генеральной совокупности значений случайной величины с математическим ожиданием , дисперсией и среднеквадратическим отклонением .
Выборочным средним выборки называется среднее арифметическое
.
Согласно закону больших чисел, при увеличении объема выборки среднее арифметическое выборки сходится по вероятности к математическому ожиданию генеральной совокупности, то есть
.
Таким образом, среднее арифметическое может служить приближением (оценкой) математического ожидания генеральной совокупности.
Выборочной дисперсией называется
.
Модифицированной выборочной дисперсией называется
.
Все эти выборочные величины зависят от выборки и сами являются случайными величинами. Их значения лишь приближенно равны соответствующим числовым характеристикам генеральной совокупности.
Статистикой называется любая функция, зависящая от выборки и сама являющаяся случайной величиной. Таким образом, выборочное среднее , выборочная дисперсия и модифицированная выборочная дисперсия – это статистики.
Точечной оценкой неизвестного параметра распределения случайной величины называется такая функция от выборки (статистика) , что ее значение от любой выборки приближенно равно истинному значению параметра, то есть .
Оценки параметров принято обозначать символом с тильдой наверху: .
Существует несколько методов нахождения точечных оценок: метод наименьших квадратов, метод моментов, метод максимального правдоподобия и другие. Таким образом, для каждого независимого параметра может быть несколько оценок, полученных различными методами. Для того, чтобы точечная оценка давала хорошее приближение оцениваемому параметру, она должна обладать следующими свойствами:
1. Оценка параметра называется несмещенной, если ее математическое ожидание равно оцениваемому параметру :
.
Известно, что – несмещенная оценка математического ожидания, – смещенная оценка дисперсии и – несмещенная оценка дисперсии.
2. Оценка параметра называется состоятельной, если она сходится по вероятности к точному значению оцениваемого параметра , то есть
.
Состоятельной оценкой математического ожидания является выборочное среднее , а состоятельными оценками дисперсии – выборочная дисперсия и модифицированная выборочная дисперсия .
3. Несмещенная оценка параметра называется эффективной, если она имеет минимальную дисперсию среди всех несмещенных оценок этого параметра. Доказано, что и являются эффективными оценками математического ожидания и дисперсии соответственно, а так как – смещенная оценка дисперсии, то это и неэффективная оценка.
Дана выборка значений случайной величины (выборка объема из генеральной совокупности)
Таблица 1
-3,66 | 0,88 | 1,67 | 2,3 | 2,69 | 2,93 | 3,54 | 4,52 | 5,22 | 5,57 |
-3,32 | 0,94 | 1,73 | 2,31 | 2,71 | 2,96 | 3,62 | 4,64 | 5,24 | 6,13 |
-2,34 | 1,22 | 1,79 | 2,37 | 2,73 | 3,02 | 3,8 | 4,78 | 5,27 | 6,42 |
-1,62 | 1,29 | 1,94 | 2,42 | 2,76 | 3,09 | 3,94 | 4,8 | 5,29 | 6,48 |
-1,16 | 1,31 | 2,07 | 2,44 | 2,79 | 3,22 | 3,98 | 4,86 | 5,32 | 7,34 |
-0,36 | 1,33 | 2,15 | 2,53 | 2,86 | 3,26 | 4,23 | 4,9 | 5,33 | 7,35 |
-0,36 | 1,51 | 2,16 | 2,62 | 2,86 | 3,28 | 4,29 | 4,93 | 5,35 | 7,5 |
-0,05 | 1,56 | 2,27 | 2,64 | 2,88 | 3,36 | 4,32 | 4,94 | 5,39 | 7,54 |
0,35 | 1,58 | 2,28 | 2,67 | 2,88 | 3,51 | 4,34 | 4,99 | 5,53 | 8,2 |
0,63 | 1,64 | 2,29 | 2,68 | 2,93 | 3,52 | 4,43 | 5,18 | 5,56 | 8,46 |
Требуется найти выборочные оценки математического ожидания, дисперсии и среднеквадратического отклонения случайной величины . Указать свойства этих оценок.
Оценкой математического ожидания случайной величины служит выборочное среднее .
Данная оценка является несмещенной, эффективной и состоятельной.
Оценкой дисперсии случайной величины служат выборочная дисперсия и модифицированная выборочная дисперсия, вычисляемые по формулам:
,
.
Оценка является несмещенной, эффективной, состоятельной, а – смещенная, неэффективная, но состоятельная. Следовательно, дает лучшее приближение оцениваемой дисперсии, поэтому в дальнейших расчетах в качестве оценки дисперсии используется : .
Оценка среднеквадратического отклонения, являющаяся несмещенной, эффективной, состоятельной:
.
Пусть – выборка объема , содержащая различных вариант, из генеральной совокупности случайной величины .
Статистическим рядомназывается совокупность пар , полученных в результате эксперимента. Обычно статистические ряды оформляются в виде таблицы (таблица 2), в первом столбце которой стоит номер опыта, а во втором – наблюденное значение случайной величины, которое называется вариантой.
Размахом выборки называют разность между наибольшей и наименьшей вариантами выборки:
.
Частотой варианты называется число повторений варианты в выборке, причем .
Относительной частотой или весом варианты называется отношение частоты варианты к объему выборки , то есть , причем .
При большом числе наблюдений простой статистический ряд перестает быть удобной формой записи статистических данных. Для придания ему большей компактности и наглядности статистический материал подвергают дополнительной обработке – строят вариационные ряды или группированные вариационные ряды.
Вариационным рядом называется упорядоченная совокупность вариант с соответствующими им частотами или относительными частотами .
Для построения группированного вариационного ряда интервал изменения наблюденных значений случайной величины разбивают на непересекающихся интервалов , , …, , называемых частичными интервалами или разрядами. Число интервалов группировки зависит от объема выборки и определяется по правилу:
,
где – объем выборки, а квадратные скобки обозначают целую часть числа. Разбиение на малое число интервалов может привести к неверным статистическим выводам. Согласно этой формуле, необходимо брать не менее 8 интервалов на 100 наблюдений.
Интервалы могут быть как одинаковой длины, так и различной. Для упрощения дальнейшей обработки статистических данных интервалы желательно делать одинаковой длины:
.
Частотой интервала называется число вариант , попавших в этот интервал, причем . При группировке наблюденных значений по разрядам возникает вопрос о том, к какому интервалу отнести значение, находящееся на границе двух разрядов. В этих случаях считают данное значение принадлежащим к левому интервалу.
Относительной частотой или весом интервала называется отношение частоты интервала к объему выборки : , причем .
Накопленной относительной частотой интервала называется сумма относительных частот первых интервалов, то есть .
Группированным вариационным рядом называется упорядоченная совокупность непересекающихся интервалов с соответствующими им частотами , относительными частотами и накопленными относительными частотами
Требуется составить группированный вариационный ряд для выборки из генеральной совокупности значений случайной величины (таблица 1), разбив выборку на равных интервалов.
Данная выборка имеет объем .
Определим интервал изменения случайной величины . Для этого в таблице 1 находим максимальный и минимальный элементы:
, .
Определим размах выборки:
.
Для удобства дальнейшей обработки статистических данных округляем и до ближайших целых чисел таких, что и вошли бы в новый интервал:
, .
Тогда новый размах выборки: .
Разбиваем выборку на равных интервалов. Длина каждого частичного интервала равна .
Найдем количество вариант, попавших в каждый частичный интервал разбиения. Сумма всех частот должна быть равна .
Найдем относительные частоты и накопленные относительные частоты .
Таблица 2
Индекс | Интервал | Частота | Относит. частота | Накопл. относит. частота |
0,0200 | 0,0200 | |||
0,0200 | 0,0400 | |||
0,0300 | 0,0700 | |||
0,0500 | 0,1200 | |||
0,2300 | 0,3500 | |||
0,2700 | 0,6200 | |||
0,1700 | 0,7900 | |||
0,1300 | 0,9200 | |||
0,0600 | 0,9800 | |||
0,0200 | 1,0000 | |||
ГИСТОГРАММА И ПОЛИГОН ЧАСТОТ
Пусть – выборка объема , содержащая различных вариант, из генеральной совокупности случайной величины с неизвестной плотностью вероятностей . Приближением (оценкой) неизвестной плотности вероятностей могут служить гистограмма или полигон относительных частот. Гистограмма и полигон относительных частот служат для геометрического изображения группированного вариационного ряда.
Гистограмма относительных частот представляется в виде примыкающих друг к другу прямоугольников с основаниями , равными ширине интервалов группировок, и высотами (рис. 1). Для гистограммы относительных частот площадь ступенчатой фигуры соответствует сумме вероятностей и равна . Площадь любого прямоугольника гистограммы равна вероятности попадания значений рассматриваемой случайной величины в интервал, соответствующий основанию прямоугольника.
Рис. 1
Рис. 6 Эмпирическая и теоретическая функции распределения
-3,35 | -2,882540414 | -0,4980 | 0,002 | |
-2,05 | -2,31083466 | -0,4896 | 0,0104 | |
-0,75 | -1,739128905 | -0,4591 | 0,0409 | |
0,55 | -1,167423151 | -0,3790 | 0,121 | |
1,85 | -0,595717396 | -0,2257 | 0,2743 | |
3,15 | -0,024011642 | -0,0800 | 0,42 | |
4,45 | 0,547694113 | 0,2088 | 0,7088 | |
5,75 | 1,119399867 | 0,3686 | 0,8686 | |
7,05 | 1,691105622 | 0,4545 | 0,9545 | |
8,35 | 2,262811376 | 0,4881 | 0,9881 | |
3,2046 | 0,0000 | 0,0000 | 0,5000 |
Таблица 5
Сравнивая графики и , можно сделать вывод, что является статистическим аналогом .
РАСПРЕДЕЛЕНИЯ И СТЬЮДЕНТА
Рассмотрим некоторые виды специальных распределений, используемых в математической статистике. Сначала введем определение:
Квантилью, соответствующей вероятности , называется такое значение , при котором выполняется соотношение:
,
где – плотность вероятностей соответствующего закона распределения (слово квантиль – женского рода). Геометрическое пояснение смысла квантили, отвечающей вероятности , приведено на рисунке 8.
РАСПРЕДЕЛЕНИЕ
Пусть – нормально распределенные независимые случайные величины, причем математическое ожидание каждой из них равно нулю, а среднеквадратическое отклонение – единице, то есть ~. Тогда сумма квадратов этих величин распределена по закону («хи квадрат») с степенями свободы.
Рис. 7
Графики плотности вероятностей распределения
Плотность вероятностей этого распределения имеет вид:
,
где - гамма- функция.
График плотности вероятностей при малых имеет длинный правый «хвост», а с ростом становится почти симметричным (рис. 7).
Квантили распределения обозначаются (рис. 8) и находятся по таблицам (таблица П 5 Приложения).
Геометрическое пояснение смысла квантили ,
отвечающей вероятности
Рис. 9
Плотность вероятностей и квантили распределения Стьюдента
Геометрическое пояснение смысла квантилей
Рис. 12
Квантили распределения
Как и в предыдущем случае, будем считать площади под «хвостами» кривой распределения равными покаждая (рис. 12).
Тогда границы интервала совпадут с квантилями:
, .
В таблице П 5 Приложения приведены значения в зависимости от доверительной вероятности и числа степеней свободы . Можно также использовать функцию ХИ2ОБР пакета прикладных программ EXCEL.
Таким образом, получаем
.
Подставив в полученное неравенство значения , , , и разрешив это неравенство относительно , получим доверительный интервал для неизвестной дисперсии нормально распределенной случайной величины с неизвестным математическим ожиданием и заданным уровнем значимости :
.
Следует отметить, что если математическое ожидание генеральной совокупности известно, то доверительный интервал для дисперсии будет иметь другой вид.
Длина доверительного интервала характеризует точность оценивания и зависит от объема выборки и доверительной вероятности . Чем меньше длина доверительного интервала, тем надежнее оценка. При увеличении объема выборки длина доверительного интервала уменьшается.
Решение. Пункт 9 части 1 Задания.
Требуется построить доверительный интервал для неизвестной дисперсии нормально распределенной генеральной совокупности с параметрами и для уровней значимости , и .
Для построения доверительного интервала для неизвестной дисперсии нормально распределенной генеральной совокупности используется статистика , имеющая распределение сстепенями свободы: .
Вычислим этот интервал для различных уровней значимости.
: , , .
Так как в таблице П 5 Приложения нет числа степеней свободы , то для вычисления можно воспользоваться следующим методом:
Статистическая функция ХИ2ОБР пакета EXCEL дает следующие значения квантилей распределения хи- квадрат:
, .
Следует иметь в виду, что в функции ХИ2ОБР вычисляются «антиквантили» . Чтобы получить значение квантили , нужно ввести обратную вероятность .
В дальнейших расчетах используются значения квантилей, вычисленные в EXCEL:
Выражая из неравенства неизвестный параметр , получим доверительный интервал для дисперсии для уровня значимости :
4,154<<6,6445
Таким образом, неизвестная дисперсия с вероятностью .
Аналогично найдем доверительные интервалы для дисперсии для уровней значимости и .
: , , ,
, ,
Выражая из неравенства неизвестный параметр , получим доверительный интервал для дисперсии для уровня значимости :
4,0816<<6,9784
Таким образом, неизвестная дисперсия с вероятностью .
: , , ,
, ,
Выражая из неравенства неизвестный параметр , получим доверительный интервал для дисперсии для уровня значимости :
3,6832<<7,6982
Таким образом, неизвестная дисперсия с вероятностью .
Заметим, что полученные ранее выборочное среднее , и выборочная дисперсия =2,273897 попадают во все найденные доверительные интервалы соответственно, причем, чем меньше уровень значимости , то есть больше вероятность , тем больше длина соответствующего доверительного интервала.
– Конец работы –
Используемые теги: Расчетно-графическая, работа, высшей, математике0.052
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Расчетно-графическая работа по высшей математике
Если этот материал оказался полезным для Вас, Вы можете сохранить его на свою страничку в социальных сетях:
Твитнуть |
Новости и инфо для студентов