рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

ТЕМА №10

ТЕМА №10 - раздел Математика, ТЕОРІЯ ЙМОВІРНОСТЕЙ ТА МАТЕМАТИЧНА СТАТИСТИКА   1. Функціональна, Статистична Та Кореляційна (Регресі...

 

1. Функціональна, статистична та кореляційна (регресійна) залежності.

2. Проста лінійна регресія. Основні положення.

3. Оцінка щільності зв’язку між змінними. Коефіцієнт кореляції.

4. Адекватність моделі. Прогнозування.

Поняття статистичної та кореляційної залежності

Нагадаємо, що функціональна залежність характеризується відповідністю кожному значенню однієї змінної (аргумента) цілком певного, єдиного значення іншої змінної (функції).

Означення. Статистичною залежністюміж двома змінними називається залежність, при якій кожному можливому значенню однієї змінної відповідає закон розподілу іншої змінної.

Означення. Кореляційною (регресійною)називають залежність, при якій кожному можливому значенню однієї змінної відповідає середнє (умовне середнє) значення іншої змінної (знайдене по закону розподілу або отримане шляхом спостережень). Кореляція – взаємозв’язок, регресія – вплив.

Розглянемо наступний приклад:

Залежність між випуском продукції У (тон) протягом доби та величиною основних виробничих фондів (ОВФ)Х(млн.грн.) для сукупності 50 однотипних підприємств наведена в таблиці :

 

У Х 27- 31- 35- 39- 43-
-31 -35 -39 -43
40-45      
45-50    
50-55    
55-60  
60-65      

Необхідно:

А) побудувати точкову діаграму статистичної залежності (кореляційне поле); визначити аргументи (регресори), які впливають на функцію-регресант;

Б) побудувати моделі регресійної залежності. Оцінити щільність кореляційного зв’язку;

В) використати моделі для економічного аналізу та прогнозування.

Спочатку «дискретизуємо» ВВ Х та У. Для цього кожен інтервал зміни ВВ замінимо на середнє значення (див. додаток ). Задано двохвимірну статистичну сукупність – кореляційну таблицю, графічне зображення якої – кореляційна хмара дозволяє зробити припущення про наявність залежності між змінними. Із економічної постановки задачі слідує, що незалежною змінною (регресором) є ОВФ – Х, яка впливає на регресант (залежну змінну) - випуск У. За даними таблиці побудовано кореляційну (регресійну)залежність та її графік – емпіричну лінію регресії. Вигляд цієї ламаної теж дозволяє припускати лінійну залежність між змінними.

 

Проста вибіркова лінійна регресія

 

Прості лінійні регресійні моделі встановлюють лінійну залежність між двома змінними, наприклад витратами на відпустку та складом родини; витратами на рекламу та обсягом реалізованої продукції; витратами на споживання та валовим національним продуктом (ВНП); зміною обсягу реалізованої продукції залежно від часу тощо.

При цьому одна із змінних вважається залежною ( - ендогенна або результативна змінна, регресант) та розглядається як функція від незалежної змінної ( - екзогенна або факторна змінна, регресор).

У загальному вигляді проста вибіркова регресійна модель запишеться так:

,

де

- вектор спостережень за залежною змінною; ;

- вектор спостережень за незалежною змінною; ;

- невідомі параметри регресійної моделі;

- вектор випадкових величин (помилок); .

Регресійна модель називається лінійною, якщо вона лінійна за своїми параметрами. Її ще можна трактувати як пряму на площині, де - перетин з віссю ординат, а - нахил (звичайно, якщо абстрагуватись від випадкової величини ).

 

Оцінка параметрів лінійної регресії за допомогою

методу найменших квадратів ( МНК )

 

Щоб мати явний вигляд залежності, необхідно знайти (оцінити) невідомі параметри цієї моделі. Тобто, потрібно за певним критерієм вибрати із множини можливих прямих «найкращу» з точки зору даного критерію. Найпоширенішим є критерій найменших квадратів, який полягає у мінімізації суми квадратів відхилень (помилок, залишків) .

За цим критерієм:

.

 

Визначимо значення , які мінімізують суму квадратів відхилень, із необхідних умов екстремуму функції двох змінних (неважко переконатись у виконанні достатніх умов мінімуму для цієї стаціонарної точки). Як відомо, це умови рівності нулю усіх частинних похідних:

Після нескладних перетворень звідси дістаємо систему лінійних алгебраїчних рівнянь (так звану нормальну систему):

Розв’язок нормальної системи відносно нахилу дає

.

Поділивши чисельник і знаменник на , отримуємо

,

де - середні значення, - коефіцієнт коваріації, - дисперсія.

Враховуючи, що сума відхилень дорівнює нулю ( ), а також знайдене значення , дістаємо значення іншого параметра :

.

У нашому прикладі (див.Додаток ) система нормальних рівнянь розв’язана матричним методом.

 

Властивості простої вибіркової лінійної регресії

1) Регресійна пряма проходить через середню точку (це аналогічно тому, що сума помилок дорівнює нулю).

2) Залишки мають нульову коваріацію як зі спотережуваними значеннями , так і з оціненими значеннями .

3) Сума квадратів залишків є функцією від кута нахилу .

Коефіцієнт кореляції

Після знаходження оцінок невідомих параметрів регресійної моделі оцінимо щільність зв’язку між величинами, тобто потрібно відповісти на запитання, наскільки значним є вплив незалежної змінної (фактора, регресора) на залежну змінну (результат, регресант) . Найпростішим критерієм, який дає кількісну оцінку зв’язку між двома показниками, є коефіцієнт кореляції:

,

де - коефіцієнт коваріації між та ; - дисперсії змінних.

Як видно із виразу, коефіцієнт кореляції, на відміну від коефіцієнта коваріації, є вже не абсолютною, а відносною мірою зв’язку між двома факторами. Тому значення коефіцієнта кореляції розташовані між -1 та +1 (). Позитивне значення коефіцієнта кореляції свідчить про прямий зв’язок між факторами, а негативне – про зворотний зв’язок. Коли коефіцієнт кореляції прямує за абсолютною величиною до 1, це свідчить про наявність сильного зв’язку ( - щільність зв’язку велика), коли коефіцієнт кореляції прямує до нуля (), то зв’язок дуже слабкий. У нашому прикладі щільність прямого зв’язку між факторами велика, оскільки коефіцієнт кореляції близький до одиниці.

 

Декомпозиція дисперсій. Коефіцієнт детермінації

Поряд із коефіцієнтом кореляції використовується ще один критерій, за допомогою якого також вимірюється щільність зв’язку між двома або більше показниками та перевіряється адекватність (відповідність) побудованої регресійної моделі реальній дійсності (фактичним даним). Тобто дається відповідь на запитання, на скільки зміна значень лінійно залежить від зміни значень , а не відбувається під впливом різних випадкових факторів, не врахованих у моделі. Таким критерієм є коефіцієнт детермінації.

Спочатку розглянемо питання про декомпозицію дисперсій (так зване «правило складання дисперсій»), яке є одним із центральних у статистиці.

Розглянемо на рисункі, як розбиваються на дві частини відхилення фактичних (емпіричних) значень залежної змінної від значень, які знаходяться на регресійній прямій (теоретичних або розрахункових ):

 

Як видно із рисунка: . Звідси дістаємо

 

. (*)

 

В статистиці різницю прийнято називати загальним відхиленням. Різницю називають відхиленням, яке можна пояснити, виходячи із регресійної прямої. Різницю називають відхиленням, яке не можна пояснити, виходячи з регресійної прямої, або непояснюваним відхиленням. Піднесемо обидві частини (*) до квадрату і підсумуємо по . Враховуючи, що сума похибок дорівнює нулю, дістанемо:

 

, (**)

де - загальна сума квадратів, яку прийнято позначати SST (sum square total); - сума квадратів, що пояснює регресію та позначається SSR (sum square regression); - сума квадратів помилок, яка позначається SSE (sum square error). Таким чином, (**) у скороченому вигляді може бути записана як

SST=SSR+SSE.

Поділивши обидві частини (*) на , отримаємо так зване «правило складання дисперсій»:

, (***)

де - загальна дисперсія, яка позначена ;

- дисперсія, що пояснює регресію, позначається ;

- дисперсія помилок, яка позначена .

Таким чином, ми розклали загальну дисперсію на дві частини: дисперсію, що пояснює регресію, та дисперсію помилок (або дисперсію випадкової величини).

Поділимо обидві частини (***) на і отримаємо:

.

Як видно, перше відношення у правій частині є пропорцією дисперсії, що пояснює регресію, у загальній дисперсії. Друге відношення є пропорцією дисперсії помилок у загальній дисперсії, тобто є частиною дисперсії, яку не можна пояснити через регресійний зв’язок.

Частина дисперсії, що пояснює регресію, називається коефіцієнтом детермінації і позначається . Коефіцієнт детермінації використовується як критерій адекватності моделі, оскільки є мірою пояснювальної сили незалежної змінної . Коефіцієнт детермінації можна записати в одному із двох еквівалентних виразів:

або .

Очевидно, що .

Враховуючи, що коефіцієнт кореляції , неважко встановити наступний зв’язок між коефіцієнтами детермінації та кореляції (для лінійної регресії):

.

 

 

Поняття про ступені вільності.

Повернемося до тотожності, яка зв’язує суми квадратів:

SST=SSR+SSE.

Кожна сума квадратів пов’язана з числом, яке називають її «ступенем вільності». Це число показує, скільки незалежних елементів інформації, що утворилися із спостережуваних елементів , потрібно для розрахунку даної суми квадратів.

У статистиці кількістю ступенів вільності певної величини називають різницю між кількістю різних дослідів та кількістю параметрів, встановлених у результаті цих дослідів, незалежно один від одного.

Розглянемо, скільки ступенів вільності має кожна сума квадратів.

Загальна сума квадратів SST утворюється із використанням незалежних чисел, тому що із чиселнезалежні тільки враховуючи властивість .

Суму квадратів, що пояснює регресію (SSR), отримують, використовуючи тільки одну незалежну одиницю інформації, яка утворюється із, а саме (для випадку багатофакторної регресії матимемо іншу ситуацію).Звідси SSR має один ступінь вільності. Звернемо увагу на те, що кількість ступенів вільності співпадає із кількістю незалежних змінних, що входять до регресійної моделі.

Сума квадратів помилок (SSE) має ступені вільності.Ця сума базується на кількості ступенів вільності, яка дорівнює різниці між кількістю спостережень та кількістю параметрів, що оцінюються.

Ступені вільності прийнято позначати , або , або .

У разі простої лінійної регресії ступені вільності можна розкласти як суми квадратів:

 

.

 

Перевірка простої регресійної моделі на адекватність.

Поняття F-критерію Фішера.

Ми показали, що адекватність простої лінійної регресії можна перевірити за допомогою коефіцієнта детермінації. Якщо його значення близьке до одиниці, то модель адекватна. Якщо його значення близьке до нуля, то модель неадекватна. Проблема оцінки адекватності виникає, коли коефіцієнт детермінації набуває «проміжних значень», напр. 0,3; 0,5; 0,7 тощо. У таких випадках важко зробити однозначний висновок щодо адекватності моделі, тому потрібен відповідний критерій. Найпоширенішим із таких критеріїв є критерій Фішера. До правої частини простої лінійної регресійної моделі

входить випадкова величина , тому величини будуть також випадковими, як і будь-які функції від них.

В теорії імовірностей розглядається величина

де mean square regression - середня сума квадратів, що пояснює регресію (тобто сума квадратів, поділена на відповідний ступень вільності), mean square error- середня сума помилок. Як відомо ця величина має функцію розподілу Фішера із та ступенями вільності, за умови, що нахил лінійної моделі дорівнює нулю. На цьому базується -критерій Фішера, процес застосування якого можна поділити на наступні етапи:

1) Розраховуємо величину -відношення

.

2) Задаємо рівень значимості (значущості) (або ). Наприклад, якщо ми вважаємо, що можлива для нас помилка становить (або 5%), це означає, що ми можемо помилитись не більше, ніж у 5% випадків, а в 95% випадків наші висновки будуть правильними.

3) За статистичними таблицями -розподілу Фішера з ступенями вільності і рівнем значимості (або ) обчислюємо критичне значення .

4) Якщо розраховне значення , то ми відкидаємо нульову (базову) гіпотезу, що нахил нульовий з ризиком помилитися не більше ніж у 5% випадків. Іншими словами у цьому випадку побудована нами модель адекватна реальній дійсності. У супротивному випадку () модель неадекватна.

Розглянемо застосування критерію Фішера у нашому прикладі (див.Додаток ). Висновок: із 95% надійністю побудована модель адекватна вибірковим даним.

 

– Конец работы –

Эта тема принадлежит разделу:

ТЕОРІЯ ЙМОВІРНОСТЕЙ ТА МАТЕМАТИЧНА СТАТИСТИКА

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ... ОДЕСЬКИЙ ДЕРЖАВНИЙ ЕКОНОМІЧНИЙ УНІВЕРСИТЕТ... В М МАЦКУЛ...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: ТЕМА №10

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Одеса 2010
  УДК 519.2 ББК 22.17я73 М 36     Рецензенти:   С.В.Левинський –кандидат фізико-мат

Переставлення (перестановки).
  Нехай потрібно підрахувати число способів, за якими можна розмістити в ряд

Приклади.
Властивості: 1.Для довільної події

Приклади.
Геометричне означення імовірності. Означення. Імовірність події

Приклади.
Статистичне означення імовірності. Означення.Нехай проводиться

ТеМА №2
1. Події залежні та незалежні. 2. Умовна імовірність. 3. Теорема добутку та наслідки з неї. 4. Теорема додаванн

ТЕМА №4
1. Незалежні повторні випробування (НПВ). 2. Формула Бернуллі. 3. Біноміальний закон розподілу (закон Бернуллі).

ТЕМА №5
1. Інтегральна функція розподілу та її властивості. 2. Диференціальна функція розподілу та її властивості. 3. Числові характеристики непе

Центральна гранична теорема.
4. Інтегральна теорема Муавра-Лапласа та її частинні випадки.   Група теорем, які встановлюють відповідність між теоретичними та експериментальними характери

Система випадкових величин.
2. Закон розподілу двохвимірної ДВВ. 3. Функції розподілу двохвимірної ВВ. Залежність та незалежність ВВ. 4. Числові характеристики двохв

ТЕМА №8
1. Предмет математичної статистики. Статистичні сукупності (генеральна та вибіркова). 2. Способи відбору. Проста випадкова вибірка. Впорядкування даних та їх розпо

Приклади.
  Часто необхідно знати закон розподілу ознаки у генеральній сукупності. Наприклад, є підстави вважати, що він має вигляд А. Тоді висувають гіпотезу (припущення): генеральна с

Прогнозування.
Після побудови моделі (теоретичної регресійної залежності) та перевірки її адекватності можна виконувати прогнозування. При цьому отримуємо точкові та інтервальні прогнози. Точковий прогноз дає оці

ТЕМА №11
1. Множинний регресійний аналіз. Багатофакторна лінійна регресія. 2. Кореляційна матриця та її вибіркова оцінка. 3. Оцінка взаємозв’язку

Теорема добутку.
ЗАДАЧІ ДЛЯ РОЗВ’ЯЗУВАННЯ В АУДИТОРІЇ. Приклад 1.1. Дана множина

Теореми добутку (продовження) та суми.
2. Повна імовірність. 3. Формула Байєса. ЗАДАЧІ ДЛЯ РОЗВ’ЯЗУВАННЯ В АУДИТОРІЇ.   Приклад 2.1. Два

ПРАКТИЧНЕ ЗАНЯТТЯ №3
1. Дискретні випадкові величини (ДВВ), їх закони розподілу. 2. Операції над ДВВ. 3. Числові характеристики ДВВ та їх властивості.

Локальна формула Лапласа, формула Пуассона.
15. Закон Пуассона (закон рідкісних подій). ЗАДАЧІ ДЛЯ РОЗВ’ЯЗУВАННЯ В АУДИТОРІЇ. Приклад 4.1. В середньому 30% пакетів акцій продаються н

ПРАКТИЧНЕ ЗАНЯТТЯ №5
1. Функція розподілу імовірностей (інтегральна функція) та її властивості. 2. Щільність розподілу імовірностей (диференціальна функція) та її властивості.

Центральна гранична теорема.
4. Інтегральна теорема Муавра-Лапласа та її частинні випадки. ЗАДАЧІ ДЛЯ РОЗВ’ЯЗУВАННЯ В АУДИТОРІЇ   Приклад 6.1. Середня кі

Система випадкових величин.
2. Закон розподілу двохвимірної ДВВ. 3. Функції розподілу двохвимірної ВВ. Залежність та незалежність ВВ. 4. Числові характеристики двохв

ПРАКТИЧНЕ ЗАНЯТТЯ №8
1. Статистичні сукупності (генеральна та вибіркова), ознаки та їх розподіли. Числові характеристики статистичних розподілів. 2. Точкові та інтервальні оцінк

ПРАКТИЧНЕ ЗАНЯТТЯ №9
1. Статистичні гіпотези. Похибки перевірки гіпотез. 2. Критерії узгодження для перевірки гіпотез. Критична область та її знаходження. 3.

ПРАКТИЧНЕ ЗАНЯТТЯ №10
5. Функціональна, статистична та кореляційна (регресійна) залежності. 6. Проста лінійна регресія. Основні положення. 7. Оцінка щільності

ПРАКТИЧНЕ ЗАНЯТТЯ №11
1. Багатофакторна регресія. Основні положення. Особливості (відмінності від однофакторної). 2. Оцінка взаємозв’язку між змінними. Матриця коефіцієнтів парної корел

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги