АНАЛИЗ ЗАВИСИМОСТИ СМЕРТНОСТИ В СУБЪЕКТАХ РФ ОТ НЕКОТОРЫХ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ФАКТОРОВ
Ниже приведен текстовый отчет о решении. Закачка решения в Excel начнется автоматически через 10 секунд.
Введение
В Российской Федерации большое внимание уделяется проблеме общественного здоровья, что связано с неблагоприятной демографической ситуацией в стране: естественной убылью, депопуляцией, постарением населения страны. Смертность населения в трудоспособном возрасте считается одной из наиболее важных медикодемографических и социально-экономических проблем нашего государства.
Этим и обусловлена актуальность выбранной темы
Задачами корреляционно-регрессионного анализа являются обоснование взаимосвязи факторов, влияющих на результативный показатель, а также определение степени влияния каждого фактора на этот показатель.
Для достижения цели необходимо поставить следующие задачи:
· выявить от каких показателей зависит количество зарегистрированных смертей на 1000 человек населения;
· определить факторные и результативный признаки для определения корреляционной связи;
· найти парные коэффициенты корреляции, определить их значимость, проверить на мультиколлинеарность;
· сделать выводы о степени взаимосвязи между количеством зарегистрированных смертей на 1000 человек населения и каждым фактором в отдельности, а также между количеством зарегистрированных смертей на 1000 человек населения и всеми факторами вместе.
· выявить основные факторы, которые влияют на количество зарегистрированных смертей на 1000 человек населения;
· провести отбор факторов и определить методы моделирования;
· применяя метод пошагового отбора построить модели множественной регрессии и определить наиболее значимую из них;
· проинтерпретировать результаты для окончательной модели, и определить влияние значимых факторов на результат.
· проанализировать качество полученной модели и сделать выводы о пригодности для прогнозирования.
Предметом исследования является выявление взаимосвязи между количеством зарегистрированных смертей на 1000 человек населения и другими показателями, а также построение значимой регрессионной модели, пригодной для прогнозирования.
Объект исследования показатели трех федеральных округов РФ – Центрального, Северо-Западного и Южного.
Предварительный анализ данных
Данные взяты по Центральному ФО, Северо-Западному и Южному ФО РФ за 2020 год
Для исследования были выбраны следующие показатели
· Количество зарегистрированных смертей на 1000 человек населения (результативный признак);
· Среднедушевые денежные доходы населения, руб.) (факторный признак х1);
· Средний размер назначенных пенсий, руб. (факторный признак х2);
· Численность врачей на 10 000 человек населения (факторный признак х3);
· Число больничных организаций (факторный признак х4).
Источник: https://rosstat.gov.ru/folder/210/document/12994
Таблица 1 – Исходные данные
Регион |
Количество зарегистрированных смертей на 1000 человек населения |
Среднедушевые денежные доходы населения, руб. |
Средний размер назначенных пенсий, руб. |
Численность врачей на 10 000 человек населения |
Число больничных организаций |
Y |
X1 |
X2 |
X3 |
X4 |
|
Белгородская область |
15,1 |
32 841 |
15 549 |
40,4 |
42 |
Брянская область |
16,4 |
25 596 |
12 713 |
40,5 |
49 |
Владимирская область |
17,6 |
25 922 |
13 555 |
36,5 |
58 |
Воронежская область |
14,0 |
41 078 |
14 670 |
52,3 |
76 |
Ивановская область |
17,1 |
23 277 |
12 024 |
45,4 |
49 |
Калужская область |
16,6 |
20 442 |
11 642 |
43,1 |
28 |
Костромская область |
16,2 |
25 780 |
13 998 |
36,9 |
42 |
Курская область |
16,6 |
22 786 |
14 488 |
52,7 |
54 |
Липецкая область |
17,2 |
32 226 |
10 060 |
41,2 |
44 |
Московская область |
14,1 |
35 046 |
24 805 |
46,5 |
152 |
Орловская область |
17,1 |
21 843 |
15 240 |
45,2 |
37 |
Рязанская область |
17,3 |
27 312 |
15 098 |
54 |
43 |
Смоленская область |
16,4 |
28 152 |
14 839 |
51 |
48 |
Тамбовская область |
17,2 |
27 889 |
14 137 |
42,4 |
43 |
Тверская область |
17,8 |
21 681 |
15 353 |
45,9 |
71 |
Тульская область |
18,0 |
21 385 |
15 558 |
39,9 |
51 |
Ярославская область |
16,5 |
29 514 |
16 064 |
55,2 |
46 |
Республика Карелия |
15,6 |
32 583 |
19 336 |
52,9 |
32 |
Республика Коми |
12,9 |
46 677 |
29 879 |
51 |
47 |
Архангельская область |
14,0 |
36 779 |
19 760 |
54,9 |
60 |
Вологодская область |
14,9 |
29 522 |
16 377 |
36,1 |
51 |
Калининградская область |
12,4 |
46 518 |
14 974 |
46,6 |
47 |
Ленинградская область |
14,5 |
43 149 |
16 210 |
37,1 |
48 |
Мурманская область |
13,0 |
47 355 |
21 097 |
51,1 |
38 |
Новгородская область |
17,4 |
26 268 |
15 583 |
42,5 |
34 |
Псковская область |
18,0 |
26 436 |
14 961 |
32,4 |
31 |
Республика Адыгея |
12,4 |
30 293 |
15 838 |
39,4 |
20 |
Республика Калмыкия |
10,7 |
39 811 |
13 269 |
49,9 |
23 |
Республика Крым |
15,3 |
22 950 |
13 981 |
45,5 |
49 |
Краснодарский край |
13,5 |
40 838 |
14 627 |
45,2 |
150 |
Астраханская область |
13,2 |
25 199 |
13 970 |
62,1 |
34 |
Волгоградская область |
15,3 |
24 864 |
14 902 |
45,7 |
85 |
Ростовская область |
14,9 |
31 427 |
14 397 |
38,7 |
129 |
г. Севастополь |
13,2 |
29 957 |
15 203 |
44,6 |
10 |
2.Расчет коэффициентов корреляции
Построим корреляционную матрицу, используя функцию «Данные» «Анализ данных» «Корреляция» табличного процессора MS Excel.
Рис.1.Корреляционная матрица
Проводим анализ коэффициентов корреляции результативного признака с факторными.
– связь прямая и высокая;
– связь обратная и умеренная;
– обратная и умеренная;
– связь практически отсутствует.
Из корреляционной матрицы видно, что показателей межфакторной связи между факторами, которые превышают 0,6, нет, следовательно, между признаками мультиколлинеарность отсутствует. Но так как у факторного признака Х4 с результативным связи практически нет, а с другими факторными признаками есть, то удаляем его из модели.
Построение эконометрической модели методом пошагового исключения переменных
1.Построим уравнение множественной регрессии с оставшимися тремя факторами с помощью надстройки «Анализ данных» ППП MS Excel. Результаты приведены в Приложении 1.
Уравнение множественной регрессии с факторами Х1, Х3, Х4 имеет вид:
Проанализируем показатели качества данной модели.
Из протокола регрессионного анализа получены значения коэффициента множественной корреляции и коэффициента детерминации.
Коэффициент корреляции – . Следовательно, связь результативного – признака количество зарегистрированных смертей с факторными высокая
Коэффициент детерминации . Следовательно, 55,37% вариации количества зарегистрированных смертей объясняется вариацией изменения факторов Х1, Х2, Х3, остальные 44,63% вариацией других признаков, не включенных в модель.
Проверим адекватность модели при заданном уровне значимости.
Значимость уравнения проверим с помощью критерия Фишера: .Табличное значение при уровне значимости 5% и степенях свободы ; равно:
Так как наблюдаемое значение критерия Фишера больше табличного, уравнение признается значимым.
Проверим значимость коэффициентов уравнения при заданном уровне значимости.
Для начала вычислим табличное значение t-статистики при уровне значимости 5% и количестве степеней свободы 30: .
Находим t-статистики для параметров уравнения. Параметр признается значимым, если значение его t-статистики больше табличного. Анализ параметров приведен в таблице 2.
Уравнение содержит незначимые параметры. Наименьшая t-статистика у коэффициента , следовательно, переменную Х3 следует удалить из модели. В дальнейшем такое удаление необходимо проводить до тех пор, пока в модели не останутся только значимые параметры.
Таблица 2 – Анализ значимости параметров уравнения регрессии с тремя факторами
Параметр |
Значимость |
|||||
β0 |
12,9312 |
> |
2,0423 |
Значим |
|
|
β1 |
5,0234 |
> |
2,0423 |
Значим |
|
|
β2 |
0,4198 |
< |
2,0423 |
Не значим |
|
|
β3 |
1,5143 |
< |
2,0423 |
Не значим |
|
|
2.Построим уравнение множественной регрессии с двумя факторами. Результаты приведены в Приложении 2.
Из таблицы видно, что уравнение множественной регрессии с пятью факторами имеет вид:
Проанализируем показатели качества данной модели.
Из протокола регрессионного анализа получены значения коэффициента множественной корреляции и коэффициента детерминации.
Коэффициент корреляции – . Следовательно, связь результативного – признака количество зарегистрированных смертей с факторными высокая
Коэффициент детерминации . Следовательно, 55,11% вариации количества зарегистрированных смертей объясняется вариацией изменения факторов Х1, Х3, остальные 44,89% вариацией других признаков, не включенных в модель.
Проверим адекватность модели при заданном уровне значимости.
Значимость уравнения проверим с помощью критерия Фишера:
Табличное значение при уровне значимости 5% и степенях свободы ; равно:
Так как наблюдаемое значение критерия Фишера больше табличного, уравнение признается значимым.
Проверим значимость коэффициентов уравнения при заданном уровне значимости.
Для начала вычислим табличное значение t-статистики при уровне значимости 5% и количестве степеней свободы 31: .
Находим t-статистики для параметров уравнения. Параметр признается значимым, если значение его t-статистики больше табличного. Анализ параметров приведен в таблице 3.
Таблица 3 – Анализ значимости параметров уравнения регрессии с двумя факторами
Параметр |
Значимость |
|||||
β0 |
13,4398 |
> |
2,0395 |
Значим |
|
|
β1 |
5,5997 |
> |
2,0395 |
Значим |
|
|
β3 |
1,4794 |
< |
2,0395 |
Не значим |
|
|
Уравнение содержит один незначимый параметр. Его t-статистика у коэффициента , следовательно, переменную Х3 следует удалить из модели.
Построим уравнение парной регрессии . Результаты приведены в Приложении 3.
Уравнение парной регрессии имеет вид:
Проанализируем показатели качества данной модели.
Из протокола регрессионного анализа получены значения коэффициента корреляции и коэффициента детерминации.
Коэффициент корреляции – . Следовательно, связь результативного – признака (количество зарегистрированных смертей) с факторным (число больничных организаций) высокая
Коэффициент детерминации . Следовательно, 51,94% вариации количества зарегистрированных смертей объясняется вариацией изменения фактора Х1, остальные 48,06% вариацией других признаков, не включенных в модель.
Проверим адекватность модели при заданном уровне значимости.
Значимость уравнения проверим с помощью критерия Фишера: .Табличное значение при уровне значимости 5% и степенях свободы ; равно:
Так как наблюдаемое значение критерия Фишера больше табличного, уравнение признается значимым.
Проверим значимость коэффициентов уравнения при заданном уровне значимости.
Для начала вычислим табличное значение t-статистики при уровне значимости 5% и количестве степеней свободы 31: .
Находим t-статистики для параметров уравнения. Параметр признается значимым, если значение его t-статистики больше табличного. Анализ параметров приведен в таблице 4.
Таблица 4 – Анализ значимости параметров уравнения парной регрессии
Параметр |
Значимость |
|||
β0 |
21,7973 |
> |
2,0369 |
Значим |
β1 |
5,8808 |
> |
2,0369 |
Значим |
Уравнение не содержит незначимых параметров. Среднедушевые денежные доходы значимо влияют на количество зарегистрированных смертей.
Таким образом окончательная регрессионная модель имеет вид:
Экономическая интерпретация: при увеличении среднедушевых доходов населения на 10000 руб. количество зарегистрированных смертей снизилось на 1,77 случаев на 1000 человек
Проверим качество модели с помощью средней ошибки аппроксимации. Строим вспомогательную таблицу (таблица 5).
Таблица 5 – Вспомогательные расчеты для определения средней ошибки аппроксимации
№ |
Y |
е |
|e|/Y |
1 |
15,1 |
0,11721213 |
0,00776 |
2 |
16,4 |
0,1319603 |
0,00805 |
3 |
17,6 |
1,3897922 |
0,07897 |
4 |
14,0 |
0,47844322 |
0,03417 |
5 |
17,1 |
0,42057328 |
0,02459 |
6 |
16,6 |
-0,5823513 |
0,03508 |
7 |
16,2 |
-0,0353984 |
0,00219 |
8 |
16,6 |
-0,1665294 |
0,01003 |
9 |
17,2 |
2,10811207 |
0,12256 |
10 |
14,1 |
-0,4916243 |
0,03487 |
11 |
17,1 |
0,16618389 |
0,00972 |
12 |
17,3 |
1,33637605 |
0,07725 |
13 |
16,4 |
0,58539076 |
0,03569 |
14 |
17,2 |
1,33873496 |
0,07783 |
15 |
17,8 |
0,83744534 |
0,04705 |
16 |
18,0 |
0,9849354 |
0,05472 |
17 |
16,5 |
0,92700746 |
0,05618 |
18 |
15,6 |
0,57144332 |
0,03663 |
19 |
12,9 |
0,37169719 |
0,02881 |
20 |
14,0 |
-0,2841927 |
0,0203 |
21 |
14,9 |
-0,6715734 |
0,04507 |
22 |
12,4 |
-0,1565092 |
0,01262 |
23 |
14,5 |
1,34583543 |
0,09282 |
24 |
13,0 |
0,59197334 |
0,04554 |
25 |
17,4 |
1,25117206 |
0,07191 |
26 |
18,0 |
1,88097501 |
0,1045 |
27 |
12,4 |
-3,0347991 |
0,24474 |
28 |
10,7 |
-3,0463206 |
0,2847 |
29 |
15,3 |
-1,437436 |
0,09395 |
30 |
13,5 |
-0,0641324 |
0,00475 |
31 |
13,2 |
-3,1384669 |
0,23776 |
32 |
15,3 |
-1,0978954 |
0,07176 |
33 |
14,9 |
-0,3336293 |
0,02239 |
34 |
13,2 |
-2,294405 |
0,17382 |
Сумма |
2,30879 |
||
Среднее |
0,06791 |
Средняя ошибка аппроксимация будет:
Значение данного показателя не превышает 7%, следовательно, качество модели хорошее, и его можно использовать для прогнозирования.
Заключение
В процессе данного исследования был проведен корреляционно-регрессионный анализ показателей трех субъектов РФ (Центральный, Северо-Западный и Южный ФО), влияющих на смертность населения. Целью такого анализа было выявление взаимосвязи между показателями и выбор факторов для построения адекватной регрессионной модели.
Для исследования были выбраны данные Росстата (ссылка ttps://rosstat.gov.ru/folder/210/document/12994).
Первоначально была оценена и взаимосвязь между показателями. С этой целью была построена корреляционная матрица. Между факторами мультиколлинеарность обнаружена не была. Однако, встал вопрос об исключении одной переменной из модели, так как между ней и результативным фактором отсутствовала связь.
В дальней в процессе реализации метода пошагового исключения переменных пришлось удалить еще несколько признаков.
В результате применения данного метода оказалось, что значимо влияет на результат только 1 фактор – среднедушевые доходы населения. Между ними и смертностью обратная связь – при увеличении среднедушевых доходов населения на 10000 руб. количество зарегистрированных смертей снизилось на 1,77 случаев на 1000 человек.
Окончательное уравнение парной регрессии Y(X1) имеет вид:
Список литературы
1. Айвазян, С. А. Эконометрика / С.А. Айвазян, С.С. Иванова. – М.: Маркет ДС, 2017. – 104 c.
2. Андрианов В. Инфляция: основные виды и методы регулирования // Экономист. – 2015. – № 6. – С. 18–22.
3. Атамазова А.А., Баташева Э.А. Современная безработица в России в условиях нестабильности // Молодой ученый. – 2016. – №1. – С. 298–300.
4. Артамонов, Н. В. Введение в эконометрику / Н.В. Артамонов. – М.: МЦНМО, 2016. – 224 c.
5. Афанасьев, В. Н. Эконометрика / В.Н. Афанасьев, М.М. Юзбашев, Т.И. Гуляева. – М.: Финансы и статистика, 2017. – 256 c.
6. Вербик, Марно Путеводитель по современной эконометрике / Марно Вербик. – М.: Научная книга, 2016. – 616 c.
7. Герасимов, Е.И. Громов. – М.: Феникс, 2016. – 336 c.
8. Колемаев, В. А. Эконометрика / В.А. Колемаев. – М.: ИНФРА–М, 2016. – 160 c.
9. Математика для экономистов. От Арифметики до Эконометрики / Н.Ш. Кремер и др. – М.: Юрайт, 2017. – 688 c.
10. Теория статистики с элементами эконометрики. Учебник. – М.: Юрайт, 2015. – 672 c.
11. Тихомиров, Н. Методы эконометрики и многомерного статистического анализа / Н. Тихомиров. – М.: Экономика, 2017. – 989 c.
12. Эконометрика / Под редакцией В.Б. Уткина. – М.: Дашков и Ко, 2017. – 562 c.
13. Яновский, Л. П. Введение в эконометрику / Л.П. Яновский, А.Г. Буховец. – М.: КноРус, 2017. – 256 c.
Приложение
Приложение 1
Протокол регрессионного анализа модели с переменными Х1, Х2, Х3.
Регрессионная статистика |
|||||
Множественный R |
0,74412561 |
||||
R-квадрат |
0,55372293 |
||||
Нормированный R-квадрат |
0,50909522 |
||||
Стандартная ошибка |
1,35343401 |
||||
Наблюдения |
34 |
||||
Дисперсионный анализ |
|||||
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
3 |
68,18413818 |
22,72804606 |
12,4076041 |
1,89E-05 |
Остаток |
30 |
54,95350887 |
1,831783629 |
||
Итого |
33 |
123,1376471 |
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
|
Y-пересечение |
22,7735185 |
1,761133768 |
12,93116906 |
8,4315E-14 |
19,1768 |
X1 |
-0,00017614 |
3,50636E-05 |
-5,023366912 |
2,1809E-05 |
-0,00025 |
X2 |
3,2056E-05 |
7,63533E-05 |
0,419836636 |
0,67759641 |
-0,00012 |
X3 |
-0,05517964 |
0,036438485 |
-1,514323241 |
0,14040962 |
-0,1296 |
Приложение 2
Протокол регрессионного анализа модели с переменными Х1, Х3.
Регрессионная статистика |
||||||
Множественный R |
0,742361676 |
|
||||
R-квадрат |
0,551100857 |
|
||||
Нормированный R-квадрат |
0,522139622 |
|
||||
Стандартная ошибка |
1,335331108 |
|
||||
Наблюдения |
34 |
|
||||
|
||||||
Дисперсионный анализ |
||||||
|
df |
SS |
MS |
F |
Значимость F |
|
Регрессия |
2 |
67,86126 |
33,93063 |
19,0289142 |
4,06E-06 |
|
Остаток |
31 |
55,27638 |
1,783109 |
|
||
Итого |
33 |
123,1376 |
|
|
|
|
|
||||||
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
|
Y-пересечение |
22,91585966 |
1,705076 |
13,43979 |
1,7974E-14 |
19,43834 |
|
X1 |
-0,000168932 |
3,02E-05 |
-5,59972 |
3,8479E-06 |
-0,00023 |
|
X3 |
-0,05209461 |
0,035213 |
-1,47943 |
0,14911537 |
-0,12391 |
|
Приложение 3
Протокол регрессионного анализа модели парной регрессии с переменной Х1
Регрессионная статистика |
|||||
Множественный R |
0,720698781 |
||||
R-квадрат |
0,519406733 |
||||
Нормированный R-квадрат |
0,504388194 |
||||
Стандартная ошибка |
1,359907213 |
||||
Наблюдения |
34 |
||||
Дисперсионный анализ |
|||||
df |
SS |
MS |
F |
Значимость F |
|
Регрессия |
1 |
63,95852 |
63,95852 |
34,58437 |
1,53E-06 |
Остаток |
32 |
59,17912 |
1,849348 |
||
Итого |
33 |
123,1376 |
|||
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
|
Y-пересечение |
20,80873062 |
0,954648 |
21,79729 |
9,12E-21 |
18,86418 |
X1 |
-0,000177398 |
3,02E-05 |
-5,88085 |
1,53E-06 |
-0,00024 |
Имя файла: 5064116.xlsx
Размер файла: 35.29 Kb
Если закачивание файла не начнется через 10 сек, кликните по этой ссылке