Видеоурок по построению модели множественной регрессии для пространственных данных в программе STATISTICA

Ниже приведены условия задач и отчет  в формате doc. Закачка полного решения(документы  stw, sta, spf,doc и xlsx в архиве zip) начнется автоматически через 10 секунд. Если закачка не началась, кликните по этой ссылке. 

Видеурок по решению этих задач  -  внизу страницы.  

Построение модели  множественной регрессии для пространственных данных. 

 

Названия и описания переменных приведены в таблице 1.

Таблица 1

Имя переменной

Описание

raion

Район расположения квартиры

komnat NKomnat

Число комнат(в том числе не смежных)

Var3

Адрес

Cena

Цена

PlOb

Общая площадь

PlochadZ

Площадь жилая

PlochadKukh

Площадь кухни

Etaz

Этаж расположения квартиры/число этажей

Type

Тип дома

GodPostr

Год постройки

 

Для выбранных данных необходимо построить  модель зависимости стоимости жилья от ряда факторов, число и состав которых определяется студентом самостоятельно.

Обязательным является проверка качества построенной модели, заключающаяся в следующем:

-                  Проверка значимости коэффициентов регрессии;

-                  Проверка общего качества уравнения регрессии;

-                  Проверка остатков модели на наличие гетероскедастичности и автокорреляции;

-                  Проверка соответствия остатков нормальному распределению.

Решение.

Используем пакет Statistica, модуль Множественная регрессия.

В качестве зависимой переменной Cena выберем стоимость квартиры, в качестве независимых переменных возьмем: переменная PlOb  – общая площадь; NKomnat число комнат.

Вызовем модуль Множественная регрессия. (Команда Статистика®Множественная регрессия). Выберем переменные (кнопка (Variables). Зависимая (Dependent) – Cena; независимые (Independent) –  PlOb, NKomnat.

Нажмем кнопку ОК в правом углу стартовой панели.

Появится окно результатов множественной регрессии.

Результаты множественной регрессии в численном виде представлены в табл. 1.2. и 1.3.

Таблица 1.2.

 

Таблица 1.3.

 

В первом столбце таблицы 1.2. даны значения коэффициентов beta — стандартизованные коэффициенты регрессионного уравнения, во втором — стандартные ошибки beta, в третьем – В – точечные оценки параметров модели.

Далее, стандартные ошибки для коэффициентов модели В, значения статистик t-критерия и т.д.

Из таблицы 1.2. мы видим, что оцененная модель имеет вид:

Cena = 1067.4  + 1328.77∙ PlOB – 5152.78∙N_Kom       (1.1)  

В верхней части таблицы 1.2. и в таблице 1.3. (а также в информационном окне) приведены следующие данные:

Коэффициент множественной корреляции Multiple R = 0,886;

Коэффициент детерминации R-square = 0,784;

Скорректированный на поте­рю степеней свободы коэффициент множественной детерминации Adjusted R2 = 0,7839;

Критерий Фишера F = 1495;

Уровень значимости модели р < 0,000;

Стандартная ошибка оценки Std. Error of estimate = 13136.

Проанализируем данные множественной регрессии.

Р-значения  t-статистики для всех коэффициентов уравнения меньше 0,05, что говорит о значимости переменных. Для константы р-значение = 0,4, что больше 0,05, следовательно, константа не значима

Уравнение (1.1) выражает зависимость стоимости квартиры Cena от общей площади PlOb, числа комнат Nkomnat. Коэффициенты уравнения показывают количественное воздействие каждого фактора на результативный показатель при неизменности других.

Множественный коэффициент корреляции построенной модели  (Multiple R) R = 0,886 высок, что говорит о сильной связи между исследуемыми факторами.

Коэффициент детерминации (R Square) R2 = 0,784,    это говорит о том, что 78.4% вариации переменной Cena объясняется вариацией переменных PlOb и Nkomnat, а на 21.6% приходятся на долю других неучтенных факторов.

Расчетное значение критерия Фишера F = 1495/ Уровень значимости p = 0,000 показывает, что построенная регрессия значима при 0,000% уровне значимости.

Исследуем степень корреляционной зависимости между переменными. Для этого построим корреляционную матрицу. Чтобы корреляционная матрица была построена при множественной регрессии, нужно установить флажок в строке Review descriptive statistics, correlations matrix в окне Multiple Regressions.

Далее

 

Корреляционная матрица приведена в таблице 1.4.

Таблица 1.4.

 

Из корреляционной матрицы видно, что наибольшее значение коэффициента корреляции наблюдается между переменными Cena и PlOb. Коэффициент корреляции между объясняющими переменными общая площадь и число комнат составляет 0,68229, что может свидетельствовать о мультиколлинеарности.

Проведем анализ остатков от регрессии.

Остатки представляют собой разности между наблюдаемыми значениями и модельными, то есть значениями, подсчитанными по модели с оцененными параметрами.

Проверим остатки на  наличие автокорреляции. Для этого вычислим статистику Дарбина-Уотсона (Darbin-Watson Stat).

Результаты вычисления статистики Дарбина-Уотсона приведены в табл. 1.5.

Таблица 1.5.

 

Из табл. 1.5 определяем наблюдаемое значение критерия Дарбина-Уотсона:

DW = 1,4739.

По таблице приложения 4 [1] определяем значащие точки dL и dU для 5% уровня значимости.

Для m = 2 и n = 80 dL = 1,586; dU = 1,688.

Так как   DW< dL (1,4739 < 1,586), то мы можем утверждать, что в модели присутствует автокорреляция остатков.

Для проверки наличия гетероскедастичности воспользуемся тестом Уайта.

Стоим модель регрессии между квадратами остатков модели и квадратами значений объясняющих переменных:

Е2  =a + b1 PlOb + b11 PlOb 2 + b2 N_Kom  + b22 N_Kom 2  + b12 PlOb N_Kom

 

Результаты множественной регрессии в численном виде представлены в табл. 1.6. и табл. 1.7.

Таблица 1.6.

Таблица 1.7.

 

P-значение меньше, 0,05, отвергаем нулевую гипотезу, в модели присутствует гетероскедастичность.

Проверим соответствие остатков нормальному распределению, для этого строим гистограмму остатков.

Рис. 1.1. Гистограмма остатков.

 

Проверим гипотезу о соответствии фактического распределения нормальному на 5% уровне значимости. Выдвинем нулевую и альтернативную гипотезы:

 Н0: фактическое распределение соответствует нормальному;

 На: фактическое распределение не соответствует нормальному.

Для проверки гипотезы будем использовать критерий D Колмогорова-Смирнова.

Статистический вывод можно сделать, сравнив фактическую значимость и теоретическую, если фактическая значимость меньше теоретической, то принимается альтернативная гипотеза, иначе – нулевая.

Если в автоматическом порядке фактическая значимость не была определена или, как в данном примере в качестве критического выбран меньший уровень значимости, то нужно найти табличное значение критерия:

Объем выборки

0,05

n=1

0,975

2

0,842

20

0,294

25

0,27

30

0,24

35

0,23

Свыше 35

Для нашей численности выборки получим:

, т.е.  (0,1538)  превышает  (0,047), не принимается нулевая гипотеза, т.е. распределение не соответствует нормальному.

Напомним, что если сравниваются фактическое и критическое значение критериев, а не их значимость, в случае если фактическое значение больше критического, то принимается альтернативная гипотеза, если меньше, то нулевая.

Видеоурок по решению этой задачи в программе Statistica:

 

Скачать решение:

Имя файла: statistica1.rar

Размер файла: 357.78 Kb

Если закачивание файла не начнется через 10 сек, кликните по этой ссылке