Видеоурок - проверка нормальности распределения случайной величины в программе Statistica

Ниже приведены условия задач и отчет  в формате doc. Закачка полного решения(документы  stw, sta, spf,doc и xlsx в архиве zip) начнется автоматически через 10 секунд. Если закачка не началась, кликните по этой ссылке. 

Видеурок по решению этих задач  - внизу страницы.  

1 Оценка однородности совокупности. Тесты на соответствие фактических распределений нормальному закону распределения

в STATISTICA

 

 

Для получения первого представления о том, как варьирует признак в изучаемой совокупности и каково распределение единиц, используют ряды распределения. Если признак имеет непрерывную вариацию (нет частых повторений одних и тех же значений), то строят интервальные ряды распределения: совокупность сортируется по возрастанию изучаемого признака, затем определяются число групп, границы интервалов, производится подсчет единиц (частот) в каждом интервале. График, построенный по данным интервального ряда распределения, называется гистограммой.

Условие. Имеются данные о стоимости валовой продукции сельского хозяйства в расчете на 100 га сельскохозяйственных угодий (тыс. руб.) по сельскохозяйственным организациям одного из регионов РФ, представленные в EXCEL.

Требуется построить и проанализировать гистограмму распределения сельскохозяйственных организаций по этому признаку, проверить гипотезу о соответствии фактического распределения нормальному, рассчитать описательные статистики.

Методические указания. Одним из условий использования многих эконометрических методов является требование нормального распределения признака, поэтому построение гистограммы распределения численности работников представляет для нас интерес.

Откроем пакет STATISTICA:

Откроем файл с исходными данными: FileOpen, после того как выберете файл, появится окно:

Нужно выбрать вторую кнопку. Во вновь появившемся окне выбрать лист с Вашим вариантом и поставить «галочку» «Import cell formatting», чтобы сохранился формат написания названий переменных:

Получим таблицу с данными (границы строк (столбцов) можно раздвинуть):

Чтобы построить ранжированный ряд нужно выбрать в главном меню «Data» пункт «Sort»:

Выберем признак для сортировки:

Совокупность будет отсортирована по выбранному признаку, после нажатия кнопки «ОК».

Поскольку построение гистограммы с равными интервалами возможно только в случае плавного изменения признака в ранжированном ряду, оценим наглядно изменение признака, для чего построим огиву (график ранжированного ряда распределения). Выберем в меню «Graphs» пункт «Line»:

 

Далее выберем переменную, нажав на зеленую стрелку и из списка в новом окне – «Стоимость валовой продукции…»:

После нажатия кнопки «ОК» получен график:

Рисунок 1 – Огива Гальтона

Лишние подписи сверху удалены, рисунок нужно подписать, графики следует копировать (выбрать из контекстного меню, выводимого правой кнопкой мыши «Copy Graph»).

Признак меняется плавно, без резких скачков (хотя углы наклона и меняются в начале и в конце), минимальное и максимальное значения не являются экстремально выделяющимися, поэтому построим гистограмму с равными интервалами. В меню «Graphs» выберем пункт «Histograms»:

 

Затем выберем переменную, определим число интервалов как корень из числа наблюдений: (число интервалов (групп) – целое) и поставим это число в разделе «Intervals» в пункте «Categories». Тип подгонки (Fit type) оставим по умолчанию «Normal» (подгонка под нормальное распределение):

На вкладке «Advanced», предусмотрим вывод статистики Колмогорова-Смирнова для проверки соответствия фактического распределения нормальному:

 

После нажатия «ОК» получим гистограмму с наложенной кривой нормального распределения.

 

Чтобы уменьшить точность значений по оси Х, вызовем контекстное меню путем нажатия правой клавиши мыши и выберем пункт «Graph Options…»:

 

Затем выберем из перечня слева «Axis»: «Scale Values» и поменяем формат (Value format) на числовой (Number), в разделе «Decimal places» поставим единицу (для получения лишь одного знака после запятой).

Удалим лишние подписи графика сверху, заменим подпись оси ординат, чтобы было видно значение статистики Колмогорова-Смирнова, нужно два раза щелкнуть на надписи:

В появившемся окне нужно нажать кнопку «Disconnect object(s) from graph»:

И удалим лишнюю информацию, оставим только статистические критерии:

 

Окончательный вид графика приведен на рисунке 2.

Рисунок 2 – Гистограмма интервального ряда распределения

Проверим гипотезу о соответствии фактического распределения нормальному на 5% уровне значимости. Выдвинем нулевую и альтернативную гипотезы:

 Н0: фактическое распределение соответствует нормальному;

 На: фактическое распределение не соответствует нормальному.

Для проверки гипотезы будем использовать критерий D Колмогорова-Смирнова.

Статистический вывод можно сделать, сравнив фактическую значимость и теоретическую, если фактическая значимость меньше теоретической, то принимается альтернативная гипотеза, иначе – нулевая.

Если в автоматическом порядке фактическая значимость не была определена или, как в данном примере в качестве критического выбран меньший уровень значимости, то нужно найти табличное значение критерия:

Объем выборки

0,05

n=1

0,975

2

0,842

20

0,294

25

0,27

30

0,24

35

0,23

Свыше 35

Для нашей численности выборки получим:

, т.е.  (0,0892) не превышает  (0,2177), принимается нулевая гипотеза, т.е. распределение соответствует нормальному.

Напомним, что если сравниваются фактическое и критическое значение критериев, а не их значимость, в случае если фактическое значение больше критического, то принимается альтернативная гипотеза, если меньше, то нулевая.

Гипотезу о соответствии фактического распределения нормальному можно проверить с использованием критерия χ2, которыq в отличие от критерия Колмогорова-Смирнова, является параметрическим и обладает большей мощностью. В главном меню нужно выбрать «Statistics», а затем «Distribution Fitting»:

 

В появившемся окне все оставить без изменений и нажать «ОК»:

Далее нужно выбрать переменную, на вкладке «Parametres» указать число интервалов (у нас 6), минимальное и максимальное значение в ранжированном ряду (см. таблицу с данными) и нажать «Summary»:

 

 

В появившейся таблице изменим точность представления данных, для этого нужно выделить числовой массив, зайти в главном меню в «Format» и выбрать кнопку  :

 

Чтобы скопировать таблицу, нужно ее выделить, выбрать «Копировать с заголовками (Copy with Headers)» в контекстном меню, выпадающем после нажатия правой кнопки мыши:

 

Тест имеет ограничение по частотам интервалов: не менее 5, иначе происходит укрупнение групп, что в свою очередь ведет к сокращению числа степеней свободы, в отдельных случаях – невозможности применения критерия, поэтому не всегда пакет STATISTICA выдает результат по критерию χ2. ­ Информацию о фактическом значении критерия, числе степеней свободы и уровне значимости из таблицы следует убрать (таблица 1).

Таблица 1 – Фактические (Observed) и ожидаемыми (Expected) частоты

Upper
Boundary

Variable: Стоимость валовой продукции сельского хозяйства в расчете на 100 га сельскохозяйственных угодий, тыс. руб., Distribution: Normal (Вар 31) Chi-Square = 0,70060, df = 1 (adjusted) , p = 0,40258

Observed
Frequency

Cumulative
Observed

Percent
Observed

Cumul. %
Observed

Expected
Frequency

Cumulative
Expected

Percent
Expected

Cumul. %
Expected

Observed-
Expected

<= 2750,00000

2

2

5,12821

5,1282

2,23320

2,23320

5,72615

5,7262

-0,23320

4000,00000

7

9

17,94872

23,0769

6,84486

9,07806

17,55093

23,2771

0,15514

5250,00000

14

23

35,89744

58,9744

12,26414

21,34220

31,44651

54,7236

1,73586

6500,00000

9

32

23,07692

82,0513

11,15480

32,49701

28,60206

83,3257

-2,15480

7750,00000

4

36

10,25641

92,3077

5,14892

37,64592

13,20235

96,5280

-1,14892

< Infinity

3

39

7,69231

100,0000

1,35408

39,00000

3,47199

100,0000

1,64592

 

В выводимой таблице укрупнение групп не показывается, но его можно заметить по числу степеней свободы: без укрупнения оно было бы равно 3 (6 интервала минус три фиксированных параметра для закона нормального распределения). Границы интервалов получены такие же, как и в гистограмме на рисунке 2.

Фактическое значение критерия можно получить и на графике, чтобы его построить нужно вернуться в диалоговое окно, нажав кнопку, как правило, в нижнем левом углу:

А  затем выбрать «Plot observed and expected distribution» на вкладке «Quick»:

 

Получим гистограмму (рисунок 3), аналогичную той, которая представлена на рисунке 2.

Рисунок 3 – Результаты теста χ2

Фактическое значение критерия-χ2 равно 2.79, его фактическая значимость p=0.42258 больше теоретической (0,05), т.е. принимается нулевая гипотеза о соответствии фактического распределения нормальному. Критерий- χ2 дал тот же результат по сравнению с критерием Колмогорова-Смирнова.

Рассчитаем описательные статистики, для этого в главном меню выберем «Basic Statistics»:

А далее «Descriptive statistics»:

На вкладке «Advanced» выберем описательные статистики: среднее значение (Mean), медиану (Median), среднее квадратическое отклонение (Standard Deviation), коэффициент вариации (Coefficient of variation), коэффициент асимметрии (Skewness) и коэффициент эксцесса (Kurtosis):

 

Полученные описательные статистики представлены в таблице 2.

 

 

 

Таблица 2 – Описательные статистики


Variable

Descriptive Statistics (Вар 31)

Mean

Median

Minimum

Maximum

Std.Dev.

Coef.Var.

Kurtosis

Стоимость валовой продукции сельского хозяйства в расчете на 100 га сельскохозяйственных угодий, тыс. руб.

5075,147

4791,463

2307,776

8218,415

1473,304

29,02978

-0,302178

 

Среднее значение и медиана отличаются незначительно, показатель асимметрии несколько больше 0, что говорит о небольшой правосторонней скошенности (для нормального распределения коэффициент асимметрии равен 0, положительная величина свидетельствует о правосторонней скошенности – растянутый правый рукав, отрицательная – о левосторонней скошенности), отрицательная величина коэффициента эксцесса  свидетельствует о плосковершинном распределении, но отличие от нормального распределения тоже выглядит несущественным: для нормального распределения коэффициент эксцесса равен 0, положительная величина говорит об островершинном распределении, отрицательная – о плосковершинном. Коэффициент вариации, равный 29% также свидетельствует о средней интенсивности вариации и достаточной однородности совокупности (для нормального распределения равен 33%, по его величине судят об интенсивности вариации).

 

 

 

Скачать решение:

Имя файла: normal_distribution.rar

Размер файла: 1056.6 Kb

Если закачивание файла не начнется через 10 сек, кликните по этой ссылке