Формулы полученных статистических характеристик:
Valid N — объем выборки (число единиц в совокупности).
Показатели центра:
• Mean — средняя арифметическая:
, (3.2.)
где - значение признака у i-й единицы совокупности;
n – объем совокупности (Valid N).
• Geometric mean — геометрическая средняя:
. (3.3.)
• Median — медиана:
, если n — четное, (3.4.)
, если n — нечетное. (3.5.)
• Mode —мода (Мо ) определяется непосредственно по исходным данным.
Frequency – частота модального значения.
Показатели рассеяния:
• Variance — дисперсия:
, (3.6.)
где - средняя арифметическая.
• Standard deviation — среднее квадратическое (стандартное) отклонение:
. (3.7.)
Standard (Standard error) — средняя (стандартная) ошибка выборки:
. (3.8.)
Minimum — минимальное значение признака в совокупности: Xmin .
Maximum — максимальное значение признака в совокупности: Xmax.
Range — размах вариации: R = Xmax – Xmin. (3.9.)
Lower (Lower quartile) — нижний (первый) квартиль:
, (3.10.)
, ,
где floor — округление до ближайшего целого;
ceiling — округление до ближайшего большего.
Upper (Upper quartile) — верхний (третий) квартиль:
,
, .
• Quartile (Interquartile range) — межквартильный размах: Q3 – Q1.
Показатели формы распределения:
• Skewness — асимметрия:
. (3.11.)
• Std.err. (Standardized skewness) — стандартизованная асимметрия:
• Kurtosis — коэффициент эксцесса (куртозис):
. (3.12.)
• Std.err. (Standardized kurtosis) — стандартизованный куртозис.
Коэффициент вариации (принято рассчитывать в процентах):
. (3.13)
На основе этого показателя делается вывод об однородности или неоднородности совокупности по изучаемому признаку.
Вычисляем: = 48,2(%). Т.к. коэффициент вариации > 12%, совокупность нельзя считать однородной.
3.3. Сглаживание эмпирического распределения,
проверка гипотезы о законе распределения
Построение модели эмпирического распределения, т.е. сглаживание его тем или иным теоретическим распределением, реализуется в меню Statistics/Distribution Fitting.
В качестве теоретической модели, возможно, использовать разные типы распределений. В окне процедуры они объединены в две группы:
• Continuous Distributions – непрерывные распределения;
• Discrete – дискретные распределения.
Сначала вводим переменную (кнопка Variable = Var2), в подменю Distribution можно выбираем закон распределения. На закладке Quick находятся кнопки Summary: Observed and expected distribution (пересчет наблюдаемого и ожидаемого распределения) (кнопка Summary в правом углу меню аналогична) и Plot of observed and expected distribution (построение наблюдаемого и ожидаемого распределения). Первая означает вывод расчетной таблицы теоретических и эмпирических частот с расчетом выбранных критериев согласия. Вторая кнопка обеспечивает вывод гистограммы эмпирического распределения с наложением на нее кривой теоретического распределения.
В закладке Options задаем расчет критерия согласия Пирсона Chi-square test/Combine categories: ставим метку на поле Chi-square test/Combine categories.
Chi-square test — позволяет решать задачу проверки гипотезы о законе распределения, результат оценки представляется в табличном виде. Расчет критерия производится по следующей формуле:
, (3.14.)
где fi - эмпирические абсолютные частоты (Observed Frequency);
fi’-абсолютные частоты теоретического распределения (Expected Frequency);
к – число интервалов.
Результаты сглаживания:
Рис. 3.5. Проверка гипотезы о нормальном распределении переменной Var2
Рис. 3.6. Проверка гипотезы о прямоугольном распределении
переменной Var2
1,200 руб.
Введение 2
1. Постановка задачи 3
2. Ввод данных 6
3. Анализ эмпирического распределения 8
3.1. Графическое и табличное представление вариационного ряда распределения 9
3.2. Расчет основных характеристик вариационного ряда 16
3.3. Сглаживание эмпирического распределения, проверка гипотезы о законе распределения 19
4. Выборочное наблюдение 23
4.1. Определение объема выборки 23
Формирование выборочной совокупности 23
4.2. Статистическая обработка результатов выборочного наблюдения 24
4.3. Проверка статистических гипотез о значении генеральной средней и о равенстве двух генеральных средних 26
4.4. Графическое представление результатов выборочного наблюдения 29
Заключение 30
Список использованных источников 31
Введение
Статистические ряды распределения являются одним из наиболее важных элементов статистического анализа данных. Они представляют собой составную часть метода статистических сводок и группировок, ни одно из статистических исследований невозможно провести, не представив первоначально полученную в результате статистического наблюдения информацию в виде статистических рядов распределения/
Статистические данные оформляются с помощью рядов распределения в таблицы, в результате чего информация представляется в наглядном, рационально изложенном виде, удобном для использования и дальнейшего исследования; строятся различного рода графики для наиболее наглядного восприятия и анализа информации. На основе статистических рядов распределения вычисляются основные величины статистических исследований: коэффициенты; абсолютные, относительные, средние величины и т.д., с помощью которых можно проводить статистический анализ изучаемых процессов и явлений [3].
Статистические ряды распределения характеризуют состав наблюдаемой совокупности, позволяют судить о ее однородности, структуре, закономерностях распределения, позволяют осуществить прогнозирование изучаемых процессов и явлений.
Таким образом, статистические ряды распределения являются базисным методом для любого статистического анализа.
Статистический ряд может быть представлен в виде таблицы, в одной графе которой указываются варианты или интервалы, а в другой – соответствующие им частоты.
Первым этапом изучения вариационного ряда является его графическое изображение. Дискретный вариационный ряд изоб¬ражается в виде так называемого полигона распределения частот, являющегося разновидностью статистиче¬ских ломаных. Для изображения интервального ряда применяют¬ся полигон распределения частот и гистограмма частот.
Средняя величина – это обобщающий показатель, характеризующий типический уровень явления. В качестве структурных средних чаще всего используют показатели моды – наиболее часто повторяющегося значения признака – и медианы – величины признака, которая делит упорядоченную последовательность его значений на две равные по численности части. В итоге у одной половины единиц совокупности значение признака не превышает медианного уровня, а у другой – не меньше его.
Конкретные условия, в которых находится каждый из изучаемых объектов, а также особенности их собственного развития (социальные, экономические и пр.) выражаются соответствующими числовыми уровнями статистических показателей. Таким образом, вариация, т.е. несовпадение уровней одного и того же показателя у разных объектов, имеет объективный характер и помогает познать сущность изучаемого явления.
Для измерения вариации в статистике применяют несколько способов. Наиболее простым является расчет показателя размаха вариации R как разницы между максимальным (Xmax) и минимальным (Xmin) наблюдаемыми значениями признака. Более строгими характеристиками являются показатели колеблемости относительно среднего уровня признака. Дисперсия признака определяется на основе квадратической степенной средней. Показатель, равный , называется средним квадратическим отклонением.
1. Постановка задачи
Целью данной работы является статистический анализ данных, содержащих сведения о вводе в действие жилых домов на 1000 человек населения в 2003 году. Данные размещены на официальном сайте Государственной службы статистики [6]. Требуется охарактеризовать состав наблюдаемой совокупности, сделать вывод о ее однородности, структуре, закономерностях распределения, используя различные методы статистического анализа данных.
Табл. 1.1
Ввод в действие жилых домов на 1000 человек населения в 2003 году
(квадратных метров общей площади)
Российская Федерация 252
Центральный федеральный округ 351
Белгородская область 444
Брянская область 162
Владимирская область 185
Воронежская область 317
Ивановская область 105
Калужская область 210
Костромская область 144
Курская область 226
Липецкая область 288
Московская область 622
Орловская область 280
Рязанская область 217
Смоленская область 250
Тамбовская область 222
Тверская область 201
Тульская область 135
Ярославская область 158
г. Москва 428
Северо-Западный федеральный округ 234
Республика Карелия 117
Республика Коми 158
Архангельская область 71
в том числе Ненецкий автономный
округ 227
Вологодская область 196
Калининградская область 244
Ленинградская область 267
Мурманская область 15
Новгородская область 159
Псковская область 151
г. Санкт-Петербург 379
Южный федеральный округ 231
Республика Адыгея 130
Республика Дагестан 201
Республика Ингушетия (1990 г. -
включая Чеченскую Республику) 42
Кабардино-Балкарская Республика 238
Республика Калмыкия 172
Карачаево-Черкесская Республика 156
Республика Северная Осетия -
Алания 192
Чеченская Республика (1990 г. -
включая Республику Ингушетия) -
Краснодарский край 309
Ставропольский край 232
Астраханская область 580
Волгоградская область 153
Ростовская область 229
Приволжский федеральный округ 245
Республика Башкортостан 358
Республика Марий Эл 203
Республика Мордовия 174
Республика Татарстан 414
Удмуртская Республика 201
Чувашская Республика 415
Пермский край 148
Кировская область 108
Нижегородская область 165
Оренбургская область 240
Пензенская область 163
Самарская область 263
Саратовская область 179
Ульяновская область 133
Уральский федеральный округ 228
Курганская область 101
Свердловская область 174
Тюменская область 363
в том числе:
Ханты-Мансийский автономный
округ - Югра 403
Ямало-Ненецкий автономный
округ 249
Челябинская область 206
Сибирский федеральный округ 164
Республика Алтай 113
Республика Бурятия 188
Республика Тыва 65
Республика Хакасия 183
Алтайский край 162
Красноярский край 195
в том числе:
Таймырский (Долгано-
Ненецкий) автономный округ 175
Эвенкийский автономный округ 420
Иркутская область 84
в том числе Усть-Ордынский
Бурятский автономный округ 22
Кемеровская область 178
Новосибирская область 211
Омская область 154
Томская область 226
Читинская область 89
в том числе Агинский Бурятский
автономный округ 128
Дальневосточный федеральный округ 122
Республика Саха (Якутия) 276
Приморский край 105
Хабаровский край 98
Амурская область 116
Камчатская область 35
в том числе Корякский
автономный округ -
Магаданская область 39
Сахалинская область 79
Еврейская автономная область 55
Чукотский автономный округ 373
2. Ввод данных
Поскольку это одномерный массив данных, число переменных (признаков) равно единице, число наблюдений – 77. Города Москва и С-Петербург исключены как очевидные выбросы, по Корякскому автономному округу и по Чеченской республике данных нет. В целях обеспечения однородности выборки убираем из рассмотрения регионы, входящие в более крупные административные образования (например, Таймырский автономный округ, входящий в Красноярский край). Исходные данные помещены в рабочую книгу с именем Workbook3.stw, под именем Var1.
Создаем рабочую книгу и вводим данные:
Рис. 2.1 Ввод данных
Копируем данные в MS Excel и редактируем таблицу, чтобы она лучше читалась:
Табл. 2.1
Номер региона Ввод в действие жилых домов на 1000 человек населения в 2003 году Номер региона Ввод в действие жилых домов на 1000 человек населения в 2003 году Номер региона Ввод в действие жилых домов на 1000 человек населения в 2003 году Номер региона Ввод в действие жилых домов на 1000 человек населения в 2003 году
1 444 21 196 41 174 61 162
2 162 22 244 42 414 62 195
3 185 23 267 43 201 63 84
4 317 24 15 44 415 64 178
5 105 25 159 45 148 65 211
6 210 26 151 46 108 66 154
7 144 27 130 47 165 67 226
8 226 28 201 48 240 68 89
9 288 29 42 49 163 69 276
10 622 30 238 50 263 70 105
11 280 31 172 51 179 71 98
12 217 32 156 52 133 72 116
13 250 33 192 53 101 73 35
14 222 34 309 54 174 74 39
15 201 35 232 55 363 75 79
16 135 36 580 56 206 76 55
17 158 37 153 57 113 77 373
18 117 38 229 58 188
19 158 39 358 59 65
20 71 40 203 60 183
3. Анализ эмпирического распределения
Анализ распределений направлен на выявление закономерности изменения частот в зависимости от значений варьирующего признака и анализ различных характеристик изучаемого распределения. Прежде, чем приступить к вычислению специальных статистических показателей, необходимо из исходной совокупности исключить единицы, не подчиняющиеся общей закономерности распределения, так называемые выбросы. Выбросы – это значения признака, резко отличающиеся как в большую, так и в меньшую сторону, от значений признака у основной части единиц совокупности.
Для локализации и устранения выбросов необходимо, прежде всего, ранжировать исходные данные. Учитывая то, что для дальнейшей работы могут понадобиться исходные данные в первоначальном виде, ранжированию можно подвергнуть их специально созданную резервную копию.
1,200 руб.