4.1. Определение объема выборки
Формирование выборочной совокупности
Первым этапом подготовки выборочного наблюдения является расчет объема выборки. Расчет проводится по следующей формуле:
n = (4.1)
где N – объем генеральной совокупности;
t – параметр нормального распределения; находится по таблицам интегральной функции нормального распределения в соответствии с заданным уровнем доверительной вероятности;
σ – среднее квадратическое отклонение в генеральной совокупности (значение показателя берется из первой лабораторной роботы);
Δ – предельная ошибка выборки; устанавливает точность результатов выборочного наблюдения.
Для ά = 0,05 t =1,96. σ2 = 81,11. Возьмем Δ=35.
Получаем:
n = = 20.
Для формирования случайной бесповторной выборки необходимо воспользоваться в меню Data (данные) процедурой Subset/Random Sampling (подмножество/случайный выбор). Используем поле Simple random sampling. Ставим метку в поле With replacement, что означает «выбор с возвращением». По этому алгоритму формируем 5 малых выборок (объемом 19) и одну большую (объемом 40). Полученные выборки переносим в рабочую книгу, для чего воспользуемся кнопкой Add to Workbook и выберем нужную рабочую книгу Workbook3.
Рис. 4.1 Исходные данные и выборки
4.2. Статистическая обработка результатов выборочного наблюдения
Для обработки выборочных данных используем меню Statistics и в нем процедуру Basic Statistics/Tables. Далее выбираем t-test, single sample, что означает расчет t-критерия отдельно для каждой выборки. Кнопкой Variables для выбора переменной выбираем сразу все переменные, соответствующие сформированным выборкам. В меню Reference values задаем значение генеральной средней (186,77), относительно которой проверяется гипотеза. Ставим метку на поле Test all means against (проверка гипотезы о генеральной средней по данным всех выборок осуществляется с учетом одного и того же числа). Переходим к закладке Advanced. В поле p-level for highlighting (заданный уровень значимости) устанавливается принятый при проверке гипотезы уровень значимости критерия. В нашем примере он равен 0,05 ( ), т.к. доверительная вероятность равна 0.95 (Р=0.95).
Результаты обработки:
Рис. 4.2 Результаты t-критерия
В первом столбце (Variable) представлены имена переменных (выборок).
Mean – значения выборочных средних.
Std. Dev. – значения среднего квадратического (стандартного) отклонения.
N – объем выборки.
Std.Err. – средняя ошибка выборки.
Reference – гипотетическое значение генеральной средней величины (в нашем примере это значение известно из первой работы).
t-value – расчетное значение t-критерия для проверки гипотезы о значении генеральной средней.
df – число степеней свободы (определяется как N – 1).
p – расчетный уровень значимости t-критерия.
Таким образом, по данным каждой выборки рассчитаны: среднее значение анализируемого показателя, стандартное отклонение и величина средней ошибки выборки. Эти результаты позволяют, с учетом заданной доверительной вероятности (в примере 95%), определить границы доверительных интервалов для генеральной средней (графы: Confidence -95,000% и Confidence +95,000%.). Доверительный интервал для неизвестной генеральной средней определяется:
.
где — генеральная средняя;
— выборочная средняя;
— предельная ошибка выборки.
Предельная ошибка выборки вычисляется по формуле:
, (4.2.)
где t – параметр нормального распределения (для малых выборок – распределения Стьюдента);
- средняя ошибка выборки, определяемая как:
, (4.3.)
где n – объем выборки;
- выборочная дисперсия.
Для выборки 1, например, рассчитанный доверительный интервал –
или
что означает: с вероятностью 95% можно утверждать, что в среднем по России показатель ввода в действие жилых домов на 1000 человек населения в 2003г. находился в указанных пределах. Минимальная величина средней ошибки выборки соответствует 4-й выборке и доверительный интервал по результатам этой выборки:
или
4.3. Проверка статистических гипотез о значении генеральной средней и о равенстве двух генеральных средних
Проверяем гипотезу H0: Mean = 43,84 для всех 6 выборок, где 43 – точное значение генеральной средней (берется из первой расчетной работы). Гипотеза проверяется с помощью t-критерия, который рассчитывается по следующей формуле:
. (4.4.)
Расчетное значение критерия сравнивается с табличным, и если соблюдается неравенство:
,
то гипотеза о значении генеральной средней принимается. В ППП STATISTICA предусмотрена удобная сервисная функция: если испытуемая гипотеза отвергается, то результаты расчета t-критерия высвечиваются в таблице красным цветом.
Вывод о результатах проверки гипотезы можно сделать также через сопоставление расчетного уровня значимости (P) с принятым исследователем (обычно задается = 0.05). Гипотеза принимается при условии, что P> .
В нашем случае для всех выборок p>0,05, значит, гипотеза H0: Mean = 43 принимается для всех выборок.
Теперь проверим статистическую гипотезу о равенстве двух средних:
.
В нашем случае содержательно гипотеза формулируется следующим образом: взяты выборки из одной или из разных генеральных совокупностей?
Возьмем 2 выборки из ранее полученных, для которых: Max. Это выборки 1 и 3. Вычисления проводятся с помощью программы меню Statistics/ Basic Statistics/Tables, процедура t-test, independent, by variables (t-критерий для двух независимых выборок). Одновременно вводим две выборки с помощью кнопки Variables (groups). На закладка Options. задаем уровень значимости (p-level for highlighting) = 0,05. Ставим метку в поле t-test with separate variance estimate.
Результаты (транспонированные):
Рис. 4.3. Результаты расчета t-критерия
при условии равных дисперсий.
В полученной таблице рассчитаны следующие показатели:
Mean - выборочные средние
j = 1,2 , (4.5.)
где Хij — i – й элемент j – ой выборки ( i = 1,…,n , j = 1,2)
t-value – t-критерий, необходимый для оценки существенности разности двух средних
, (4.6.)
где — выборочная средняя первой выборки;
— выборочная средняя второй выборки;
— гипотетическая разность между генеральными средними, которая в контексте проверяемой нулевой гипотезы принимается равной 0 ( = 0). Формула принимает вид:
. (4.7.)
df – число степеней свободы, равное
где n1 - объём первой выборки; n2 - объём второй выборки.
P – расчетный уровень значимости t-критерия;
Valid N – объем выборки;
Std.Dev. - среднее квадратическое отклонение:
, j = 1,2. (4.8.)
Среднее квадратическое отклонение двух оцениваемых выборок:
, (4.9.)
где дисперсия первой выборки;
дисперсия второй выборки.
F-ratio – F-критерий (дисперсионное отношение), используемый для оценки существенности различия значений двух дисперсий:
. (4.10.)
р – расчетный уровень значимости F-критерия.
В том случае, если активизируется поле t-test with separate variance estimates, то задача решается в предположении неизвестных и не равных дисперсий. Результаты выводятся по следующей форме (в таблице результатов появляются три новые строчки):
t-separ – расчетное значение t-критерия с учетом различных дисперсий. Очевидно, что в нашем примере оно не изменяется.
df - число степеней свободы t-критерия при условии неравных дисперсий определяется по следующим формулам:
если n1 ≠ n2 df = , (4.11.)
и, если n1 = n2
.
Расчетное значение m округляется до целого значения в силу того, что число степеней свободы есть целое число по определению.
p – расчетный уровень значимости t-критерия при условии неизвестных и неравных дисперсий.
df = , (4.11.)
и, если n1 = n2
.
Расчетное значение m округляется до целого значения в силу того, что число степеней свободы есть целое число по определению.
p – расчетный уровень значимости t-критерия при условии неизвестных и неравных дисперсий.
Рис. 4.5. Результаты расчета t-критерия при условии неравных дисперсий.
Гипотеза принимается, если . В нашем примере .
Табличное значение t-критерия равно (уровень значимости – 0,05, число степеней свободы - 38).
Таким образом, | , следовательно, гипотеза H0 принимается.
Аналогичный вывод можно получить на основе сравнения расчетного и принятого уровней значимости:
.
1,200 руб.
ВВЕДЕНИЕ 2
1. ИСХОДНЫЕ ДАННЫЕ И ЦЕЛЬ ИССЛЕДОВАНИЯ 4
2. ВВОД ДАННЫХ 7
3. АНАЛИЗ ЭМПИРИЧЕСКОГО РАСПРЕДЕЛЕНИЯ 8
3.1. Графическое и табличное представление вариационного ряда распределения 10
3.2. Расчет основных характеристик вариационного ряда 16
3.3. Сглаживание эмпирического распределения, проверка гипотезы о законе распределения 19
4. ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ 24
4.1. Определение объема выборки. Формирование выборочной совокупности 24
4.2. Статистическая обработка результатов выборочного наблюдения 25
4.3. Проверка статистических гипотез о значении генеральной средней и о равенстве двух генеральных средних 27
4.4. Графическое представление результатов выборочного наблюдения 30
ЗАКЛЮЧЕНИЕ 31
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 32
Введение
Составной частью сводной обработки данных статистического наблюдения является построение рядов распределения. Цель его - выявление основных свойств и закономерностей исследуемой статистической совокупности [4].
Статистический ряд распределения представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному признаку. Он характеризует состав (структуру) изучаемого явления, позволяет судить об однородности совокупности, закономерности распределения и границах варьирования единиц совокупности.
В зависимости от того, является ли признак, взятый за основу группировки, качественным или количественным, различают соответственно два типа рядов распределения - атрибутивные и вариационные.
Ряды распределения, построенные по качественным признакам, называют атрибутивными. Примером атрибутивных рядов может служить распределение населения по полу, характеру труда, национальности, профессии и т.д.
Ряды распределения, построенные по количественному признаку, называют вариационными. Примером вариационного ряда может служить распределение населения по возрасту, рабочих - по стажу работы, заработной плате и т.д.
Вариационные ряды распределения состоят из двух элементов: вариантов и частот. Числовые значения количественного признака в вариационном ряду распределения называются вариантами. Они могут быть положительными и отрицательными, абсолютными и относительными. Частоты - это численности отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения .
Сумма всех частот называется объемом совокупности и определяет число элементов все совокупности.
Частости - это частоты, выраженные в виде относительных величин (долях единиц или процентах). Сумма частостей равна единице или 100%. Замена частот частостями позволяет сопоставить вариационные ряды с разным числом наблюдений.
Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные.
Дискретные вариационные ряды основаны на дискретных (прерывных) признаках, имеющих только целые значения (например, число детей в семье, тарифный разряд служащего); на дискретны признаках, представленных в виде интервалов.
Интервальные вариационные ряды основаны на непрерывных признаках (принимающих любые, в том числе и дробные, значения).
При наличии достаточно большого количества вариантов значений признака первичный ряд является трудно обозримым, его непосредственное рассмотрение не даёт представления о распределении единиц по значению признака в совокупности. Поэтому первым шагом в упорядочивании первичного ряда является его ранжирование. Ранжирование - расположение всех вариантов в возрастающем или убывающем порядке.
Для построения дискретного ряда с небольшим числом вариантов выписываются все встречающиеся варианты значений признака, а затем подсчитывается частота повторения варианта. Ряд распределения принято оформлять в виде таблицы, состоящей их двух колонок (или строк), в одной из которых представлены варианты, в другой - частоты. Построение дискретного вариационного ряда не составляет труда.
Для построения ряда распределения непрерывно меняющихся признаков необходимо установить оптимальное число групп (интервалов), на которое следует разбить все единицы изучаемой совокупности.
Первым этапом изучения вариационного ряда является его графическое изображение. Дискретный вариационный ряд изоб¬ражается в виде так называемого полигона распределения частот, являющегося разновидностью статистиче¬ских ломаных. Для изображения интервального ряда применяют¬ся полигон распределения частот и гистограмма частот.
Одна из важнейших целей изучения рядов распределения состоит в том, чтобы выявить закономерность распределения и определить ее характер. Закономерности распределения наиболее отчетливо проявляются только при большом количестве наблюдений.
Фактическое распределение может быть изображено графически с помощью кривой распределения – графически изображается в виде непрерывной линии изменения частот в вариационном ряду функционально связанного с изменением варианта. Под теоретической кривой распределения понимается кривая данного типа распределения в общем виде исключающего влияние случайных для закономерности факторов. Теоретическое распределение может быть выражено аналитической формулой которая называется аналитической формулой. Наиболее распространенным является нормальное распространение.
Для однородных совокупностей характерны одновершинные кривые, много
вершинная кривая говорит о неоднородности совокупности и необходимости
перегруппировки. Выяснение общего вида распределения предполагает оценку его
однородности, расчет числовых характеристик - среднего, дисперсии, показателей асимметрии и эксцесса.
1. Исходные данные и цель исследования
Целью данной работы является статистический анализ данных, содержащих сведения потреблении мяса на душу населения в 2000 году. Данные размещены на сайте http://www.biodat.ru [5]. Требуется охарактеризовать состав наблюдаемой совокупности, сделать вывод о ее однородности, структуре, закономерностях распределения, используя различные методы статистического анализа данных.
Табл. 1.1
Потребление мяса и мясопродуктов на душу населения (включая субпродукты II категории и жир-сырец) (в год; килограммов) - 2000 год
Адыгея 32
Башкирия 56
Алтай 59
Бурятия 50
Дагестан 27
Кабардино-Балкария 38
Калмыкия 55
Карачаево-Черкесия 37
Карелия 42
Коми 48
Марий-Эл 42
Мордовия 43
Сев.Осетия 42
Татарстан 50
Тува 39
Удмуртия 43
Хакасия 49
Ингушетия 22
Чечня 0
Чувашия 46
Якутия-Саха 71
Еврейская а.обл. 27
Агинский-Бурятский а 43
Коми-Пермяцкий а.о. 47
Корякский а.о. 46
Ненецкий а.о. 26
Таймырский а.о. 49
Усть-Ордынский а.о. 46
Ханты-Мансийский а.о 37
Чукотский а.о. 25
Эвенкийский а.о. 49
Ямало-Ненецкий а.о. 37
Алтайский край 40
Краснодарский край 41
Красноярский край 49
Приморский край 39
Ставропольский край 40
Хабаровский край 45
Амурская обл. 34
Архангельская обл. 26
Астраханская обл. 49
Белгородская обл. 58
Брянская обл. 56
Владимирская обл. 30
Волгоградская обл. 50
Вологодская обл. 44
Воронежская обл. 43
Ивановская обл. 36
Иркутская обл. 46
Калининградская обл. 54
Калужская обл. 43
Камчатская обл. 46
Кемеровская обл. 39
Кировская обл. 52
Костромская обл. 36
Курганская обл. 48
Курская обл. 54
Ленинградская обл. 42
г.Санкт-Петербург 42
Липецкая обл. 42
Магаданская обл. 42
Московская обл. 57
г.Москва 66
Мурманская обл. 31
Нижегородская обл. 34
Новгородская обл. 39
Новосибирская обл. 42
Омская обл. 54
Оренбургская обл. 44
Орловская обл. 68
Пензенская обл. 42
Пермская обл. 47
Псковская обл. 48
Ростовская обл. 37
Рязанская обл. 50
Самарская обл. 41
Саратовская обл. 47
Сахалинская обл. 47
Свердловская обл. 46
Смоленская обл. 40
Тамбовская обл. 49
Тверская обл. 35
Томская обл. 38
Тульская обл. 45
Тюменская обл. 37
Ульяновская обл. 38
Челябинская обл. 48
Читинская обл. 43
Ярославская обл. 44
Рис. 1.1 Карта потребление мяса и мясопродуктов на душу населения
по регионам РФ в 2000 году
2. Ввод данных
Поскольку это одномерный массив данных, число переменных (признаков) равно единице, число наблюдений – 87 (по Чеченской республике данных нет). Исходные данные помещены в рабочую книгу с именем Workbook1.stw, под именем Var1.
Создаем рабочую книгу и вводим данные:
Рис. 2.1 Ввод данных
Копируем данные в MS Excel и редактируем таблицу, чтобы она лучше читалась:
Табл. 2.1
Номер региона Потребление мяса на душу населения в 2000 году Номер региона Потребление мяса на душу населения в 2000 году Номер региона Потребление мяса на душу населения в 2000 году Номер региона Потребление мяса на душу населения в 2000 году
1 56 23 46 45 43 67 44
2 59 24 26 46 36 68 68
3 50 25 49 47 46 69 42
4 27 26 46 48 54 70 47
5 38 27 37 49 43 71 48
6 55 28 25 50 46 72 37
7 37 29 49 51 39 73 50
8 42 30 37 52 52 74 41
9 48 31 40 53 36 75 47
10 42 32 41 54 48 76 47
11 43 33 49 55 54 77 46
12 42 34 39 56 42 78 40
13 50 35 40 57 42 79 49
14 39 36 45 58 42 80 35
15 43 37 34 59 42 81 38
16 49 38 26 60 57 82 45
17 22 39 49 61 66 83 37
18 46 40 58 62 31 84 38
19 71 41 56 63 34 85 48
20 27 42 30 64 39 86 43
21 43 43 50 65 42 87 44
22 47 44 44 66 54
3. Анализ эмпирического распределения
Анализ распределений направлен на выявление закономерности изменения частот в зависимости от значений варьирующего признака и анализ различных характеристик изучаемого распределения. Прежде, чем приступить к вычислению специальных статистических показателей, необходимо из исходной совокупности исключить единицы, не подчиняющиеся общей закономерности распределения, так называемые выбросы. Выбросы – это значения признака, резко отличающиеся как в большую, так и в меньшую сторону, от значений признака у основной части единиц совокупности.
Для локализации и устранения выбросов необходимо ранжировать исходные данные. Учитывая то, что для дальнейшей работы могут понадобиться исходные данные в первоначальном виде, ранжированию можно подвергнуть их специально созданную резервную копию.
1,200 руб.