Расчет объема выборки. Интервальное оценивание генеральной доли

Статистическая совокупность - множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак - это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качестванная характеристика какого-либо свойства единиц или совокупности в цельм в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:
  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .

Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );

4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 9.1.

Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

k n = n/N .

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :

w = n n /n .

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .

Таблица 9.1 Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 9.2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 9.2 Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

Средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .

В табл. 9.3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 9.3 Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).

Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.

Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:

Это означает, что с заданной вероятностью Р , которая называется доверительным уровнем и однозначно определяется значением t , можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от

При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:

Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .

Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .

Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .

Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.

Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.

При этом используют формулу:

где все переменные — это численность совокупности:

Необходимый объем выборки

Таблица 9.4 Необходимый объем (n) выборки для разных видов организации выборочного наблюдения

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки n :

Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .

Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 9.5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 9.5 Распределение наблюдений по срокам появления

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где х i - середина интервального ряда.

Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.

Статистика знает все. И Ильф и Е. Петров, «12 Стульев»

Представьте себе, что вы строите крупный торговый центр и желаете оценить автомобильный поток въезда на территорию парковки. Нет, давайте другой пример… они все равно этого никогда не будут делать. Вам необходимо оценить вкусовые предпочтения посетителей вашего портала, для чего необходимо провести среди них опрос. Как увязать количество данных и возможную погрешность? Ничего сложного - чем больше ваша выборка, тем меньше погрешность. Однако и здесь есть нюансы.

Теоретический минимум

Не будет лишним освежить память, эти термины нам пригодятся далее.

  • Популяция – Множество всех объектов, среди которых проводится исследования.
  • Выборка – Подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании.
  • Ошибка первого рода - (α) Вероятность отвергнуть нулевую гипотезу, в то время как она верна.
  • Ошибка второго рода - (β) Вероятность не отвергнуть нулевую гипотезу, в то время как она ложна.
  • 1 - β - Статистическая мощность критерия.
  • μ 0 и μ 1 - Средние значения при нулевой и альтернативной гипотезе.


Уже в самих определениях ошибки первого и второго рода имеется простор для дебатов и толкований. Как с ними определиться и какую выбрать в качестве нулевой? Если вы исследуете уровень загрязнения почвы или вод, то как сформулируете нулевую гипотезу: загрязнение присутствует, или нет загрязнения? А ведь от этого зависит объем выборки из общей популяции объектов.



Исходная популяция , также как и выборка может иметь любое распределение, однако среднее значение имеет нормальное или гауссово распределение благодаря Центральной Предельной Теореме .


Относительно параметров распределения и среднего значения в частности возможно несколько типов умозаключений. Первое из них называется доверительным интервалом . Он указывает на интервал возможных значений параметра, с указанным коэффициентом доверия . Так например 100(1-α)% доверительный интервал для μ будет таким (Ур. 1).




Второе из умозаключений - проверка гипотезы . Оно может быть примерно таким.

  • H 0: μ = h
  • H 1: μ > h
  • H 2: μ < h

С доверительным интервалом 100(1-α) для μ можно сделать выбор в пользу H 1 и H 2:

  • Если нижний предел доверительного интервала 100(1-α) < h , то тогда отвергаем H 0 в пользу H 2 .
  • Если верхний предел доверительного интервала 100(1-α) > h, то тогда отвергаем H 0 в пользу H 1 .
  • Если доверительного интервала 100(1-α) включает в себя h, то тогда мы не может отвергнуть H 0 и такой результат считается неопределенным .

Если нам нужно проверить значение μ для одной выборки из общей совокупности, то критерий обретет вид.



Доверительный интервал, погрешность и размер выборки

Возьмем самое первое уравнение и выразим оттуда ширину доверительного интервала (Ур. 2).



В некоторых случаях мы можем заменить t-статистику Стьюдента на z стандартного нормального распределения. Еще одним упрощением заменим половину от w на погрешность измерения E. Тогда наше уравнения примет вид (Ур. 3).



Как видим погрешность действительно уменьшается вместе с ростом количества входных данных . Откуда легко вывести искомое (Ур. 4).


Практика - считаем с R

Проверим гипотезу о том, что среднее значение данной выборки количества насекомых в ловушке равно 1.

  • H 0: μ = 1
  • H 1: μ > 1
Насекомые 0 1 2 3 4 5 6
Ловушки 10 9 5 5 1 2 1

> x <- read.table("/tmp/tcounts.txt") > y = unlist(x, use.names="false") > mean(z);sd(z) 1.636364 1.654883

Обратите внимание, что среднее и стандартное отклонение практически равны, что естественно для распределения Пуассона. Доверительный интервал 95% для t-статистики Стьюдента и df=32 .


> qt(.975, 32) 2.036933

и наконец получаем критический интервал для среднего значения: 1.05 - 2.22 .


> μ=mean(z) > st = qt(.975, 32) > μ + st * sd(z)/sqrt(33) 2.223159 > μ - st * sd(z)/sqrt(33) 1.049568

В итоге, следует отбраковать H 0 и принять H 1 так как с вероятностью 95%, μ > 1.


В том же самом примере, если принять, что нам известно действительное стандартное отклонение - σ , а не ее оценка полученная с помощью случайной выборки, можно рассчитать необходимое n для данной погрешности. Посчитаем для E=0.5 .


> za2 = qnorm(.975) > (za2*sd(z)/.5)^2 42.08144

Поправка на ветер

На самом деле нет никаких причин, полагать, что нам будет известна σ (дисперсия), в то время как μ (среднее) нам еще только предстоит оценить. Из-за этого уравнение 4 имеет мало практической пользы, кроме особо рафинированных примеров из области комбинаторики, а реалистичное уравнение для n несколько сложнее при неизвестной σ (Ур. 5).



Обратите внимание, что σ в последнем уравнении не с шапкой (^), а тильдой (~). Это следствие того, что в самом начале у нас нет даже оценочного стандартного отклонения случайной выборки - , и вместо нее мы используем запланированное - . Откуда же мы берем последнее? Можно сказать, что с потолка: экспертная оценка, грубые прикидки, прошлый опыт и т. д.


А что на счет второго слагаемого правой стороны 5-го уравнения, откуда оно взялось? Так как , необходима поправка Гюнтера .


Помимо уравнений 4 и 5 есть еще несколько приблизительно-оценочных формул, но это уже заслуживает отдельного поста.

Идентификация объектов генеральной совокупности

Выбор метода обследования

Сплошное обследование

Выборочное обследование

Выбор процедуры формирования выборки

Расчет объема выборки

Реализация плана выборки

Рис. 4.3. Планирование выборки

Планирование выборки включает следующие процедуры (рис. 4.3):

    Выделение объектов генеральной совокупности.

    Определение метода обследования.

    Определение процедуры формирования выборки.

    Определение объема выборки.

Выделение объектов генеральной совокупности

Генеральная совокупность - это множество всех единиц, являющих­ся объектами исследования.

На этом этапе подготовки исследования необходимо определить, какие субъекты составляют исследуемую генеральную совокупность. Как правило, субъекты, входящие в генеральную совокупность, не­однородны, поэтому при определении типичных представителей объек­та исследования некоторые группы могут быть упущены. Особенно сложно представить все элементы генеральной совокупности, состоя­щей из организаций, поскольку не все фирмы афишируют свою дея­тельность. В качестве генеральной совокупности могут быть опреде­лены рынок в целом, сегмент рынка или целевая группа субъектов.

Определение метода обследования

В зависимости от объема генеральной совокупности и целей исследо­вания могут быть использованы методы сплошного или выборочного обследования.

Метод сплошного обследования заключается в изучении всех еди­ниц генеральной совокупности. Метод связан с высокими затратами на проведение исследования, его использование оправдано, например, в случае малого количества потребителей, представляющих сегмент, или в случае, когда объем покупок данного клиента составляет значи­тельную долю от емкости рынка в целом.

Выборка - это группа объектов исследования, которая является носителем характеристик всех единиц генеральной совокупности, на­пример группа потребителей, представляющих интересы и вкусы все­го целевого рынка.

Метод выборочного обследования обеспечивает меньшую точность по сравнению с методом сплошного обследования, однако он менее трудоемок. Целесообразно использование данного метода при наличии большого числа однородных единиц генеральной совокупности.

Метод выборочного обследования предоставляет информацию о ге­неральной совокупности на основании обследования только ее части, поэтому данные, полученные в ходе выборочного обследования, имеют вероятностный характер. На практике это означает, что в результате исследования определяется не конкретное значение, а интервал, в ко­тором находится искомое значение. Вероятность, с которой можно ут­верждать, что ошибка выборки не превысит некоторую заданную величину, называется доверительной вероятностью.

Свойство выборки отражать характеристики генеральной совокуп­ности называется репрезентативностью. Различие между характерис­тиками генеральной и выборочной совокупностей называется ошиб­кой выборки, которая зависит от выбранной процедуры составления (формирования) выборки.

Процедуры формирования выборки

Процедура составления выборки - это последовательность отбора респондентов в выборку.

Отбор респондентов может сопровождаться систематическими и случайными ошибками. Систематические ошибки возникают при не­правильно выбранной процедуре составления выборки. Случайные ошибки существуют всегда, поскольку связаны с влиянием сложно-предсказуемых факторов. Влияние случайности полностью устранить невозможно, но величину случайной ошибки можно определить с по­мощью статистических методов. Систематическую ошибку невозмож­но оценить, но можно устранить, изменив процедуру выборки.

Учитывая наличие двух типов ошибок при формировании выбор­ки, выделяют случайные (вероятностные) и неслучайные (детерми­нированные) виды процедур составления выборки.

Неслучайные процедуры формирования выборки

Неслучайные процедуры составления выборки самим процессом фор­мирования предполагают неслучайный выбор респондентов, чье мне­ние может отличаться от мнения генеральной совокупности в целом, порождая тем самым наличие неслучайной (систематической) ошиб­ки данных в результатах исследования. При использовании неслучай­ных процедур отбор респондентов в выборку производится на основе каких-либо принятых условий, ограничивающих круг вероятных уча­стников исследования. Например, в выборку отбираются только те респонденты, которые владеют компьютером или зашли в магазин с 10 до 11 часов.

Возможны следующие виды неслучайных выборок:

Произвольная выборка - элементы выбираются без плана, бес­системно; способ недорог и удобен, но порождает неточность и нерепрезентативность;

    типовая выборка - набор ограничен лишь характерными (типичными) элементами генеральной совокупности; используется, например, при формировании фокус-групп; требует, однако, наличия сведений о типичности изучаемых объектов;

    квотированная выборка - структура выборки строится по аналогии с распределением определенных признаков в генеральной совокупности; от каждой группы генеральной совокупности отбираются участники исследования, количество которых пропорционально представительству группы в генеральной совокупности.

Случайные процедуры формирования выборки

При формировании случайной выборки применяют следующие про­цедуры.

    простая выборка - элементы выбираются с помощью случайных чисел; при данном подходе предполагается, что для всех единиц генеральной совокупности вероятность быть избранной в выборочную совокупность одинакова (значение вероятности равняется отношению объема выборки к объему генеральной совокупности). Метод очень трудоемок и обязывает иметь список всех единиц генеральной совокупности;

    систематическая (механическая) выборка - первый элемент выбирается с помощью случайных чисел, остальные элементы выборки отбираются через равные интервалы (интервал скачка), которые равны отношению объема генеральной совокупности к объему выборки. Данный порядок формирования выборки значительно упрощает процедуру, однако может внести искажения в структуру выборки, если генеральная совокупность упорядочена по какому-либо признаку.

Если генеральная совокупность упорядочена по существенному признаку (признак считается существенным, если он определяет со­стояние исследуемого показателя), то для уменьшения искажений выборочной характеристики следует отбирать единицы выборки из середины установленного интервала. Аналогично поступают и в том случае, когда генеральная совокупность упорядочена по второстепен­ному признаку, частично влияющему на изучаемый объект.

Если генеральная совокупность упорядочена по нейтральному при­знаку (который не оказывает влияния на поведение изучаемого объек­та), то допустимо включение в выборку любой единицы генеральной совокупности из установленного интервала;

Стратифицированная (типическая или групповая) выборка - генеральная совокупность делится на группы с набором определенных признаков (сегменты или страты), в каждой из которой с помощью случайного отбора формируется своя выборка; весовой коэффициент каждой страты в общем объеме выборки соответ­ствует ее удельному весу в генеральной совокупности; кластерная (серийная) выборка - генеральная совокупность де­лится на идентичные группы (гнезда, клумбы или кластеры). Кластеры должны быть по возможности однотипными, состав кластера должен быть подобен генеральной совокупности. Слу­чайным образом из генеральной совокупности отбираются не­сколько групп, которые подвергаются сплошному обследованию (одноступенчатый подход). Возможен и двухступенчатый под­ход, когда первоначально формируется выборка из кластеров, из нее случайным образом отбираются единицы исследования (т. е. единица выборки предыдущей стадии становится генераль­ной совокупностью для последующей). Недостаток этой проце­дуры формирования выборки - кластеры могут быть неоднород­ны между собой, однако эта процедура проста и экономична.

Многоступенчатые выборки

Любой тип выборки может быть как одно-, так и многоступенчатым. Многоступенчатая выборка применяется в тех случаях, когда извлечь выборку из генеральной совокупности прямым путем затруднитель­но, при этом все единицы отбора на каждой ступени равноценны для обследования.

Многоступенчатый отбор, соединяющий различные процедуры фор­мирования выборки, делает выборку комбинированной. Такой вари­ант формирования выборки позволяет добиться наиболее рациональных и экономичных условий сбора данных в соответствии с поставленны­ми задачами.

Определение объема выборки

Определение размера выборки является некоторым компромиссом между теорией о точности результатов исследования и возможностью ее практической реализации по объему затрат на сбор информации.

Наиболее применимы следующие методы определения объема вы­борки:

1. Произвольный метод расчета; в этом случае объем выборки оп­ределяется на уровне 5-10 % от генеральной совокупности.

    Традиционный метод расчета; связан с проведением периодических ежегодных исследований, охватывающих, например, 500, 1000 или 1500 респондентов.

    Статистический метод расчета; основывается на определении статистической надежности информации.

    Метод расчета с помощью номограмм.

    Эмпирический метод; в этом случае выборка считается достаточной, когда все новые сведения вносят лишь незначительные изменения (которыми можно пренебречь) в уже собранные результаты исследования.

    Затратный метод; основан на размере расходов, которые допустимо затратить на проведение исследования.

Статистический метод расчета объема выборки

На объем статистической выборки влияют следующие факторы:

    Наличие сведений об объеме генеральной совокупности и степени ее однородности.

    Требуемая точность результатов, регулируемая величиной максимально допустимой ошибки репрезентативности и величиной доверительной вероятности, с которой делается заключение о достоверности результатов исследования.

    Наличие сведений о средних показателях генеральной совокупности по исследуемому признаку или об интервале варьирования признака(дисперсии).

    Возможность повторного попадания единицы генеральной совокупности в выборку.

При определении объема выборки для больших совокупностей (ког­да объем выборки составляет менее 5% генеральной совокупности) могут использоваться следующие формулы:

а) повторная выборка (при возможности повторного попадания еди­ницы генеральной совокупности в выборку) при неизвестном объеме генеральной совокупности, но известном распределении контролиру­емого признака:

где t - нормированное отклонение, которое определяется по выбран­ному уровню доверительной вероятности (при 95% доверительной вероятности t = 1,96; при 99% доверительной вероятности t = 2,58); р - найденная вариация генеральной совокупности, в % или в долях; q = 100 - р; Д - допустимая ошибка, в % или в долях;

б) повторная выборка при известной дисперсии изучаемого призна­ка (о):

в) бесповторная выборка (при исключении возможности повторно­го попадания единицы генеральной совокупности в выборку) при из­вестном объеме генеральной совокупности и известном распределе­нии контролируемого признака:

где N - ;

г) бесповторная выборка при известной дисперсии изучаемого признака:

Выборка признается малой, если ее объем превышает 5% генераль­ной совокупности, в этом случае объем выборки может быть откор­ректирован:

где п" - объем выборки для малой совокупности, п - объем статисти­ческой выборки, N - объем генеральной совокупности.

Расчет статистической выборки при нормированном отклонении t = 2 и допустимой ошибке 5% (см. табл. 4.2) показывает, что для боль­ших совокупностей объем выборки может быть определен любым спо­собом, поскольку используемые практические приемы приводят ско­рее к завышению объема обследуемой совокупности.

Таблица 4.2 Зависимость размера выборки от величины генеральной совокупности*

Объем генеральной совокупности

Объем выборки

* при нормированном отклонении t = 2 и допустимой ошибке 5%.

Из табл. 4.2 видно, что при размере генеральной совокупности бо­лее 5000 ее величина не влияет на размер выборки, поэтому формула может принять следующий вид (величиной 1/ N можно пренебречь):

(4.6)

Например, из проведенных ранее исследований известно, что рас­пределение ответов на интересующий исследователя вопрос (напри­мер о статусе пользователя) составило 60% и 40% (60% респондентов ответили утвердительно на вопрос о пользовании продуктом и 40% - отрицательно). Доля целевых респондентов в общем объеме респон­дентов составляет 70%. Для более детального анализа необходимо по­лучить 100 положительных ответов. Чтобы получить этот результат, требуется опросить 238 человек:

Таким образом, при отсутствии точной информации о размере и ха­рактеристиках генеральной совокупности (при условии, что она не менее 5000) достаточно включить в выборку 400 ее представителей. Однако следует учесть, что если мы собираемся контролировать струк­туру выборки по нескольким параметрам, то объем выборки будет го­раздо больше. Г. А. Черчилль в своей работе «Маркетинговые иссле­дования» приводит на этот счет правило: «Объем выборки должен обеспечивать не менее 100 наблюдений для каждой первостепенной и не менее 20-50 наблюдений для каждой второстепенной классифи­кационной составляющей»; также следует сделать поправку на то, что отдельные респонденты, включенные в выборку, могут оказаться вне досягаемости или отказаться участвовать в исследовании.1

Количество респондентов, которых необходимо опросить для полу­чения необходимого количества положительных ответов на интересу­ющий вопрос, можно рассчитать по формуле:

где П - требуемое для анализа количество положительных ответов; Pj - доля положительных ответов; Р 2 - доля целевых групп, рассчи­тываемая как произведение всех долей респондентов, удовлетворя­ющих установленным требованиям (возраст, пол, статус пользовате­ля и т. д.).

Использование номограмм для расчета объема выборки

Стремление упростить процедуру расчета объема выборки приводит к созданию таблиц, шкал или программ, которые ориентированы на обе­спечение статистической надежности информации, но при этом не обре­меняют пользовагеля знаниями специальных формул из области стати­стики. Например, существует калькулятор выборки (www. shortway. to/few/calculator, htm), на сайте Gallup (www. gallup. ru) можно найти таблицу, связывающую показатели размера выборки, распределения ответов с величиной стандартной ошибки (табл. 4.3).

Таблица 4.3 Взаимосвязь показателей размера выборки, распределения ответов и стандартной ошибки

Распределение ответов,

Размер выборки,

Номограмма является графическим способом определения размера выборки. Номограмма включает три шкалы (рис. 4.4). На шкале слева устанавливается разметка показателя среднеквадратического откло­нения или распределения доли признака. На правой шкале наносится разметка точности измерения в виде допустимой ошибки (половины интервала) при заданной доверительной вероятности 95 или 99%. На средней шкале делается разметка, соответствующая требуемому объ­ему выборки. На правой и левой шкалах делаются отметки на уровне желаемых значений показателей (доли признака и допустимой ошиб­ки). Линейкой эти две отметки соединяются, на пересечении линейки со средней шкалой делается отметка, соответствующая тому объему выборки, который отвечает пожеланиям исследователя.

Рис. 4.4. Номограмма для определения объема выборки (доверительная вероятность 95%)"

4.5. Определение объема выборки

Процедура составления плана выборки включает последовательное решение трех следующих задач:

Определение объекта исследования;

Определение структуры выборки;

Определение объема выборки.

Как правило, объект маркетингового исследования представляет собой совокупность объектов наблюдения, в качестве которых могут выступать потребители, сотрудники компании, посредники и т.д. Если эта совокупность настолько малочисленна, что исследовательская группа располагает необходимыми трудовыми, финансовыми и временными возможностями для установления контакта с каждым из ее элементов, то вполне реально проведение сплошного исследования всей совокупности. В этом случае, определив объект исследования, можно приступать к следующей процедуре (выбору метода сбора данных, орудия исследования и способа связи с аудиторией).

Однако на практике очень часто не представляется возможным или целесообразным проведение сплошного исследования всей совокупности. Для этого могут быть следующие причины:

Невозможность установления контакта с некоторыми элементами совокупности;

Неоправданно большие расходы на проведение сплошного исследования или наличие финансовых ограничений, не позволяющих проведение сплошного исследования;

Сжатые сроки, отведенные для исследования, обусловленные утратой со временем актуальности информации или другими причинами и не позволяющие осуществить сбор, систематизацию и анализ обширных данных для всей совокупности.

Поэтому большие и разбросанные совокупности часто изучаются с помощью выборки, под которой, как известно, понимается часть совокупности, призванная олицетворять совокупность в целом.

Точность, с которой выборка отражает совокупность в целом, зависит от структуры и размера выборки .

Различают два подхода к структуре выборки - вероятностный и детерминированный.

Вероятностный подход к структуре выборки предполагает, что любой элемент совокупности может быть выбран с определенной (не нулевой) вероятностью. Существуют различные виды выборок, основанных на теории вероятностей (типическая, гнездовая и др.). Наиболее простой и распространенной на практике является простая случайная выборка, при которой каждый элемент совокупности имеет равную вероятность выбора для исследования.

Вероятностная выборка более точна, позволяет исследователю оценить степень достоверности собранных им данных, хотя она сложней и дороже, чем детерминированная.

Детерминированный подход к структуре выборки предполагает, что выбор элементов совокупности производится методами, основанными либо на соображениях удобства, либо на решении исследователя, либо на контингентных группах.

на соображениях удобства , состоит в выборе любых элементов совокупности исходя из простоты установления контакта с ними. Несовершенство этого метода обусловлено, возможно, низкой репрезентативностью полученной выборки, т.к. удобные для исследователя элементы совокупности могут быть недостаточно характерными представителями совокупности в силу неслучайного и необоснованного их отбора.

Однако, с другой стороны, простота, экономичность и оперативность исследования, проводимого этим методом, снискали ему довольно широкое распространение на практике и, прежде всего при проведении предварительных исследований, направленных на уточнение основных проблем.

Метод формирования выборки, основанный на решении исследователя , состоит в выборе элементов совокупности, которые, по его мнению, являются ее характерными представителями. Этот метод является более совершенным, чем предыдущий, поскольку в его основе лежит ориентировка на характерных представителей исследуемой совокупности, хотя и подбираемых на основе субъективных представлений исследователей о ней.

Метод формирования выборки, основанный на контингентных нормах , состоит в выборе характерных элементов совокупности в соответствии с полученными ранее характеристиками совокупности в целом. Эти характеристики могут быть получены путем проведения предварительных исследований и в отличие от предыдущего метода не носят субъективного характера. Поэтому данный метод является более совершенным, он позволяет получить выборочные совокупности не менее представительные, чем вероятностные выборки при значительно меньших затратах на проведение обследования.

Выбрав структуру выборки (подход к ее формированию, вид вероятностной или метая формирования детерминированной выборки), исследователю предстоит определить объем, т.е. количество элементов выборочной совокупности.

Объем выборки определяет достоверность информации , полученной в результате ее исследования, а также необходимые для проведения исследования затраты. Объем выборки зависит от уровня однородности или разновидности изучаемых объектов.

Чем больше объем выборки, тем выше ее точность и больше затраты на проведения ее обследования. При вероятностном подходе к структуре выборки ее объем может быть определен с помощью известных статистических формул, на основе заданных требований к ее точности.

На практике используется несколько подходов к определению объема выборки:

1. Произвольный подход основан на применении «правила большого пальца». Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5 % от совокупности. Данный подход является простым и легким в исполнении, однако не представляется возможным установить точность полученных результатов. При достаточно большой совокупности он к тому же может быть и весьма дорогим.

Объем выборки может быть установлен исходя из неких заранее оговоренных условий. К примеру, заказчик маркетингового исследования знает, что при изучении общественного мнения выборка обычно составляет 1000-1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры. В случае, если на каком-то рынке проводятся ежегодные исследования, то в каждом году используется выборка одного и того же объема. В отличие от первого подхода здесь при определении объема выборки используется известная логика, которая, однако, является весьма уязвимой.

Например, при проведении определенных исследований может потребоваться точность меньше, чем при изучении общественного мнения, да и объем совокупности может быть во много раз меньше, нежели при изучении общественного мнения. Таким образом, данный подход не принимает в расчет текущие обстоятельства и может быть достаточно дорогим.

В ряде случаев в качестве главного аргумента при определении объема выборки используется стоимость проведения обследования. Так, в бюджете маркетинговых исследований предусматриваются затраты на проведение определенных обследований, которые нельзя превышать. Очевидно, что ценность получаемой информации не принимается в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.

Представляется разумным учитывать затраты не абсолютным образом, а по отношению к полезности информации, полученной в результате проведенных обследований. Заказчик и исследователь должны рассмотреть различные объемы выборки и методы сбора данных, затраты, учесть другие факторы

2. Объем выборки от уровня доверительного интервала допустимой ошибки, каковая, как уже говорилось, задается целесообразной точностью итоговых обобщений: от повышенной до ориентировочной. Однако здесь имеются в виду так называемые случайные ошибки, связанные с природой любых статистических погрешностей. Именно они и вычисляются как ошибки репрезентативности вероятностных выборок.

В. И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5-процентной ошибки (табл. 4.2).

Таблица 4.2

Расчетная таблица выборки

Для совокупности более 100000 выборка составляет 400 единиц. Если же иметь в виду генеральные совокупности численностью от 5 тыс. и больше, то, по расчетам того же автора, можно указать величины фактической ошибки выборки в зависимости от ее объема, что для нас весьма важно, памятуя, что величина допустимой ошибки зависит от цели исследования и необязательно должна приближаться к 5-процентному уровню.

Таблица 4.3

Расчетная таблица

Наряду со случайными возможны ошибки систематического характера. Они зависят от организации выборочного обследования. Это разнообразные смещения выборки в сторону одного из полюсов выборочного параметра.

3. Объем выборки на основе статистического анализа . Этот подход основан на определении минимального объема выборки исходя из определенных требований к надежности и достоверности получаемых результатов. Он также используется при анализе полученных результатов для отдельных подгрупп, формируемых в составе выборки по полу, возрасту, уровню образования и т.п. Требования к надежности и точности результатов для отдельных подгрупп диктуют определенные требования к объему выборки в целом.

Наиболее теоретически обоснованный и корректный подход к определению объема выборки основан на расчете достоверных интервалов. Понятие вариации характеризует величину несхожести (схожести) ответов респондентов на определенный вопрос. В более строгом плане вариацией значений какого-либо признака в совокупности называется различие его значений у разных единиц данной совокупности в один и тот же период или момент времени. Результаты ответов на вопросы опроса обычно представляются в форме кривой распределения (рис. 4.1). При высокой схожести ответов говорят о малой вариации (узкая кривая распределения) и при низкой схожести ответов – о высокой вариации (широкая кривая распределения).

В качестве меры вариации обычно принимается среднее квадратическое отклонение, которое характеризует среднее расстояние от средней оценки ответов каждого респондента на определенный вопрос.

Малая вариация

Высокая вариация

Рис. 4.1. Вариация и кривые распределения

Поскольку все маркетинговые решения принимаются в условиях неопределенности, то это обстоятельство целесообразно учесть при определении объема выборки. Так как определение исследуемых величин для совокупности в узком осуществляется на основе выборочной статистики, то следует установить диапазон (доверительный интервал), в который, как ожидается, попадут оценки для совокупности в целом, и ошибку их определения.

Доверительный интервал – это диапазон, крайним точкам которого соответствует определенный процент определенных ответов на какой-то вопрос. Доверительный интервал тесно связан со средним квадратическим отклонением изучаемого признака в генеральной совокупности: чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав определенный процент ответов.

Доверительный интервал, равный или 95 %, или 99 %, является стандартным при проведении маркетинговых исследований. Ни одна фирма не проводит маркетинговых исследований, формируя несколько выборок. И математическая статистика дает возможность получить некую информацию о выборочном распределении, владея только данными о вариации единственной выборки.

Индикатором степени отличия оценки, истинной для совокупности в целом, от оценки, которая ожидается для типичной выборки, является средняя квадратическая ошибка. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Когда на заданный вопрос существует только два варианта ответа, выраженные в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

где n – объем выборки; z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности; p – найденная вариация для выборки; g – (100-р); е – допустимая ошибка.

При определении показателя вариации для определенной совокупности прежде всего целесообразно провести предварительный качественный анализ исследуемой совокупности, в первую очередь установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно проведение пилотного исследования, использование результатов подобных исследований, проведенных в прошлом. При использовании процентной меры изменчивости принимается в расчет то обстоятельство, что максимальная изменчивость достигается для р = 50 %, что является наихудшим случаем. К тому же этот показатель радикальным образом не влияет на объем выборки. Учитывается также мнение заказчика исследования об объеме выборки.

Возможно определение объема выборки на основе использования средних значений, а не процентных величин.

где s – среднее квадратическое отклонение.

На практике, если выборка формируется заново и схожие опросы не проводились, то s не известно. В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

где .

Выше шел разговор о совокупностях очень больших размеров. Однако в ряде случаев совокупности не являются большими. Обычно, если выборка составляет менее пяти процентов от совокупности, то совокупность считается большой и расчеты проводятся по вышеприведенным правилам. Если объем выборки превышает 5 % от совокупности, то последняя считается малой и в вышеприведенные формулы вводится поправочный коэффициент.

Объем выборки в данном случае определяется следующим образом:

,

Определение объема вероятностной выборки

Объем вероятностной выборки определяется по специальным формулам, в зависимости от заданной достоверности , точности исследования и дисперсии генеральной совокупности.

Теоретической основой возможности использования выборочного обследования для оценки характеристик генеральной совокупности является центральная предельная теорема .

Центральная предельная теорема гласит: для простых случайных выборок объемом n , выделенных из генеральной совокупности с истинным средним μ и дисперсией σ2 , для больших n распределение выборочных средних приближается к нормальному с центром, равным истинному среднему, и дисперсией, равной отношению дисперсии генеральной совокупности к объему выборки, то есть:

Теорема верна для любого распределения частот в генеральной совокупности, однако чем ближе распределение в генеральной совокупности к нормальному, тем меньший объем выборки необходим для достижения эквивалентной достоверности и точности исследования.

На практике исследователь формирует только одну выборку из генеральной совокупности и ему необходимо знать, какой должен быть объем выборки для соблюдения заданных параметров достоверности и точности. Формула для определения объема выборки при оценке среднего может быть выведена, исходя из положений центральной предельной теоремы, и имеет вид:

n - необходимый объем выборки;

z - количество интервалов, характеризующих требование к достоверности исследования;

H - требуемая величина точности исследования;

σ2 - дисперсия генеральной совокупности.

Рассмотрим подробнее параметры правой части уравнения.

Достоверность характеризует вероятность того, что конкретная случайная выборка адекватно отражает характеристику генеральной совокупности.

Достоверность 99% означает, что в 99 выборках из 100 средняя генеральной совокупности будет входить в интервал средней, полученной в результате выборочного исследования.

Пример . Например, проведено три независимых выборочных исследования уровня доходов населения в конкретном регионе. Получены следующие данные о среднем уровне дохода: 300 10 грн., 310 10 грн., 305 10 грн., истинное среднее значение равно 302 грн.

Как видим, истинное среднее значение входит во все три интервала.

При достоверности 99% и заданной точности 10 грн. в 99 выборках из ста среднее выборки будет находиться в интервале от 292 до 312 грн. В одном случае из ста мы получим результат либо ниже 292 грн., либо больше 312 грн. Результаты такого исследования будут недостоверны, т.к. среднее генеральной совокупности не будет входить в коридор полученной в результате выборочного исследования средней величины.

В представленной формуле достоверность характеризуется величиной z, которая определяется по таблице z-распределения в зависимости от заданной достоверности в процентах.

Приведем соответствие только для некоторых типичных вероятностей: 68,26% (z=1), 95,45% (z=2), 99,73% (z=3).

z-распределение – Стандартное нормальное (Z) распределение

Значение z (z value) – количество стандартных ошибок, на которое точка удалена от среднего значения.

Вместо таблицы для вычисления вероятности попадания случайной величины в отмеченный (заштрихованный) диапазон

можно воспользоваться следующей формулой EXCEL:

2*НОРМСТРАСП(z)-1

подставив в нее требуемое значение z. Например:

Точность определяется исследователем, исходя из конкретной поставленной задачи.

Если исследуемая величина является абсолютной, то и точность должна быть представлена абсолютной, а не относительной величиной. При определении процентов (долей) точность определяется в процентах.

При определении точности исследователь должен учитывать возможное исследование динамики показателя.

Пример . Например, если при точности 10 грн. результаты исследования в прошлом году определили средний доход в 300 грн., а в текущем 305 грн., делать выводы об увеличении дохода некорректно, т.к. величина изменения входит в заданный интервал точности (менее 10 грн.).

Наиболее сложным при расчете объема выборки является определение дисперсии . При оценке среднего возникают два основных случая:

1) дисперсия генеральной совокупности известна на основании предыдущих исследований;

2) дисперсия генеральной совокупности неизвестна.

Возможность использования дисперсии, полученной в результате предыдущих исследований , основана на том, что этот параметр генеральной совокупности более инерционен, чем среднее. Другими словами, он изменяется медленнее и, следовательно, если вы, к примеру, ежегодно изучаете уровень дохода населения, то можете использовать величину дисперсии, полученную в прошлогодних исследованиях.

Пример расчета объема выборки .

Во-первых, на объем выборки влияет уровень доверительности α, по которому при помощи специальной таблицы определяется нормированное отклонение z. Например, для случая α = 99% по таблице найдем z = 2,58.

Во-вторых, оказывает влияние уровень (коэффициент) вариации . Примем, например, коэффициент вариации равным = 50%.

В-третьих, на объем выборки влияет требуемая точность (допустимая ошибка)

Если об уровне генеральной Вам ничего неизвестно , то для оценки уровня дисперсии возможно применение правила трех сигм . При нормальном распределении 99% параметров характеристики должно находиться в интервале плюс-минус три сигмы от истинной средней. Проводя исследование, Вы должны оценить типичный верхний (b ) и нижний (a ) уровни параметра , интервал между которыми и составляет шесть сигм. Величина сигмы составит разницу уровней параметра деленную на 6.

Дисперсия или вариация var:

,

где b, a – соответственно верхнее и нижнее значение параметра.

Сигма – это среднеквадратическое отклонение (стандартное отклонение):

.

Пример . Например, при исследовании уровня дохода нижнее значение параметра принимается на уровне 0 грн., а верхнее, предположим, на уровне 6000 грн. В этом случае значение среднеквадратичного (стандартного) отклонения составит: (6000-0)/6=1000.

Следует заметить, что если исследователь действительно готов к проведению исследования, то определение типичных нижней и верхней границы параметра не представляют особой сложности.

При работе с маркетинговыми шкалами принимаемая величина дисперсии зависит от количества точек шкалы и типа распределения частот.

Наихудшим в маркетинговых исследованиях (соответствующей максимальной дисперсии) считается равномерное распределение ответов между точками шкалы. Наилучшим – нормальное с максимальной частотой ответов в середине шкалы.

Таблица 5.1. Типовые диапазоны дисперсий в зависимости от количества точек шкалы

Нижние уровни диапазона соответствуют нормальному распределению частот, верхние – равномерному.

Рассмотренная выше формула определения объема выборки применяется при оценке средних величин .

Если исследователь работает с процентами или долями , то формула трансформируется в следующий вид:

,

где р - доля людей, положительно или отрицательно отвечающих на поставленный вопрос.

При работе с процентами в формулу вместо единицы подставляется 100.

Очевидно, что максимальное значение множителя (1-р)р имеет место при одинаковой доле положительных и отрицательных ответов и составляет при работе с долями 0,25, а при работе с процентами – 2500. Однако результат при работе с долями или процентами будет эквивалентен, так как численное значение квадрата точности, стоящее в знаменателе, также будет отличаться в 10000 раз.

За исключением случаев, когда применяется коэффициент окончательной коррекции совокупности. Возможно, это кажется невероятным, но если подумать, в этом утверждении есть смысл. Например, если исследуемые характеристики всех элементов совокупности идентичны, то выборки, состоящей из одного элемента, вполне достаточно, чтобы рассчитать среднее. Это также правильно, если совокупность состоит из 50, 500, 5000 или 50000 элементов.

В то же время изменчивость характеристик совокупности напрямую влияет на объем выборки. Эта изменчивость учитывается при вычислении объема выборки с помощью дисперсии совокупности σ2 или дисперсии выборки s2.

Пример (Н.Б.Сафронова, И.Е.Корнеева). Проведем расчет выборки для маркетингового исследования, посвященного узнаваемости потребителями торговой марки. Значение вероятности P = 0,954, предельно допустимая ошибка данного исследования не должна превышать 5%. Какое количество респондентов необходимо опросить для решения этой проблемы в порядке случайной повторной выборки притом, что данные о распределении признаков отсутствуют?

Решение . Так как доля признака неизвестна, допустим, что 50% потребителей знают торговую марку, а 50% – нет. Используем формулу расчета выборки с учетом доли признака:

= =400 чел.

Более сложные методы расчета объема выборки необходимы при использовании в процессе анализа двойной или тройной табуляции. Это связано с тем, что достоверность и точность, достигаемая при рассчитанном объеме выборки, для выборки в целом, не достигается для отдельных ее частей, на которые разбивается выборка в процессе табуляции.

Пример . Например, при определении среднего уровня дохода населения определенный объем выборки может быть достаточен, но он недостаточен для определения среднего уровня дохода мужчин и женщин (при заданных точности и достоверности). Это легко понять, потому что количество мужчин и женщин, принявших участие в опросе отдельно, меньше количества всех респондентов. Зная, однако, соотношение мужчин и женщин, легко определить, с какой точностью рассчитан уровень среднего дохода для каждой из рассматриваемых групп.

Определение объема выборки: среднее

Метод, использованный для создания доверительного интервала, можно модифицировать так, чтобы определить объем выборки с учетом желательного доверительного интервала. Предположим, что вы хотите рассчитать ежемесячный расход семьи на покупки в универмаге более точно, так, чтобы полученный результат находился в пределах ±5,00 долларов от истин­ного среднего значения исследуемой совокупности. Каким должен быть объем выборки? В табл. 12.2 приведен необходимый перечень действий, который вы должны выполнить.

1. Определите степень точности. Это максимально допустимое различие (D) между выбороч­ным средним и генеральным средним. В нашем примере D = ±5,00 долларов.

2. Укажите уровень достоверности. Предположим, что желательный уровень достоверности 95%.

3. Определите значение г, связанное с данным уровнем достоверности, воспользовавшись табл. 2 в Приложении "Статистические таблицы". При 95%-ном уровне достоверности ве­роятность того, что среднее значение генеральной совокупности выйдет за пределы одно­стороннего интервала, равна 0,025 (0,05/2). Соответствующее значение г составляет 1,96.

4. Определите стандартное отклонение среднего генеральной совокупности. Его можно получить из вторичных источников или рассчитать, проведя пилотное исследование. Кроме того, стандартное отклонение можно установить на основе мнения исследователя. Например, диапазон нормально распределенной переменной примерно укладывается в шесть стандартных отклонений (по три слева и справа от среднего значения). Таким образом, можно рассчитать среднеквадратичное от­клонение, разделив величину всего диапазона на 6. Исследователь часто может определить раз­меры диапазон, исходя из собственного понимания анализируемых явлений.

5. Определите объем выборки, воспользовавшись формулой стандартной ошибки среднего:

В нашем примере

(округленное в большую сторону до ближайшего целого числа).

неквадратичное отклонение выборки 5, равное 50,00. Тогда исправленный доверительный интервал составит

Обратите внимание, что полученный доверительный интервал уже предполагаемого. Это вызвано тем, что среднеквадратичное отклонение совокупности завышено на основании выборочных характеристик.

8. Иногда точность определена в относительных, а не абсолютных показателях. Другими сло­вами, может быть известно, что результат вычисления должен составить плюс-минус R% от среднего. Это означает, что D = rm .

В этом случае объем выборки можно определить как

Объем генеральной совокупности N не влияет на объем выборки напрямую, за исключением случаев, когда применяется коэффициент окончательной коррекции совокупности. Возможно, это кажется невероятным, но если подумать, в этом утверждении есть смысл. Например, если ис­следуемые характеристики всех элементов совокупности идентичны, то выборки, состоящей из одного элемента, вполне достаточно, чтобы рассчитать среднее. Это также правильно, если сово­купность состоит из 50,500,5000 или 50000 элементов. В то же время изменчивость характеристик совокупности напрямую влияет на объем выборки. Эта изменчивость учитывается при вычисле­нии объема выборки с помощью дисперсии совокупности s2 или дисперсии выборки s2.

Наиболее корректный статистический анализ общественного процесса обеспечивают сведения о каждом его проявлении. Или, говоря статистическим языком, полный анализ всей совокупности возможен только при учете значения признака у каждой единицы совокупности. В качестве примера такого анализа можно привести всеобщие переписи населения.

Однако, массовый характер общественного явления часто влечет за собой невозможность исследования его в полном объеме, т.е. во всех его проявлениях. В статистической науке разработан специальный метод, позволяющей исследовать лишь часть явления, а результаты и выводы транспонировать на все явление в целом. Такой метод называется «выборочное наблюдение». Основой метода выборочного наблюдения служит взаимосвязь между единичным и общим, между частью и целым, которая существует в общественных явлениях.

Исследуемая часть статистической совокупности называется выборочной, а количество единиц, составляющих ее объем принято обозначать n. Вся совокупность называется генеральной, объем генеральной совокупности обычно обозначают N.

Можно выделить ряд причин применения выборочного наблюдения:

— недостаток временных ресурсов (как для проведения обследования, так и для анализа полученного большого объема данных);

— недостаток кадровых ресурсов, т.е. квалифицированных специалистов для проведения наблюдения и анализа;

— недостаток материальных ресурсов, т.е. слишком дорогостоящее наблюдение;

— практическая невозможность учета всех единиц совокупности в связи с их уничтожением в результате наблюдения (например, в случае обследования всхожести партии семян, продолжительности горения электроламп и т.д.);

— практическая нецелесообразность наблюдения каждой единицы совокупности (например, определения уровня потребления продукта питания населением региона и т.д.)

Основным принципом выборочного наблюдения является принцип рэндомизации (от англ. random – случай), т.е. принцип случайности отбора единиц совокупности, определяющий равенство единиц по возможности быть отобранными в выборочную совокупность. Данный принцип должен выполняться даже в случае планомерного отбора единиц.

В результате неполного обследования генеральной совокупности могут возникнуть ошибки наблюдения – ошибки репрезентативности. Поэтому, основной задачей исследователя является, во-первых, обеспечение представительности (репрезентативности) выборки, и, во-вторых, определение степени уверенности в соответствии параметров выборочной и генеральной совокупностей.

Определение способа отбора единиц совокупности является важной частью выборочного исследования. Существует множество способов отбора единиц совокупности, все их можно представить в виде трех групп (см. рис. 1.):


Рис. 1 Способы отбора единиц совокупности

Собственно-случайный отбор – выбор единиц совокупности без какой-либо схемы или системы. Может осуществляться методом жеребьевки или с помощью таблицы случайных чисел. При применении данного способа отбора необходимо удостовериться в выполнении принципа рэндомизации.

Отбор с предварительным выделением структуры генеральной совокупности применяется, если исследуется структурированная распределенная на группы) совокупность. Серийный отбор предполагает выбор одной группы единиц, внутри которой производится сплошное обследование, среди всех групп. Районированный отбор представляет собой определение границ выборочной совокупности с учетом территориальной принадлежности единиц генеральной совокупности. Механический отбор применяется для совокупности, в которой каждой единице присвоен отдельный номер, а выбор осуществляется пропорционально количеству единиц, например, каждая десятая единица и др.

Ступенчатый или смешанный отбор применяется в случае поэтапного проведения выборочного наблюдения, когда на разных этапах наблюдения используют различные варианты отбора единиц.

Серийный отбор – с генеральной совокупности отбираются не отдельные единицы, а целые серии, группы, а затем в каждой попавшей в выборку серии обследуются все без исключения единицы. Например, рабочих отбирают бригадами.

Комбинированный отбор – генеральная совокупность делится на одинаковые группы, затем производится отбор групп из которых отбираются отдельные единицы.

Типический отбор
— генеральная совокупность делится на однородные типические группы из которых собственно случайным или механическим способом производится отбор единиц.

Типический отбор дает самые точные результаты по сравнению с другими способами, т.к. обеспечивается репрезентативность в выборке. Например, рабочие делятся на группы по квалификации.

Прежде чем приступить к осуществлению выборочного наблюдения необходимо определить количество единиц выборочной совокупности, обеспечивающее репрезентативность, и, следовательно, надежность результатов исследования.

На практике для реализации выборочного наблюдения исследователем задаются:

— степень точности исследования (вероятность);

— предельная ошибка, т.е. интервал отклонения, определяемый целями исследования.

Исходя из этих критериев, рассчитывается необходимая численность выборочной совокупности (n) на основе формулы предельной ошибки выборки.

Разность между показателями выборочной и генеральной совокупности называется
ошибкой выборки .
Ошибки выборки подразделяются на ошибки регистрации и ошибки репрезентативности.

Ошибки регистрации возникают из-за неправильных или неточных сведений. Источниками таких ошибок могут быть непонимание существа вопроса, невнимательность регистратора, пропуск или повторный счет некоторых единиц совокупности, описки при заполнении формуляров и т. д.

Среди ошибок регистрации выделяются систематические, обусловленные причинами, действующими в каком-то одном направлении и искажающими результаты работы (например, округление цифр, тяготение к полным пятеркам, десяткам, сотням и т. д.), и случайные, проявляющиеся в различных направлениях, уравновешивающие друг друга и лишь изредка дающие заметный суммарный итог.

Ошибки репрезентативности также могут быть систематическими и случайными. Систематические ошибки репрезентативности возникают из-за неправильного, тенденциозного отбора единиц, при котором нарушается основной принцип научно организованной выборки - принцип случайности. Случайные ошибки репрезентативности означают, что, несмотря на принцип случайности отбора единиц, все же имеются расхождения между характеристиками выборочной и генеральной совокупности. Изучение и измерение случайных ошибок репрезентативности и является основной задачей выборочного метода.

Предельная ошибка выборки определяется для средней величины () и для доли (w), то, соответственно, имеем два варианта определения необходимой численности выборочной совокупности:

а) для повторного отбора:


б) для бесповторного отбора:


Разрабатывая программу выборочного наблюдения, сразу задают величину допустимой ошибки выборки и доверительную вероятность. Неизвестным остается тот минимальный объем выборки, который должен обеспечить требуемую точность формулы для определения численности выборки (п) зависят от метода отбора.

n i =

где n i – объем выборки из I – й группы;

N – общий объем выборки;

N i — объем i – й группы;

N — объем генеральной совокупности.

ЗАДАНИЕ 1

В результате выборочного обследования заработной платы 60-ти работников предприятия промышленности были получены следующие данные (табл. 1).

Постройте интервальный ряд распределения по результативному признаку, образовав пять групп с равными интервалами.

Определите основные показатели вариации (дисперсию, среднее квадратическое отклонение, коэффициент вариации), среднюю степенную величину (среднее значение признака) и структурные средние. Изобразите графически в виде: а) гистограммы; б) кумуляты; в) огивы. Сделайте вывод.

РЕШЕНИЕ

1. Определим размах вариации по результативному признаку – по производственному стажу по формуле:

R = Хmax – Хmin = 36 – 5 = 31

где Хmax – максимальный размер активов

Хmin – минимальный размер активов

2. Определим величину интервала

i = R/n = 31/5= 6,2

с учетом полученной величины интервалов производим группировку банков и получаем

3. Построим вспомогательную таблицу

Группа призна-ка

Значение значений в группе

х i

Количество частота признака (частота)

f i

в % к итогу

ω

Накопленная частота

S i

Середина интервала

* f i

ω

I

5 – 11,2

6,8,7,5,8,6,10,9,9,6,66,9,10,7,9,10,10,11,89,8,7,6,6,10

43,3

43,3

210,6

350,73

44,89

1167,14

II

11,2 – 17,4

16,15,13,12,17,14, 14, 12,14,17,13,15,17, 14

23,3

66,6

14,3

200,2

333,19

0,25

III

17,4 – 23,6

18,21,20, 21,18, 19,22,21,21,21,18, 19

20,0

86,6

20,5

410,0

32,49

389,88

IV

23,6 –29,8

28,29,25,28, 24

26,7

133,5

221,61

11,9

141,61

708,05

V

29,8 – 36

36,35,33

32,9

98,7

164,5

18,1

327,61

982,83

ИТОГО

1480,03

546,85

3251,4

4. Среднее значение признака в изучаемой совокупности определяется по формуле арифметической взвешенной:

года

5. Дисперсия и среднее квадратическое отклонение признака определяется по формуле



Определение колеблемости


Таким образом, V>33,3%, следовательно, совокупность неоднородна.

6. Определение моды

Мода – значение признака, наиболее часто встречающееся в изучаемой совокупности. В исследуемом интервальном вариационном ряду мода рассчитывается по формуле:


где

x M0
– нижняя граница модального интервала:

i M0 – величина модального интервала;

f M0-1 f M0 f M0+1 – частоты (частости) соответственно модального, домо-дального и послемодального интервалов.

Модальный интервал – это интервал, имеющий наибольшую частоту (частость). В нашей задаче – это первый интервал.


7. Рассчитаем медиану.

Медиана – вариант, расположенный в середине упорядоченного вариационного ряда, делящий его на две равные части, таким образом, что половина единиц совокупности имеют значения признака меньше, чем медиана, а половина– больше, чем медиана.

В интервальном ряду медиана определяется по формуле:


где – начало медианного интервала;

– величина медианного интервала

– частота медианного интервала;

– сумма накопленных частот в домедианном интервале.

Медианный интервал – это интервал, в котором находится порядковый номер медианы. Для его определения необходимо подсчитать сумму накопленных частот до числа, превышающего половину совокупности.

По данным гр. 5 вспомогательной таблицы находим интервал, сумму накопленных часто в котором превышает 50%. Это второй интервал – от 11,6 до 18,4, он и является медианным.

Тогда


Следовательно, половина работников имеющих стаж работы меньше 12,971 лет, а половина – больше этой величины.

6. Изобразим ряд в виде полигона, гистограммы, кумулятивной прямой, огивы.

Графическое представление играет важную роль в изучении вариационных рядов, так как позволяет в простой и наглядной форме проводить анализ статистических данных.

Существует несколько способов графического изображения рядов (гистограмма, полигон, кумулята, огива), выбор которых зависит от цели исследования и от вида вариационного ряда.

Полигон распределения в основном используется для изображения дискретного ряда, но можно построить полигон и для интервального ряда, если предварительно привести его к декретному. Полигон распределения представляет собой замкнутую ломаную линию в прямоугольной системе координат с координатами (x i , q i), где x i — значение i-го признака, q i — частота или частость i-ro признака.

Гистограмма распределения применяется для изображения интервального ряда. Для построения гистограммы на горизонтальной оси откладывают последовательно отрезки, равные интервалам признака, и на этих отрезках, как на основаниях, строят прямоугольники, высоты которых равны частотам или частностям для ряда с равными интервалами, плотностям; для ряда с неравными интервалами.


Кумулята есть графическое изображение вариационного ряда, когда на вертикальной оси откладываются накопленные частоты или частности, а на горизонтальной – значения признака. Кумулята служит для графического представления как дискретных, так и интервальных вариационных рядов.


Вывод: Таким образом, были рассчитаны основные показатели вариации исследуемого ряда: среднее значение признака – производственного стажа составляет 14,8 лет, рассчитана дисперсия равная 54,19, в свою очередь среднее квадратическое отклонение признака – 7,36. Мода имеет значение 9,5, в модальным интервалом является первый интервал изучаемого ряда. Медиана ряда равная 12,971, делит ряд на две равные части говорит о том что в исследуемой организации половина работников имеет стаж работы меньше 12,971 лет, а половина – больше.

ЗАДАНИЕ 2

Имеются следующие исходные данные, характеризующие динамику за 2000 – 2004 г.г. (таблица 2). Исчислите основные показатели рядов динамики. Расчет представьте в виде таблицы. Рассчитайте среднегодовые значения показателей. В виде графического изображения – полигона, обозначьте динамику анализируемого показателя. Сделайте вывод.

Таблица 2 Исходные данные

Год

2000

2001

2002

2003

2004

РЕШЕНИЕ

1) Средний уровень динамики рассчитывается по формуле


2) Цепные и базисные темпы роста рассчитываем следующим образом:

1. Абсолютный прирост определяется по формуле:

Аiб = yi – y0

Аiц = yi – yi-1

2. Темп роста определяется по формуле: (%)

Трб = (yi / y0) *100

Трц = (yi / yi-1)*100

3. Темп прироста определяется по формуле: (%)

Тnрб = Трб –100%:

Тnрц = Трц – 100%

4. Средний абсолютный прирост:


y n
– конечный уровень динамического ряда;

y 0
– начальный уровень динамического ряда;

n ц
– число цепных абсолютных приростов.

5. Среднегодовой темп роста:


6. Среднегодовой темп прироста:


3) Абсолютное содержание 1% прироста:

А = Хi-1 / 100.

Все рассчитанные показатели сводим в таблицу.

Показатели

Годы

2000

2001

2002

2003

2004

Средняя численность работающих на предприятии

2. Абсолютный прирост

Aiц

3. Темп роста

Трib

81,25

50,0

62,5

56,25

Трiц

81,25

61,54

125,0

90,0

4. Темп прироста

Тпib

18,75

50,0

37,5

53,75

Тпiц

18,75

38,46

25,0

10,0

5. Значение 1% прироста

0,65

7. Изобразим графически в виде полигона.

Xi


Таким образом, получено следующее. Наибольшее значение средней численности работающих на предприятии отмечается в базовом 2000 году. Средний уровень численности работников предприятия равен 56 человек, средний абсолютный прирост имеет отрицательную величину и равен 8,75. Среднегодовой темп роста равен 75%. Ввиду отрицательной динамики ряда среднегодовой темп прироста равен -25%. Максимальное снижение численности работников по сравнению с базовым 2000 годом отмечается в 2002 году и равен -40 человек (темп роста 50%). Цепной рост в 2003 году имеет положительную величину (+10 человек, темп роста цепной 125%), в 2004 году продолжилось снижение численности работников.

ЗАДАНИЕ 3

Имеются данные о реализации товаров (см. таблицу 3)

Таблица 3 Исходные данные о реализации товаров

Товар

Базовый год

Отчетный год

кол-во

цена

кол-во

цена

1200

1300

1100

1000

Определить: а) индивидуальные индексы (i p , i q ); б) сводные индексы (I p , I q , I pq); в) абсолютное изменение товарооборота за счет: 1) количества товаров; 2) изменения цены. Сделать вывод по решению задачи.

РЕШЕНИЕ

Составим вспомогательную таблицу

Вид

Базисный период

Отчетный период

Произведение

Индексы

Кол-во, q 0

Цена, p 0

Кол-во, q 1

Цена, p 1

q 0 * p 0

q 1 * p 1

q 1 * p 0

i q =q 1 /q 0

i p =p 1 /p 0

49140

54780

51480

1,048

1,064

61320

54780

67200

1,096

0,941

62400

56700

50400

0,808

1,125

1848

2432

2128

1,152

1,143

1200

1300

90000

106600

97500

1,0833

1,093

1100

1000

92400

88000

84000

0,909

1,077

ИТОГО

357108

363292

352708


Вывод: Как видим общий прирост товарооборота за год составил 6184 усл.ед., включая влияние изменения количества проданного товара на — 4400 и из-за изменения цены на товар увеличение на 10584 усл.ед. Общий прирост товарооборота составил 101,7%. В тоже время в общем цены на реализуемые товары выросли на 103%, а объем реализации снизился на 1,1%.

ЗАДАНИЕ 4

Из исходных данных таблицы № 1 (выбрать строки с 14 до 23 провести корреляционно-регрессионный анализ, определить параметры корреляции и детерминации. Построить график корреляционной зависимости между двумя признаками (результативным и факторным). Сделать вывод.

РЕШЕНИЕ

Исходные данные

Производственный стаж

Размер заработной платы

1800

2500

1750

1580

1750

1560

1210

1160

1355

1480

Прямолинейная зависимость

Параметры уравнения определяются по методу наименьших квадратов, по системе нормальных уравнения


Для решения системы используем метод определителей.

Параметры рассчитывает по формулам


x

y

Расчет объема выборки

Из всех вопросов, которые задают сотрудникам знаменитого Института опросов общественного мнения Гэллапа, самым попу­лярным является такой: как вы можете, проинтервьюировав 1000 человек, судить о том, что думают 250 млн американцев?

Для ответа на этот вопрос нужно упомянуть не только высокую квалификацию и огромный практический опыт сотрудников, но и использование ими статистики и математики. Если методы опроса не основаны на науке, результаты могут ввести вас в заблуждение.

В статистике приняты следующие разграничения объемов вы­борки. Объем выборки, достаточный для взаимопогашения слу­чайностей и.получения статистических характеристик закономер­ного характера, равен 30. Выборка такого объема называется ма­лой. Характер распределения значений признака в малых выборках приближается к нормальному с ростом числа испытаний. Мини­мальный объем выборки, позволяющий получить средние значе­ния признака с указанием доверительных вероятностей, равен 5. Выборки такого объема называются сверхмалыми. Распределение значений признака в таких выборках характеризуется распределе­нием Стьюдента. Но чаще всего в социологии имеют дело с го­раздо большим объемом выборки.

При планировании выборочного обследования наступает мо­мент, когда нужно решить, сколько человек опрашивать, т.е. ка­ким должен быть объем выборки. Это решение чрезвычайно важ­но, поскольку слишком большая выборка потребует излишних затрат, а слишком маленькая понизит качество результатов.

Объем выборки - общее число единиц наблюдения, включенных в выборочную совокупность.

Поскольку выборочная совокупность - это часть генеральной совокупности, отобранная с помощью специальных методов, - важно, чтобы эта часть не искажала представления о целом, т.е. репрезентировала его. Социологов, часто проводящих эмпиричес­кие исследования, постоянно волнует вопрос о том, как много надо опрашивать человек, чтобы получить достоверную информа­цию? Институт Гэллапа в США проводит регулярные опросы по национальной выборке объемом в 1,5 тыс. человек и достигает поразительной точности (ошибка выборки составляет от 1 до 1,5%). Центр «Социо-Экспресс» Института социологии РАН про­водит исследования на выборке объемом в 2 тыс. человек, при этом ошибка выборки не превышает 3% 31 .

Специалисты считают, что наилучшая выборка - не обязатель­но большая. Конечно, чем больше объем выборки, тем выше точ­ность ее результатов. Однако даже огромная выборка не гаранти­рует успеха, если генеральная совокупность «плохо перемешана», т.е. является неоднородной. Однородной считается такая совокуп­ность, в которой контролируемый признак распределен равномер­но, не образует пустот или сгущений. В этом случае, опросив не­скольких человек, можно получить точную информацию о распре­делении этого признака в генеральной совокупности.

Таким образом, на репрезентативность данных влияют не ко­личественные характеристики выборочной совокупности (ее объем), а качественные характеристики генеральной совокупнос­ти - степень ее однородности.

В социологии еще не придумано единой и четкой формулы, используя которую можно рассчитать оптимальный объем выбо­рочной совокупности, - такой формулы просто не существует в природе. И объясняется это весьма просто. Дело в том, что опре­деление объема выборочной совокупности - проблема не столько статистическая, сколько содержательная. Иными словами, объем выборочной совокупности зависит от множества факторов, в том числе от целей и задач, теоретической модели, гипотез и методов исследования, степени однородности генеральной совокупности, наконец, требующейся точности получаемой информации.

Надо всегда помнить, что каждый процент прироста точности ин­формации в исследовании приводит к резкому увеличению расходов на его проведение. Знаменитый институт Гэллапа, на протяжении многих десятилетий проводящий опросы в США, выявил, что при общенациональной выборке в 100 человек - ошибка выборки будет в пределах ±11%; 200 человек - ±8%; 400 - ±6%; 600 - ±5%; 750 -±4%; 1000 - ±4%; 1500 - ±3%; 4000 человек - ±2%. Именно поэто­му он проводит общенациональные опросы в США на выборке в 1500- 2000 человек. Как видно, он предпочитает увеличение ошибки на 1% многократному увеличению стоимости исследования.

Практика показывает, что для многих социологов обоснование объема выборки является камнем преткновения, несмотря на зна­чительное количество литературы, посвященной выборочным методам и, в частности, расчету объема выборки. Причин несколь­ко: 1) дефицит специальной литературы на периферии; 2) нехватка времени для самообразования; 3) неумение пользоваться матема­тическим аппаратом. В связи с этим возникает необходимость без сложных математических формул изложить стратегию и тактику обоснования объема выборки.

Процедура расчета объема выборки - цепь бесконечных компро­миссов между стремлением к точности и ограниченностью ресурсов, дефицитом времени и неполнотой сведений об изучаемом явлении. Вместе с тем это наука и искусство, познание которых доступно каж­дому человеку. Однако для этого нужно знать стратегии расчета объе­ма выборки (предварительного расчета, последовательной и комби­нированной стратегии), а также факторы, влияющие на объем вы­борки (объем генеральной совокупности, варьирование ответов респондентов, точность оценивания, характер предполагаемого рас­пределения ответов, метод исследования, процедура обработки).

Стратегия предварительного расчета состоит в том, что объем выборки определяется до проведения основного исследования. В наиболее простом случае можно воспользоваться уже наработан­ным опытом, например, института Гэллапа, где используется объем выборки приблизительно в 1500-2000 человек. Для средне­статистического отечественного исследования объема выборки - примерно 400-600 человек.

Для расчета объема случайной выборки надо знать желаемую точность оценивания, величину риска получаемого ответа и сте­пень изменчивости ответа. Традиционно точность оценивания принимают за 5%, а величину риска - за 0,95. Иными словами, если по данным выборочного исследования 60% опрошенных удовлетворены работой, то можно утверждать, что в генеральной совокупности доля удовлетворенных составит от 55 до 65% в 95% случаев, а в 5% случаев такая доля может выйти за этот интервал. Если исходить из 5%-ной точности и величины риска в 0,95, объем выборки будет следующим (табл. 2.4).

Таблица 2.4 Зависимость объема выборки от объема генеральной совокупности



Результаты, приведенные в табл. 2.4, свидетельствуют против распространенного заблуждения, будто бы объем выборки - жестко фиксированный процент от генеральной совокупности, рав­ный 10. На самом же деле эта величина - не постоянная, а пере­менная, изменяющаяся в конкретных условиях. Объем выборки зависит также от того, какие вопросы используются в анкете. Цифры в табл. 2.4 действительны только для одного случая - ког­да речь идет о дихотомическом вопросе, у которого максималь­ный разброс ответов - 50 на 50%. Не имея предварительной ин­формации о разбросе оценок, социолог как бы заранее страхуется и считает, что этот разброс составит 50 на 50%. Если же такая информация имеется, то объем выборки будет следующим.

Таблица 2.5 Зависимость объема выборки от распределения дихотомического ответа

В табл. 2.5 показано распределение ответов на качественные вопросы. Расчет объема выборки для количественных вопросов, включающих вопросы типа «возраст» и «заработная плата», стро­ится исходя из коэффициента вариации (табл. 2.6), который по­казывает, какой процент составляет среднее квадратическое откло­нение от средней арифметической, и позволяет сравнивать меж­ду собой (по степени варьирования) любые признаки.

Таблица 2.6 Зависимость объема выборки от коэффициента вариации

Коэффициент вариации, %
Объем выборки

Если изучаются условия труда, взаимоотношения в коллекти­ве, заработная плата и т.д. с помощью пятичленной шкалы, то коэффициент вариации изменяется здесь от 27 до 62%, а при ис­пользовании семичленной - от 78 до 113%. Стало быть, чем длиннее шкала, тем выше коэффициент вариации и больше дол­жен быть объем выборки. Если социолог хочет обойтись неболь­шой выборкой, то и вопросы должен формулировать проще. Иногда думают, что чем длиннее шкала, тем точнее измерение. Но преимущества семибалльных шкал над пятибалльными не доказаны.

Среди социологов распространено мнение, согласно которому чем больше объем выборки, тем точнее результат, и это заставля­ет их непомерно увеличивать количество опрошенных. В реальности дело обстоит иначе: табл. 2.7, составленная по данным Ин­ститута Гэллапа, показывает зависимость между объемом выбор­ки и точностью оценивания в процентах. Из нее следует, что с увеличением объема выборки точность возрастает, но до опреде­ленного порога. Уже при 600 опрошенных достигается желанный для всех 5%-ный уровень точности. Стало быть, 600 человек - приемлемый объем выборки.

Между цифрами 400 и 600 человек противоречия нет. В пер­вом случае объем выборки рассчитывался, исходя из положения о нормальном распределении ответов респондентов, а во втором - из практики. Расхождение между теорией и практикой обуслов­лено тем, что в реальной ситуации распределение оценок отлича­ется от нормального, поэтому объем выборки надо рассчитывать с учетом именно этого обстоятельства; наиболее эффективным способом уменьшения объема выборки является снижение коэф­фициента вариации оценок.

Таблица 2.7 Зависимость между объемом выборки и точностью оценивания

При расчете объема выборки социологи часто совершают та­кую ошибку: рассчитав по существующим формулам необходимый объем выборки в целом для совокупности, в дальнейшем пропор­ционально размещают его по отдельным подразделениям выбор­ки, например по цехам, предприятиям, районам, городам, типам семей. После чего на этапе обработки данных - анализируют уже сами различия между подразделениями. Однако правильнее вы­числить объем выборки отдельно для каждого подразделения, а)атем суммировать отдельные объемы. Допустим, расчеты объе­ма выборки по трем цехам (с учетом размерности шкалы, числен­ности работающих, характера предполагаемого распределения оценок) позволили установить, что в первом цехе необходимо спросить 384 человека, во втором - 222, а в третьем - 600. Тогда общий объем выборки составит 384 + 222 + 600 = 1206 человек.

Если социологу необходимо опросить какую-либо катего­рию работников (допустим, водителей автобусов), о которой из­вестно лишь, что к ней принадлежит, например, десятый работ­ник предприятия, и он решил спросить 139 водителей автобусов, а общий объем выборки для предприятия составит 1390 человек, т.е. иными словами, отбирая случайным образом 1390 респонден­тов на предприятии, мы в соответствии с теорией выборки наде­емся выявить 139 человек интересующей нас специальности.

При расчете квотной выборки социологи часто произвольно определяют ее объем в 1000 человек, исходя из удобства вычисле­ния квот. Но с таким же успехом можно взять любое другое круг­лое число. Более обоснованным является подход, при котором объем квотной выборки рассчитывается как для случайной. Дру­гим вариантом расчета объема квотной выборки является исполь­зование теории малых выборок. Ее суть: если не ставится цель дать дифференцированный анализ по группам работников, то умножа­ют количество градаций вопросов, подлежащих изучению, на 25 (минимальный статистический значимый размер группы). Напри­мер, изучают три переменные: пол - две категории, возраст - две категории (до 30 лет и свыше 30 лет), удовлетворенность трудом - измеряется пятибалльной шкалой. Тогда необходимый объем вы­борки для данного примера составит 2x2x5x25 = 500 человек. Объем выборки увеличивается в 2,5 раза. Ясно, что с расширени­ем числа переменных и числа градаций объем выборки может стать катастрофически большим. Выход только один: детальная проработка исходной проблемы, которая позволит отбраковать лишние вопросы в анкете, оставив самые важные. Если в иссле­довании проверяется несколько гипотез, то объем выборки для проверки каждой гипотезы вычисляется отдельно. Таким образом, при использовании выборки количество вопросов в анкете и ги­потез должно быть минимальным.

Итак, мы рассчитали требуемый объем выборки. Теперь, и только теперь необходимо проверить, совместима ли полученная величина с выделенными ресурсами. Типичная ошибка многих социологов-прикладников состоит в том, что при расчете объема выборки во главу угла ставятся наличные ресурсы или, хуже того, социолог пассивно принимает все условия, диктуемые заказчиком. Это в корне неверно по нескольким причинам. Во-первых, рас­чет объема выборки позволяет глубже проникнуть в суть изучае­мого предмета и специфику методов исследования, а значит, ар­гументированно требовать получения больших ресурсов или при­нять правильное решение о снижении объема выборки. Если администрация отказала в дополнительных ресурсах, а цели исследования не позволяют сократить объем выборки (т.е. социолог не может принять решение администрации), то надо переходить к другой схеме исследования. Во-вторых, обоснованный расчет объема выборки показывает профессионализм социолога и застав­ляет заказчика относится к нему более уважительно.

Стратегия последовательного расчета объема выборки. При расчете объема выборки желательно знать разброс оценок и не­которые другие параметры. Однако они-то, как правило, неиз­вестны. Для того чтобы не допустить ошибки, лучше предполо­жить, что они максимальны. Плата за наше незнание - разбухание объема выборки сверх необходимого и дополнительные финансовые и временные затраты (приходится опрашивать боль­шее число людей). Для сохранения затрат применяется последовательная стратегия - объем выборки не рассчитывается заранее, а ставится в зависимость от конечных результатов исследования. Например, опрашивают 100 человек, затем устанавливают величину разброса оценок и уже в зависимости от этого рассчитыва­ют необходимый объем выборки. Если оказывается, что 100 человек достаточно, то исследование заканчивается. В противном слу­чае добирается необходимое количество респондентов, но не до бесконечности. Известен пример из практики Дж. Гэллапа, ко­торый в начале своей карьеры активно экспериментировал с объемами выборки. В 1936 г. американцам был задан вопрос: «Хотели бы вы возобновления закона о восстановлении нацио­нальной промышленности?» Выяснился странный парадокс: Дж. Гэллап вначале опросил 500 человек и замерил ошибку выбор­ки, а затем последовательно наращивал число респондентов до 30 тыс. К своему сожалению, он обнаружил, что прибавление 29,5 тыс. опрошенных увеличило точность информации менее чем на 1%. Следовательно, опрос можно было прекращать уже при 500 опрошенных. Этот пример показывает, что, применяя последовательную стратегию, можно добиваться значительного снижения необходимого числа наблюдений по сравнению с пред­варительным расчетом объема выборки.

Однако стратегия последовательного расчета объема выборки приносит желаемый результат лишь в том случае, если социолог может производить необходимые расчеты в ходе самого опроса, например телефонного, с применением компьютерных систем. Социолог вводит ответы респондента в свой персональный компь­ютер, с него результаты сразу поступают на компьютер руководи­теля исследования, обрабатываются, и на экране дисплея выдается информация не только об одномерных частотах, распределенных по тому или иному вопросу, но и о требуемом объеме выборки.

Если существует опасность, что объем выборки может оказаться катастрофически большим, надо совместить оба вида стратегии - предварительную и последовательную, т.е. применить комбиниро­ванную стратегию. Рассчитывая выборку по предварительной стра­тегии, получаем верхние допустимые значения для последователь­ной стратегии или, иначе говоря, ту величину объема выборки, при достижении которой прекращается опрос по последователь­ной стратегии.

Наиболее обоснованный и корректный подход к определению объема выборки основан на расчете доверительных интервалов, в основе которого лежит ряд базовых понятий математической ста­тистики (вариация, среднее квадратическое отклонение, довери­тельный интервал, средняя квадратическая ошибка).

Для расчета необходимого размера выборки в количественном исследовании чаще всего используют два статистических поня­тия - доверительный интервал и доверительную вероятность. Доверительный интервал представляет собой заранее задаваемую вами погрешность выборки. Например, если вы задаете довери­тельный интервал в 3% и конкретный ответ на конкретный воп­рос исследования составит 48%, это значит, что даже при прове­дении опроса всей генеральной совокупности реальное значение попадет в интервал между 45 (48 - 3) и 51% (48 + 3). Доверитель­ная вероятность показывает, насколько вы можете быть уверены в полученных результатах, в том, что характеристики выборки со­ответствуют характеристикам всей генеральной совокупности - иными словами, с какой вероятностью случайный ответ попадет в доверительный интервал. Обычно используют доверительную вероятность 95 и 99%. Чаще всего используется 95% - этого впол­не достаточно в подавляющем большинстве исследований. Если объединить доверительную вероятность и доверительный интер­вал, то можно сказать, что ответы на вопрос с 95%-ной вероятно­стью попадут в интервал между 45 и 51%.

Весьма полезна следующая приблизительная оценка надеж­ности результатов выборочного обследования. Повышенная на­дежность допускает ошибку выборки до 3%, обыкновенная - от 3 до 10% (доверительный интервал распределений на уровне 0,03- 0,1), приближенная - от 10 до 20%, ориентировочная - от 20 до 40%, а прикидочная - более 40%.

На основе этих понятий с учетом ряда предположений выво­дятся формулы расчета объема выборки, которые предполагают, что репрезентативность гарантируется путем использования кор­ректных вероятностных процедур формирования выборки.

В ряде случаев в качестве главного аргумента при определе­нии объема выборки используется стоимость проведения обсле­дования. Так, в бюджете маркетинговых исследований пред­усматриваются затраты на проведение определенных обследова­ний, которые нельзя превышать, и очевидно, что ценность получаемой информации не принимается при этом в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.

Исследовательская практика подсказывает следующее прави­ло: объем выборки должен обеспечивать не менее 100 наблюде­ний для каждой первостепенной и не менее 20-50 наблюдений для каждой второстепенной классификационной составляющей. 11ервостепенные классификационные составляющие соответ­ствуют наиболее критичным, а второстепенные - наименее кри­тичным ячейкам перекрестной классификации, принятой в данном исследовании 34 . Теоретические расчеты и практика дока­зывают, что для получения достоверных данных о мнении и предпочтениях населения такого крупного города, как Санкт-Петербург, достаточно опросить 700-800 человек. Однако боль­шинство опросов населения здесь проходят на выборках объемом до 1,5 тыс. человек.

Ошибка выборки

Как мы уже знаем, репрезентативность - свойство выборочной совокупности представлять характеристику генеральной. Если со­впадения нет, говорят об ошибке репрезентативности - мере от­клонения статистической структуры выборки от структуры соот­ветствующей генеральной совокупности. Предположим, что сред­ний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной - 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезента­тивности. Иными словами, ошибкой репрезентативности называ­ется расхождение между двумя совокупностями - генеральной, на которую направлен теоретический интерес социолога и представ­ление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес со­циолога, которая выступает одновременно как объект обследова­ния и средство получения информации о генеральной совокупно­сти.

Наряду с термином «ошибка репрезентативности» в отечествен­ной литературе можно встретить другой - «ошибка выборки». Иногда они употребляются как синонимы, а иногда «ошибка вы­борки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки - отклонение средних характеристик выбо­рочной совокупности от средних характеристик генеральной со­вокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выбороч­ными средними. В социологии при обследованиях взрослого на­селения чаще всего используют данные переписей населения, те­кущего статистического учета, результаты предшествующих оп­росов. В качестве контрольных параметров обычно применяются социально-демографические признаки. Сравнение средних гене­ральной и выборочной совокупностей, на основе этого опреде­ление ошибки выборки и ее уменьшение называется контроли­рованием репрезентативности. Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, та­кой способ контроля называется апостериорным, т.е. осуществ­ляемым после опыта.

В опросах Института Дж. Гэллапа репрезентативность конт­ролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, до­ходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных це­лей такие показатели, как пол, возраст, образование, тип посе­ления, семейное положение, сфера занятости, должностной ста­тус респондента, которые заимствуются в Государственном ко­митете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно устано­вить, если неизвестны значения переменной в выборочной и ге­неральной совокупностях.

Специалисты ВЦИОМ обеспечивают при анализе данных тща­тельный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. яв­ляются легко достижимой группой по сравнению с мужчинами и людьми «необразованными».

Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки.

Ошибки выборки подразделяются на два типа - случайные и систематические. Случайная ошибка - это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погреш­ности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности (табл. 2.8).

Таблица 2.8

Зависимость объема выборки от ее ошибки 36 (размер генеральной совокупности составляет 20 тыс. ед.)

Ошибка выборки, %
Объем выборки, ед.

Второй тип ошибок выборки - систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил толь­ко тех, у кого есть телефон, то возникает предумышленное смеще­ние выборки в пользу зажиточных слоев, т.е. систематическая ошибка.

Таким образом, систематические ошибки - результат деятель­ности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов ис­следования. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и изме­рению.

Они возникают, когда, например: 1) выборка не соответствует задачам исследования (социолог решил изучить только работаю­щих пенсионеров, а опросил всех подряд); 2) налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает толь­ко 10%); 3) отбираются только «выигрышные» элементы генераль­ной совокупности (например, только обеспеченные пенсионеры).

Внимание! В отличие от случайных ошибок систематические ошибки при возрастании объема выборки не уменьшаются.

Обобщив все случаи, когда происходят систематические ошиб­ки, методисты составили их реестр. Они полагают, что источни­ком неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:

♦ нарушены методические и методологические правила про­ведения социологического исследования;

♦ выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;

♦ произошла замена требуемых единиц наблюдения другими, более доступными;

♦ отмечен неполный охват выборочной совокупности (недо­получение анкет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать сис­тематические ошибки, точно предвидя их источники, лучше все­го заранее - в самом начале исследования.

Вот некоторые способы избежать ошибок:

♦ каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;

♦ отбор желательно производить из однородных совокупностей;

♦ надо знать характеристики генеральной совокупности;

♦ при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) состав­лена правильно, то социолог получает надежные результаты, ха­рактеризующие всю генеральную совокупность. Если она состав­лена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологичес­кого исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вре­да, нежели пользы.

Подобные ошибки могут произойти только с выборочной со­вокупностью. Чтобы избежать или уменьшить вероятность ошиб­ки, самый простой способ - увеличивать размеры выборки (и идеале до объема генеральной: когда обе совокупности совпа­дут, ошибка выборки вообще исчезнет). Экономически такой ме­тод невозможен. Остается другой путь - совершенствовать мате­матические методы составления выборки. Они-то и применяют­ся на практике. Таков первый канал проникновения в социологию математики. Второй канал - математическая обработка данных.

Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выбор­ки. Обычно они составляют несколько сотен, реже - тысячу рес­пондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Чис­ленность выборочной совокупности зависит от двух факторов: I) стоимости сбора информации и 2) стремления к определенной степени статистической достоверности результатов, которую на­деется получить исследователь. Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генераль­ной совокупности в целом, тем более надежны и достоверны по­мученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструмента­рия, труда анкетеров, полевых менеджеров и операторов по ком­пьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается вто­рого фактора, то мы остановимся на нем чуть подробнее.

Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необ­ходимо узнать, какая часть потребителей пива предпочитает имен­но его марку, а не сорт его конкурента, - 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.

Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри ге­неральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно (гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внут­ри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выбор­ки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы».

Определение объема выборки зависит также от уровня довери­тельного интервала допустимой статистической ошибки. Здесь имеются в виду так называемые случайные ошибки, которые свя­заны с природой любых статистических погрешностей. В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5%-ной ошибки (табл. 2.9):

Таблица 2.9

Расчеты репрезентативной выборки

Это означает, что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособно­го населения составляет 100 тыс. человек, выявили, что 33% оп­рошенных покупателей предпочитают продукцию местного мясо­комбината, то с 95%-ной 39 вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33±5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки (см. выше).

Сегодня многие трудные расчеты берет на себя техника, а стати­стические программы можно получить по Интернету. Вот и с рас­четом выборки ленивому социологу предоставили такую возможность на веб-сайте Аналитического центра «Бизнес и маркетинг» (http://www.bma.ru/enter.htm), где пользователю надо лишь внести необходимые данные, а затем нажать на кнопку «Рассчитать».