для чего нужно z преобразование в статистике
Русские Блоги
Введение
Стандартизация Z-Score является распространенным методом обработки данных. Благодаря этому различные уровни данных могут быть преобразованы в единую оценку Z-Score для сравнения.
Версия с одним предложением объяснения:
Z-Score преобразует два или более набора данных в безразмерные Z-Score значения через (x-μ) / σ, что унифицирует стандарты данных, улучшает сопоставимость данных и ослабляет интерпретируемость данных.
Анализ данных и расположение системы майнинга
Стандартизация Z-Score является одним из методов обработки данных. В стандартизации данных существует три общих метода:
Эта статья в основном представляет первый метод стандартизации данных, Z-Score стандартизации.
Положение этого метода во всей системе анализа и анализа данных показано на рисунке ниже.
Определение Z-Score
Метод обработки Z-Score находится на стадии подготовки данных всей структуры. Другими словами, после того, как исходные данные поступают в базу данных через веб-сканеры, интерфейсы или другие методы, следующий шаг является важным этапом на этапе предварительной обработки данных.
При анализе и анализе данных многие методы требуют, чтобы образцы соответствовали определенным стандартам.Если многие независимые переменные, которые необходимо проанализировать, не имеют одинаковую величину, это вызовет трудности в анализе и даже повлияет на точность последующего моделирования.
Например, предположим, что мы хотим сравнить результаты тестов A и B. Полная оценка тестовой бумаги A составляет 100 баллов (60 баллов), а полная оценка тестовой бумаги B составляет 700 баллов (420 баллов). Очевидно, что 70 баллов, набранных с помощью теста A, и 70 баллов, набранных с помощью теста B, представляют совершенно разные значения. Но с точки зрения числового значения, A и B используют число 70 для представления своих соответствующих результатов в листе данных.
Итак, как мы можем сравнить результаты A и B с эквивалентным стандартом? Z-Score может решить эту проблему.
На следующем рисунке описано определение и различные характеристики Z-Score.
Цель Z-Score
Как показано на рисунке выше, основной целью Z-Score является равномерное преобразование данных разных величин в одну и ту же величину, равномерно измеренную по вычисленному значению Z-Score для обеспечения сопоставимости данных.
Понимание и расчет Z-Score
Перед стандартизацией данных с помощью Z-Score нам необходимо получить следующую информацию:
1) Среднее значение общих данных (μ)
В приведенном выше примере общая оценка может быть средней оценкой всего класса или средней оценкой города и страны.
2) Стандартное отклонение общих данных (σ)
Эта популяция должна быть в том же порядке, что и популяция в 1).
3) Индивидуальные наблюдения (х)
В приведенном выше примере, то есть соответствующие достижения A и B.
Подставляя вышеуказанные три значения в формулу Z-Score, а именно:
Мы можем преобразовать разные данные в одну величину для достижения стандартизации.
Вернемся к предыдущему примеру. Предположим, что средний балл по классу A равен 80, стандартное отклонение равно 10, и A набирает 90 баллов, средний балл по классу B равен 400, стандартное отклонение равно 100, а B набирает 600 баллов.
Используя приведенную выше формулу, мы можем рассчитать, что Z-показатель А равен 1 ((90-80) / 10), а Z-Сокр B равен 2 ((600-400) / 100). Таким образом, результаты B более превосходны.
Таким образом, видно, что Z-Score может эффективно конвертировать данные в единый стандарт, но вам нужно обратить внимание и сравнить. Сам Z-Score не имеет практического значения, и его практическое значение необходимо понимать в сравнении, что также является одним из недостатков Z-Score.
Преимущества и недостатки Z-Score
Самым большим преимуществом Z-Score является то, что его просто и легко рассчитать.В R нет необходимости загружать пакет, а Z-Score можно рассчитать и сравнить с простейшей математической формулой. Кроме того, Z-Score может применяться к числовым данным и не зависит от величины данных, поскольку его роль заключается в устранении неудобств, вызванных величиной анализа.
Но приложение Z-Score также имеет риски. Во-первых, оценка Z-показателя требует общего среднего значения и дисперсии, но это значение трудно получить в реальном анализе и добыче. В большинстве случаев вместо этого используются среднее значение и стандартное отклонение выборки. Во-вторых, Z-Score предъявляет определенные требования к распределению данных, и нормальное распределение является наиболее подходящим для расчета Z-Score. Наконец, Z-Score исключает фактическое значение данных.Z-Оценка A и Z-Оценка B больше не связаны с их соответствующими показателями, поэтому результаты Z-Score можно использовать только для сравнения результатов между данными. Истинное значение данных необходимо восстановить до первоначального значения.
Внедрение Z-Score в R
Что такое Z-Score?
Проще говоря, z-оценка (также называемая стандартной оценкой) дает представление о том, насколько она далека от среднего значения точки данных. Более технически это мера того, сколько стандартных отклонений ниже или выше данной популяции означают необработанный балл.
Основной формулой для выборки является z-значение:
Например, скажем, у тебя результат теста 190. Среднее значение теста (μ) 150 и стандартное отклонение (σ) 25. Если предположить нормальное распределение, то ваша оценка “z” будет:
Счетчик z говорит вам о стольких стандартных отклонениях от среднего вашего счета. В этом примере ваша оценка составляет 1,6 стандартных отклонений от среднего значения.
Вы также можете увидеть формулу оценки z, показанную слева. Это та же самая формула, что и z = x – μ / σ, за исключением того, что вместо μ (среднее значение по выборке) используется x̄ (среднее значение по совокупности), а вместо σ (среднеквадратическое отклонение по совокупности) – s (среднеквадратическое отклонение по выборке). В любом случае, для его решения существуют точно такие же шаги.
Формула оценки Z: Стандартная ошибка среднего
Если у вас несколько примеров и вы хотите описать стандартное отклонение этих средств выборки (стандартная ошибка), вы должны использовать эту формулу оценки z:
Этот z-значение скажет вам, что между средним значением выборки и средним значением популяции существует много стандартных ошибок.
Пример проблемы: В целом, средний рост женщин составляет 65 дюймов при среднеквадратическом отклонении 3,5 дюйма. Какова вероятность нахождения случайной выборки из 50 женщин со средним ростом 70″, при условии, что высоты распределены нормально?
= (70 – 65) / (3.5/√50) = 5 / 0.495 = 10.1
Если ключевым здесь является то, что мы имеем дело с выборочным распределением средств, то для того, чтобы мы знали, что мы должны включить стандартную ошибку в формулу. Мы также знаем, что 99% значений подпадают под 3 стандартных отклонения от среднего в нормальном распределении вероятностей (см. правило 68 95 99.7). Таким образом, существует менее 1% вероятность того, что любая выборка женщин будет иметь среднюю высоту 70″.
Смущает, когда использовать σ, а когда – σ √n? См: Sigma / sqrt (n) – почему она используется?
Как вычислить Z-Score
Z-диапазон легко вычисляется на калькуляторе TI-83 или в Excel. Если же у вас нет и того, и другого, вы можете вычислить его вручную.
Введите значение X в уравнение z. В этом примере значение X – это ваш результат SAT, 1100.
Шаг 2: Введите среднее значение, μ, в уравнение z-значения
напишите стандартное отклонение, σ в уравнении z-score.
Шаг 4: Найдите ответ с помощью калькулятора:
4. 4. Z баллов и стандартных отклонений
Технически z-значение представляет собой число стандартных отклонений от стандартного значения референтной популяции (популяции, известные значения которой были зафиксированы, как на этих графиках, которые ЦКЗ составляет по весам людей). Например:
Z-значение 1 – 1 выше среднего стандартного отклонения.
Балл 2 – 2 выше среднего стандартного отклонения.
Показатель z указывает на то, где находится показатель на кривой нормального распределения. Z-значение нуля показывает, что значение является точно средним, в то время как значение +3 показывает, что значение намного выше среднего.
Вернуться к началу
5. 5. Как вы используете его в реальной жизни?
Вы можете использовать z-таблицу или график нормального распределения, чтобы получить представление о том, как z-значение 2.0 означает “выше среднего”. Предположим, что у вас есть вес человека (240 фунтов), который, как вы знаете, имеет z-значение 2.0. Знаете ли вы, что 2.0 выше среднего (из-за высокого позиционирования на кривой нормального распределения), но хотели бы знать, насколько больше, чем среднее значение этого веса?
Это говорит о том, что 97.72% населения набрало меньше баллов, а 100% – 97.72% = 2.28% набрало больше баллов. Очень простой 2,28% населения находится выше этого человека по весу…… вероятно, это хороший признак того, что он нуждается в питании!
1. Поиск Z-баллов на TI-89.
Редактор статистики/списка TI-89 Titanium содержит простое меню, в котором за считанные секунды можно выполнить поиск по Z-баллу. В этом разделе показано, как найти Z-значение критического значения в левом хвосте. Кривая нормального распределения симметрична, так что это также будет область в правом хвосте.
Вы не уверены, является ли ваш тест левым или правым хвостом? Смотрите раздел “Тест на левый хвост или правый хвост”, чтобы помочь вам принять решение.
Z-балл: Определение, формула и вычисление.
Как рассчитать Z-баллы.
Подробнее о Z-баллах и стандартных отклонениях.
Как это используется в реальной жизни?
Как найти Z-баллы по TI-89.
Как найти Z-баллы в Excel.
Как найти критическое значение Z на TI-83.
1. Что такое Z-значение?
Проще говоря, z-оценка (также называемая стандартной оценкой) дает вам представление о том, насколько далеко от среднего значения находится точка данных. Но более технически, это мера того, сколько стандартных отклонений ниже или выше численности населения означает, что приблизительная оценка является приблизительной.
Z-значения являются способом сравнения результатов с “нормальной” популяцией. Результаты тестов или обследований имеют тысячи возможных результатов и единиц; часто эти результаты могут показаться бессмысленными. Например, знание того, что чей-то вес составляет 150 фунтов, может быть хорошей информацией, но если вы хотите сравнить его с “средним” весом человека, просмотр обширной таблицы данных может быть ошеломляющим (особенно, если некоторые веса записываются в килограммах). Z-значение может сказать вам, где вес этого человека сравнивается со средним весом средней популяции.
Вернуться к началу страницы
2. Z Формулы оценок
Формула “Z”: Один образец
Базовая формула оценки z для выборки:
Например, скажем, у тебя результат теста 190. Среднее значение теста (μ) 150 и стандартное отклонение (σ) 25. Если предположить нормальное распределение, то ваша оценка “z” будет:
Показатель z говорит вам, сколько стандартных отклонений от среднего вашего балла. В этом примере ваша оценка составляет 1,6 стандартных отклонений от среднего значения.
переменная z-оценкаВы также можете увидеть формулу z-оценки, показанную слева. Это та же самая формула, что и z = x – μ / σ, за исключением того, что вместо μ (среднее значение по выборке) используется x̄ (среднее значение по совокупности), а вместо σ (среднеквадратическое отклонение по совокупности) – s (среднеквадратическое отклонение по выборке). Однако шаги по его решению абсолютно одинаковы.
Формула оценки Z: Стандартная ошибка среднего
Когда у вас несколько примеров и вы хотите описать стандартное отклонение этих средств выборки (стандартная ошибка), вы должны использовать эту формулу z баллов:
Этот z-значение скажет вам, сколько стандартных ошибок имеется между средним значением выборки и средним значением популяции.
Пример проблемы: В целом, средний рост женщин составляет 65 дюймов при среднеквадратическом отклонении 3,5 дюйма. Какова вероятность нахождения случайной выборки из 50 женщин со средним ростом 70″, при условии, что высоты распределены нормально?
= (70 – 65) / (3.5/√50) = 5 / 0.495 = 10.1
Ключевым моментом здесь является то, что мы имеем дело с выборочным распределением средств, так что мы знаем, что мы должны включить стандартную ошибку в формулу. Мы также знаем, что 99% значений подпадают под 3 стандартных отклонения от среднего в нормальном распределении вероятностей (см. правило 68 95 99.7). Следовательно, вероятность того, что любая выборка женщин будет иметь среднюю высоту 70″, составляет менее 1%.
Смущает, когда использовать σ, а когда – σ √n? См: Sigma / sqrt (n) – почему она используется?
Назад к началу страницы
3. Как рассчитать Z-балл.
Вы можете легко вычислить z-значение на калькуляторе TI-83 или в Excel. Однако, если у вас нет ни того, ни другого, вы можете вычислить его вручную.
Пример вопроса: Вы берёте SAT и получаете 1100 баллов. Средний балл SAT равен 1026, а стандартное отклонение – 209. Насколько хорошо вы сдали тест по сравнению со средним тестом?
Шаг 1: Запишите ваше X-значение в уравнение z-оценки. Для данного примера вопрос X-значения – это ваша оценка SAT, 1100.
ВЫЧИСЛИТЕ Z БАЛЛОВ 1
Шаг 2: Введите среднее значение, μ, в уравнение z-значения.
ВЫЧИСЛИТЬ Z БАЛЛОВ 2
Шаг 3: Запишите стандартное отклонение, σ в уравнение z-значения.
ВЫЧИСЛИТЬ Z БАЛЛОВ 3
Шаг 4: Найдите ответ с помощью калькулятора:
Нравится объяснение? Посмотрите Практическое руководство по статистике обмана, в котором есть еще сотни пошаговых объяснений, таких же, как и в этом!
Назад к началу страницы
4. Z баллов и стандартных отклонений
Технически z-значение – это число стандартных отклонений от среднего значения референтной популяции (популяции, известные значения которой были зафиксированы, как в этих диаграммах ЦКЗ собирает данные о весах людей). Например:
z-значение 1 – это 1 среднеквадратическое отклонение выше среднего.
Балл 2 – 2 среднеквадратических отклонения выше среднего.
Показатель z говорит о том, где находится показатель на кривой нормального распределения. Z-значение нуля говорит вам о том, что значения являются точно средними, в то время как значение +3 говорит вам о том, что значение намного выше среднего.
Назад к началу страницы
5. Как он используется в реальной жизни?
Вы можете использовать z-таблицу и график нормального распределения, чтобы получить представление о том, как z-значение 2.0 означает “выше среднего”. Допустим, у вас есть вес человека (240 фунтов), и вы знаете, что его z-значение 2.0. Вы знаете, что 2.0 выше среднего (из-за высокого расположения на кривой нормального распределения), но вы хотите знать, насколько выше среднего этот вес?
определение балла z
Это говорит о том, что 97,72% баллов населения лежат ниже этого конкретного балла, а 100% – 97,72% = 2,28% баллов лежат выше этого балла. Просто 2,28% населения находится выше этого человека по весу…. возможно, это хороший признак того, что он должен соблюдать диету!
1. Как найти Z-значение на TI-89.
Редактор статистики/списка TI-89 Titanium содержит простое меню, в котором вы можете за считанные секунды просмотреть Z-баллы. В этом разделе показано, как найти Z-оценку критического значения в левом хвосте. Кривая нормального распределения симметрична, поэтому это также будет область в правом хвосте.
Не уверены, является ли ваш тест левым или правым хвостом? См. раздел “Тест с левым хвостом или с правым”, чтобы помочь вам принять решение.
Обратите внимание, что у вас должен быть установлен редактор Stats/List Editor, чтобы вы могли сделать распределение частот TI-89, используя эту инструкцию.
Z Оценка TI 89: Шаги
Посмотрите видео или прочитайте шаги, описанные ниже:
Шаг 1: Нажмите кнопку Apps, прокрутите до редактора Stats/List Editor и нажмите ENTER.
Если вы не видите редактора статистики и списка, вы можете скачать его здесь. Это официальное приложение TI, и вам нужно будет перенести его на ваш калькулятор с помощью кабеля, который изначально поставлялся с вашим TI-89.
Шаг 2: Нажмите F5 2 1, чтобы перейти к экрану “Обратная норма”.
Шаг 4: Введите 0 для среднего, μ и 1 для стандартного отклонения, σ.
Шаг 5: Нажмите ENTER.
Совет: Если вам дали среднее и стандартное отклонение, введите их вместо 0 и 1 на Шаге 4.
Вот как найти Z баллов по TI 89!
Как найти Z-балл в Excel.
Z-Score в Excel: Обзор
Z-оценка в Excel может быть быстро вычислена с помощью базовой формулы. Формула для вычисления z-массы составляет
где μ – среднее по населению и σ – стандартное отклонение по населению.
Примечание: Когда стандартное отклонение популяции неизвестно или размер выборки меньше 6, следует использовать t-скор вместо z-скора.
Z-балл в Excel: Шаги
шаг 1: Введите среднюю численность в пустую ячейку. В данном примере введите “469” в ячейке A2. Необязательно: Введите слово “average” в качестве заголовка столбца в ячейке A1, чтобы запомнить значение в ячейке A2.
Шаг 2: Введите стандартное отклонение популяции в пустой ячейке. Для данного примера в ячейке B2 введите “119”. Необязательно: Введите слово “стандартное отклонение” в качестве заголовка столбца в ячейке B1, чтобы запомнить значение в ячейке B2.
Шаг 3: Введите значение X (в данном примере задача X – это ваш GRE-счет) в пустой ячейке. Для этого примера в ячейке C2 введите “650”. Необязательно: Введите слова “X” в качестве заголовка столбца в ячейке B1, чтобы запомнить, что означает значение в ячейке B2.
Шаг 4: В пустую ячейку введите следующую формулу:
Шаг 5: Нажмите “Enter”. В ячейке D2 появится z-значение: z-значение 1.521008 в этой выборке проблемы указывает на то, что ваш GRE-значение было 1.521008.
Вот и все! Вы нашли z-значение в Excel.
Подсказка: Вы можете использовать ее снова и снова, как только введете формулу один раз. Просто введите новое среднее, стандартное отклонение и значение X в соответствующие поля.
Погружаемся в статистику вместе с Python. Часть 1. Z-статистика и p-value
Я предполагаю, что вы уже знакомы с основами теории вероятности, поэтому здесь не будет математических выкладок и строгих доказательств. Если нет, то рекомендую почитать следующие книги:
«Теория вероятности и математическая статистика» Л. Н. Фадеева, А. В. Лебедев;
«Теория вероятности и математическая статистика» В. П. Лисьев. В ней гораздо больше примеров и разъяснений. Так что если первые две книги не «побеждаются», то можете смело браться за Лисьева. Однако в первых двух книгах очень хорошее введение в теорию вероятности.
Ну и наконец книга «Статистика для всех» Сара Бослаф. Я бы порекомендовал для прочтения только эту книгу, но мне кажется, что если бы я ее читал, абсолютно не зная теорию вероятности и мат. статистику, то я бы очень много вообще не понял, ну или очень долго вникал в текст, формулы и картинки. Там конечно есть разделы с основами для конкретных новичков, но на мне такое не работает. Хотя, более чем вероятно, что этой книги для вас этого окажется более чем достаточно. В книге намеренно нет примеров с кодом, но это скорее плюс чем минус, потому что в книге есть примеры численных расчетов. Так что можно кодить и сравнивать свои результаты с результатами из книги.
Конечно в интернете море всякой литературы, но как пишет Сара в своей книге «Вода, вода, кругом вода, а мы не пьем», намекая на то, что книг море, но самоучки умирают от «жажды».
Пример не для тех кто проголодался
Давайте представим. так постойте, прежде чем что-то представлять давайте сделаем все необходимые импорты и настройки:
Вот теперь давайте представим, что в течение года мы заказываем пиццу на дом, при этом мы каждый раз смотрим на стенные стрелочные часы, отмечая время, которое проходит между заказом и доставкой, целым количеством минут. Тогда накопленные за год данные о доставке пиццы могли бы выглядеть так:
Конечно же теперь нам интересно выяснить среднее время доставки пиццы и его среднеквадратическое отклонение:
Можно сказать, что время доставки пиццы занимает где-то минут.
А еще, было бы интересно посмотреть на то, как распределены данные:
Глядя на такой график, мы вполне можем допустить, что время доставки пиццы имеет нормальный закон распределения с параметрами и
. Кстати, а почему мы решили, что распределение нормальное? Потому что гистограмма хорошо смотрится на фоне функции распределения плотности вероятности нормального распределения? Если речь идет о визуальном предпочтении, то с таким же успехом мы можем подогнать и нарисовать функции распределений плотности гамма, бета и даже треугольного распределения:
Распределение точно нормальное?
Доставкой пицы занимается человек, а сам процесс доставки сопровождается множеством случайных событий которые могут произойти на его пути:
на перекрестке пришлось ждать две минуты пока светофор загорится зеленым;
ударился ногой и из-за хромоты шел дольше обычного;
доставщик оказался скейтбордистом и передвигался быстрее обычного;
дорогу перебежала черная кошка и пришлось идти другим более долгим путем;
развязались шнурки и пришлось тратить время на их завязывание;
развязались шнурки и доставщик упал, поэтому пришлось тратить время на отряхивание грязи и завязывание шнурков.
Конечно, мы можем придумывать очень много таких событий, вплоть до самых невероятных (возможно одна из дорог в Ад вымощена не доставленными пиццами, поэтому мы не будем выдумывать что-то обидное. Ок?). Тем не менее, для нас важно что бы эти события описывались такими переменными, значения которых равновероятны, т.е. распределены по равномерному закону. В качестве примера, можно придумать переменную , которая будет описывать время ожидания зеленого света светофора на перекрестке. Если это время заключено в промежутке от нуля до четырех минут, то сегодня это время может составлять:
А завтра, после-завтра и после-после-завтра это время может быть равно:
Теперь представим, что таких переменных 15 и значение каждой из них вносит свой вклад в общее время доставки, потому что эти события могут складываться. К примеру, если бы я был доставщиком то я:
Если мы придумали всего 15 случайных переменных: , то можно сказать, что общее время доставки является их суммой и тоже является случайной величиной, которую можно обозначить буквой
:
Не напоминает ли вам эта картинка тот самый колокол, того самого нормального распределения? Если напоминает, то вы только, что поняли смысл центральной предельной теоремы: распределение суммы случайных переменных стремится к нормальному распределению при увеличении количества слагаемых в этой сумме.
Конечно, пример с доставкой пиццы не совсем корректен для демонстрации предельной теоремы, потому что все события которые мы придумали носят условный характер:
на перекрестке пришлось ждать две минуты пока светофор загорится зеленым. Но ждать придется только если мы подошли к светофору, который уже горит красным;
ударился ногой и из-за хромоты шел дольше обычного. Но с какой-то вероятностью мы можем и не удариться;
доставщик оказался скейтбордистом и передвигался быстрее обычного. При условии что он не забыл скейтборд дома;
дорогу перебежала черная кошка и пришлось идти другим более долгим путем. Существует ненулевая вероятность того, что доставщик не является фанатом бабы Нины;
развязались шнурки и пришлось тратить время на их завязывание. Как часто развязываются шнурки?;
развязались шнурки и доставщик упал, поэтому пришлось тратить время на отряхивание грязи и завязывание шнурков. Если дворник не халтурит, то и ни от какой грязи отряхиваться не надо.
А то, что каждая из переменных носит условный характер означает, что они могут входить в сумму в самых разных комбинациях. Например, сегодня время доставки задавалось, как:
А завтра это время может задаваться как:
Будет ли теперь распределена нормально? Учитывая что сумма нормально распределенных величин тоже имеет нормальное распределение, то можно дать утвердительный ответ. Именно поэтому, когда мы взглянули на распределение 365-и значений времени доставки, мы практически сразу решили, что перед нами нормальное распределение, даже несмотря на то что оно вовсе не похоже на идеальный колокол.
Z-значения
Допустим, по прошествии года у нас появился новый сосед и он так же как и мы решил ежедневно заказывать пиццу. И вот по прошествии трех дней мы наблюдаем, как этот сосед обвиняет доставщика в слишком долгом ожидании заказа. Мы решаем поддержать доставщика и говорим, что в среднем время доставки занимает минут, на что наш сосед отвечает, что все три раза он ждал больше 40 минут, а это всяко больше 35 минут.
Почему наш сосед так уверен в долгой доставке? И вообще, оправдана ли его уверенность? Очевидно он, как и некоторые люди, думает, что минут означает, что доставка может длиться 27, 31, даже 35 минут, но никак не 23 или 38 минут. Однако, мы заказывали пиццу 365 раз и знаем, что доставка может длиться и 20 и даже 45 минут. А фраза
минут, означает лишь то, что какая-то значительная часть доставок бодет занимать от 25 до 35 минут. Зная параметры распределения, мы даже можем смоделировать несколько тысяч доставок и прикинуть величину этой части:
Где-то две трети значений укладываются в интервал от 25 до 35 минут. А сколько значений будет превосходить 40 минут?
Оказывается только чуть более двух процентов значений превосходят 40 минут. Но ведь сосед заказывал пиццу три раза подряд и все три раза доставка длилась больше 40 минут. Может сосед оказался просто очень везучим, ведь вероятность трех таких долгих доставок чрезвычайно мала:
Вычислить Z-значение можно по следующей формуле:
Где — это время доставки, т.е. какое-то конкретное значение случайной переменной
, которая имеет нормальное распределение, а
и
это мат. ожидание и среднеквадратическое отклонение, т.е. параметры распределения, в нашем случае они равны 30 и 5 минут соответственно. Давайте рассчитаем Z-значение для сорока минут:
Что мы сейчас сделали? В числителе мы вычислили на какую величину наше время доставки отличается от среднего времени доставки, а далее мы просто поделили это значение на стандартное отклонение времени доставки. Но как интерпретировать данный результат и зачем вообще использовать Z-значение? Что бы понять это придется немного «порисовать»:
Итак, допустим мы оказались в средиземье и каким-то образом выяснили что рост хобитов и гномов в сантиметрах распределен как и
. Если рост Фродо равен 99 сантиметрам а рост Гимли 143 сантиметра, то как понять чей рост более типичен среди своих народов? Что бы выяснить это мы можем изобразить функцию распределения плотности вероятности для каждого народа с отмеченными значениями, а заодно определить долю тех, кто превышает эти значения:
Эти графики, конечно не обладают свойством самоочевидности, но в принципе, можно сказать (и наверняка ошибиться), что рост Фродо несколько ближе к вершине распределения чем рост Гимли. А это значит, что вероятность встретить хобита с таким же ростом как у Фродо несколько больше вероятности встретить гнома с ростом как у Гимли. Именно это и понимается под словом «типичность».
Выполнить сравнение типичности гораздо проще и нагляднее если воспользоваться Z-значениями:
Огромным преимуществом Z-значений является то, что они «стандартизированы», т.е. преобразованы так словно они взяты из стандартного нормального распределения , именно поэтому два Z-значения нарисованы на фоне единственной кривой. Однако, в общем случае, даже само рисование графиков вовсе не обязательно, потому что меньшие по модулю Z-значения обладают большей частотой появления. Одной записи:
достаточно для того что бы понять, какое из значений находится ближе к вершине распределения и сделать соответствующие выводы.
Сравнение Z-значений нескольких величин из разных «нормальных» выборок с разными параметрами распределения возможно потому, что сами Z-значения измеряются в сигмах. Это становится более очевидным если еще раз взглянуть на знаменатель формулы:
Не важно, что вы пытаетесь сравнить: рост, вес, литры или доход; в чем бы не измерялись сравниваемые величины, после вычисления Z-значений они будут измеряться в сигмах. Чем меньше по модулю Z-значение, тем ближе оно к вершине распределения, а знак Z-значения укажет по какую сторону от вершины это значение находится.
Z-статистика
Теперь давайте снова вернемся к нашему соседу, который возмущен слишком долгой доставкой пиццы. Выше мы вычислили Z-значение для 40 минут:
Пока у нас нет опыта, достаточного для того что бы сразу понять много это или мало, лучше изображать эти значения графически:
либо что-то с генеральной совокупностью, т.е. по какой-то причине, доставка и правда длится дольше обычного.
Вычисленное выше Z-значение для сорока минут (Z = 2), позволяет оценить долю (вероятность появления) значений больших сорока:
Поэтому не удивительно, что вероятность получить среднее время трех доставок большее 40 минут исчезающе мала:
Если каждое отдельное значение времени доставки мы можем оценить с помощью Z-значения, то для того что-бы оценить вероятность среднего арифметического этих значений нам нужно воспользоваться Z-статистикой:
где — это среднее значение для нашей выборки,
и
среднее значение и стандартное отклонение для генеральной совокупности, а
— размер выборки.
Давайте предположим что мы сделали три заказа и среднее значение оказалось равным 35 минутам, тогда Z-статистика будет вычисляться так:
Z-статистика, как и Z-значение является стандартизированной величиной и так же измеряется в сигмах, что позволяет использовать стандартное нормальное распределение для подсчета вероятностей. Фактически мы задаемся вопросом, а какова вероятность того, что среднее значение времени трех доставок попадет в промежуток
который в нашем случае выглядит как [25; 35] минут. Как и ранее мы можем найти данную вероятность с помощью моделирования:
С другой стороны, мы можем вычислить ту же вероятность аналитическим способом:
При 5 заказах среднее выборки попадает в интервал [29;31] скорее случайно, чем систематически. При 30 заказх около четверти средних значений так и не войдут в заданный интервал. И только при сотне заказов мы можем быть более-менее уверены в том что отклонение среднего выборки от среднего генеральной совокупности не будет больше 1 минуты.
С другой стороны, мы можем рассуждать и по другому: если среднее генеральной совокупности равно 30 минутам, то какова вероятность получить среднее выборки равное 31 минуте если мы сделаем 5, 30 или 100 заказов? Очевидно, что при n=5 среднее выборки, может отклоняться очень сильно, следовательно, вероятность получить минуте очень высока. Но при
среднее выборки практически не отклоняется от среднего генеральной совокупности, поэтому получить случайным образом
при
практически невозможно. Что это значит? А это значит, что если мы сделали 100 заказов и получили среднее время доставки равное 31 минуте, то скорее всего мы ошибаемся насчет того, что среднее генеральной совокупности равно 30 минутам.
В свою очередь, это значит, что вероятность случайного отклонения среднего выборки из трех значений, взятых из генеральной совокупности с и
более чем на 10 минут исчезающе мала. В этом случае мы можем заключить только следующее:
либо наш сосед просто чрезвычайно «везучий» человек;
либо доставка пиццы и вправду теперь выполняется дольше обычного.
Что из этих пунктов является наиболее вероятным? Скорее всего сосед прав насчет долгой доставки.
p-value
Мы смогли убедиться в том что Z-статистика позволяет оценить вероятность того, что среднее выборки размером
, взятой из генеральной совокупности попадет в заданный интервал значений. Это удобно тем, что позволяет сделать вывод о случайности полученного
. Чем меньше модуль значения Z-статистики, тем меньше достоверность среднего. Например выше мы видели, что вероятность попадания
при
в интервал [29;31] составляет всего около 0.35. В то время как вероятность непопадания в заданный интервал равна 1−0.35=0.65. Поэтому мы и сделали вывод о том, что значение
при
скорее обусловлено случайностью, чем какими-то объективными причинами.
Чем меньше p-value тем меньше вероятность того, что среднее выборки получено случайно. При этом p-value напрямую связано с двусторонними гипотезами, т.е. гипотезами о попадании величины в заданный интервал. Если мы получили какие-то результаты, но p-value оказалось довольно большим, то вряд ли эти результаты могут считаться значимыми. Причем, традиционно, уровень значимости, обозначаемый буквой равен 0.05, а это означает, что для подтверждения значимости результатов p-value должно быть меньше этого уровня. Однако, стоит обязательно отметить, что традиционный уровень значимости
может быть непригоден в некоторых областях исследований. Например, в сфере образования наверняка можно обойтись
, а вот в квантовой физике, запросто придется снизить этот уровень до 5 сигм, т.е.
будет равна:
Так же не следует забывать о том, что значимость может зависить как от среднего выборки, так и от ее размера. Если вы получили несколько значений, крайне не характерных для генеральной совокупности, как в случае с нашим соседом, то это уже повод насторожиться. Например, если наш сосед так же как и мы измерял время с помощь стенных часов, то получить большие значения времени он мог из-за «севшей» батарейки. Ошибки, связанные с извлечением выборки (сбором данных) весьма распространены. Если никаких ошибок нет, то для пущей уверенности достаточно еще немного увеличить выборку. Например, наш сосед, мог бы сделать еще два заказа, и только после этого начать скандалить.
С другой стороны, что бы подтвердить небольшие отклонения от среднего генеральной совокупности, придется очень сильно увеличивать размер выборки. Так, например, если мы хотим заявить с уровнем значимости , что среднее время доставки пиццы равно 31 минуте, а не 30 как считалось ранее, то придется сделать не менее 100 заказов.
Напоследок
Кстати, я совсем забыл сказать, что Z-статистика основана на центральной предельной теореме: вне зависимости от того как распределена генеральная совокупность, распределение средних значений выборок будет стремиться к нормальному распределению, тем сильнее, чем больше размер выборок.
Это кажется не очень правдоподобным, но давайте взглянем. Сгенерируем 1000 значений из равномерного, экспоненциального и Лапласова распределения, а затем, последовательно, для каждого распределения построим kde-графики распределений среднего значения выборок разного размера:
В общем, спасибо за внимание. Жму F5 и жду ваших и комментариев.