Ученые восстали против статистической значимости

Перевод: Елена Головина
Редакция: Таню Молчунова
Оформление: Никита Родионов
Публикация: 19.04.2019


Валентин Амрейн, Сандер Гринлэнд, Блэйк МакШейн и более 800 подписавшихся требуют пересмотра распиаренных требований и предотвращения значимых нежелательных последствий.

Когда вы в последний раз слышали, как спикер на конференции утверждает, что между двумя группами нет различий, поскольку они статистически не значимы?

Если ваш опыт совпадает с авторами, то высока вероятность, что это было в последнем докладе, на котором вы присутствовали. Авторы высказывают надежды, что хотя бы кто-то в аудитории был этим озадачен, если, как это часто случается, в диаграмме или таблице была продемонстрирована разница.

Каким образом статистика так часто приводит ученых к отрицанию различий, которые совершенно ясно видны даже тем, у кого нет соответствующего образования? Несколько поколений исследователей основывались на том, что статистически незначимый результат не подтверждает нулевую гипотезу (гипотезу о том, что между группами отсутствуют различия или влияние терапии на некоторые измеряемые параметры) [1]. Статистически значимые результаты также не подтверждают некоторые другие гипотезы. Как известно, такие заблуждения повлияли на формирование завышенных требований в научной литературе и, что менее очевидно, привели к беспочвенным конфликтам между исследователями.

Авторы статьи выдвигают несколько предложений, которые позволят ученым не стать жертвами заблуждений.


Широко распространенная проблема

Необходимо пояснить, что именно должно прекратиться: мы никогда не должны делать заключение об «отсутствии различий» или «отсутствии связей» лишь на основании того, что значение Р больше 0,05 или, что эквивалентно, когда доверительный интервал включает ноль. Мы также не должны приходить к выводу, что между двумя исследованиями имеются противоречия лишь на основании того, что в одном из них представлен статистически значимый результат, а в другом нет. Такие ошибки обесценивают усилия исследователей и вводят в заблуждение в момент принятия важных стратегических решений.

Рассмотрим, например, серию анализов нежелательных эффектов противовоспалительных препаратов [2]. Поскольку их результаты были статистически незначимы, одна из групп исследователей пришла к выводу, что влияние препарата на организм не было связано с впервые развившейся мерцательной аритмией (наиболее распространенное нарушение сердечного ритма), и что результаты противоречат таковым в более раннем исследовании, имевшем статистически значимые выводы.

Теперь вернемся к фактическим данным. Исследователи, описывая статистически незначимые результаты, вычислили коэффициент риска, который составил 1,2 (это на 20 % более высокий риск по сравнению с пациентами, не принимавшими препарат). Они также обнаружили 95 % доверительный интервал, который охватывал все от незначительного снижения риска на 3 % до значительного повышения риска до 48 % (Р = 0,091; подсчитано авторами). В более раннем, статистически значимом исследовании коэффициент риска также составил 1,2. Это исследование было более точным с интервалом, в который вошло повышение риска от 9 % до 33 % (Р = 0,0003, подсчитано авторами).

Нелепо было бы делать вывод, что статистически незначимые результаты демонстрируют отсутствие связи, когда интервальная оценка включает значительное повышение риска; столь же абсурдным было бы утверждать, что эти результаты противоречат более ранним, в которых продемонстрирован аналогичный наблюдаемый эффект. Тем не менее такая распространенная практика наглядно демонстрирует, как вера в статистическую значимость может ввести нас в заблуждение.

Описанные выше ошибки, а также схожие с ними, широко распространены. Изучение сотен статей показало, что более чем в половине случаев статистически незначимые результаты интерпретируются как указывающие на отсутствие различий или эффекта.

В 2016 году Американская статистическая ассоциация опубликовала в The American Statistician предупреждение против неправильного применения статистической значимости и значений Р. В выпуске также было много комментариев по этому вопросу. В прошлом месяце вышел специальный выпуск журнала, который стремится продвинуть эти реформы дальше. В нем представлено более 40 работ на тему «Статистические выводы в 21 веке: мир по ту сторону Р < 0,05». Знакомство со сборником начинается с предупреждения редакции: «Не говорите статистически значимо» [3]. В другой статье [4], собравшей десятки подписей, и вовсе предлагается отказаться от этих терминов.

Авторы данной статьи также соглашаются и призывают отказаться от концепции статистической значимости.

Авторы вовсе не одиноки. Когда они предложили коллегам прочитать черновик этого текста и оставить подписи тех, кто согласен с его посылом, 250 человек подписались в течение первых суток. Спустя неделю уже было 800 подписей — все были проверены на наличие академической должности или других признаков того, что их текущая или прошлая работа находилась в области, зависимой от статистического моделирования. Среди них были статистики, клинические и медицинские исследователи, биологи и психологи из более чем 50 стран со всех континентов, кроме Антарктиды. Один сторонник назвал это «точечным ударом против несознательного изучения статистической значимости» и «возможностью отдать свой голос в пользу лучших научных практик».

Авторы не призывают полностью отказаться от значения Р. Никто из них не утверждает, что оно не может использоваться в качестве критерия принятия решения в определенных специализированных приложениях (например, при определении того, соответствует ли производственный процесс требуемому стандарту контроля качества). И они также не пытаются создать ситуацию, в которой слабые доказательства станут заслуживающими доверия. Авторы скорее поддерживают тенденцию, сформировавшуюся в течение десятилетий, и призывают прекратить использование значений Р обычным дихотомическим способом — решающим, соответствует результат научной гипотезе или нет [5].


Освободиться от категорийности

Проблема состоит скорее в человеческом факторе и осмысленности, чем в статистике: объединение результатов в «статистически значимые» и «статистически незначимые» заставляет людей думать, что элементы, оцененные таким путем, абсолютно различны [6],[7],[8]. Те же проблемы могут возникать при использовании других дихотомических статистических альтернатив, например, частотных, Байесовских подходов или других.

К сожалению, ложное убеждение в том, что порога статистической значимости достаточно, чтобы показать, что результат «реален», привело ученых и редакторов журналов к предпочтению таких результатов, что исказило литературные данные. Статистически значимые оценки, возможно, в значительной степени смещены в сторону большей важности и имеют тенденцию к росту, тогда как статистически незначимые смещены в сторону меньшей важности. Следовательно, любая дискуссия, которая сосредоточена на оценках из значимости, будет предвзятой. Кроме того, жесткий акцент на статистической значимости заставляет исследователей подбирать данные и методы, которые обеспечат статистическую значимость некоторому желаемому (или просто публикуемому результату) или обеспечат статистическую незначимость нежелательному результату, к примеру, таким как побочные эффекты препаратов.

Предварительная регистрация исследований и обязательство публиковать все аналитические результаты позволит во многом смягчить эти проблемы. Однако даже предварительная регистрация исследований не спасет от решений, которые остаются открытыми для анализа. Это может произойти даже из лучших побуждений.

Иллюстрация: Дэвид Паркинс специально для Nature

Стоит повторить, что авторы не выступают за запрет значений Р, доверительных интервалов или других статистических мер — они лишь призывают не относиться к ним так категорично. Они имеют в виду деление на статистически значимое и незначимое, а также категоризацию, основанную на других статистических мерах, таких как факторы Байеса. Одним из факторов, позволяющих избежать такой «дихотомании», является то, что все статистические данные, в том числе значения Р и доверительные интервалы, варьируются от исследования к исследованию и зачастую до удивительной степени. На самом деле, случайная выборка сама по себе может легко привести к большим различиям в значениях Р, выходящим далеко за пределы порога 0,05 по обе стороны. Например, даже если бы исследователи могли провести два замечательных исследования воспроизводимости какого-либо подлинного эффекта и у каждого из них имелась бы 80 % вероятность достигнуть Р < 0,05, было бы не слишком удивительно, если бы в одном вышло Р < 0,01, а в другом Р > 0,30. Независимо от того, является ли значение Р малым или большим, необходима осторожность.

Мы должны научиться принимать неопределенность. Один из способов воплотить это в жизнь — переименовать доверительные интервалы в «интервалы совместимости» и интерпретировать их, стараясь при этом избежать чрезмерной уверенности в выводах. Авторам также рекомендовано описывать практический подтекст всех значений внутри интервала, в особенности наблюдаемый эффект (или точечное оценивание) и предельные значения. При этом следует помнить, что все значения внутри интервала умеренно совместимы с данными с учетом статистических допущений, используемых для вычисления интервала [7],[10]. Поэтому выделять в интервале одно конкретное значение (например, нулевое значение) в качестве показательного нет смысла.

Положа руку на сердце, надоело наблюдать такие бессмысленные «доказательства нулевого» и заявления об отсутствии связей в презентациях, публикациях результатов исследований, обзорах и учебных материалах. Зачастую интервал, содержащий нулевое значение, содержит и другие показатели, имеющие высокую практическую важность. Те, кто все же считают, что значения внутри интервала не имеют практической важности, могут сказать что-то вроде «наши результаты высоко совместимы, но важные эффекты отсутствуют».

Когда речь идет о совместимости интервалов, нужно не забывать о четырех вещах. Во-первых, то, что интервал дает значения, наиболее совместимые с данными, не означает, что значения, выходящие за его пределы, несовместимы — они лишь менее совместимы. Фактически, значения, находящиеся исключительно за пределами интервала, не отличаются от таковых внутри него. Таким образом, неправильным будет утверждать, что интервал демонстрирует все возможные значения.

Во-вторых, не все значения внутри интервала одинаково сопоставимы с данными, определяющими гипотезы. Точечная оценка более сопоставима, и значения, находящиеся вблизи нее, более совместимы, чем те, что находятся ближе к границам. Вот почему авторам будущих публикаций необходимо обсудить точечную оценку даже в тех случаях, когда значение Р превышено или имеется широкий интервал, а также обсудить границы этого интервала. Авторы, о которых упоминается выше, могли бы написать: «Как и в предыдущем исследовании, наши данные свидетельствуют о 20 % увеличении риска впервые возникшей мерцательной аритмии у пациентов, принимающих противовоспалительные препараты. Однако ранжирование различий рисков от 3 % (низкая отрицательная связь) до 48 % (высокая положительная связь) также совместимо с нашими данными с учетом наших предположений». Интерпретация точечной оценки хоть и предполагает признание ее неопределенности, убережет вас от ложных заявлений об отсутствии различий и от излишней уверенности в себе.

В-третьих, как и порог в 0,05, используемые по умолчанию для вычисления интервалов 95 % по сути являются произвольным соглашением. Оно основано на ложной идее о том, что с вероятностью 95 % вычисленный интервал содержит достоверное значение в сочетании со смутным ощущением, что это и есть основа для принятия верного решения. Различия в показателях могут быть обоснованы использованием разного программного обеспечения. И, как показывает пример с противовоспалительными препаратами, интервальные оценки могут привести к бесконечному повторению проблем статистической значимости, когда навязываемая ими дихотомия рассматривается как научный стандарт.

И в заключении поговорим о самом важном. Главное — быть скромным: оценка совместимости зависит от верности статистических допущений, используемых для вычисления интервала. На практике эти допущения подвержены существенной неопределенности [7],[8],[10]. Сделайте эти допущения как можно более четкими и протестируйте, например, с помощью графиков и альтернативных моделей, а затем отчитывайтесь обо всех результатах.

Что бы ни показали статистические данные, неплохо было бы предложить обоснования полученных данных; но обсуждение должно включать ряд возможных объяснений, а не только наиболее предпочтительные из них. Выводы должны быть научными, что выходит за рамки «чистой» статистики. Такие факторы, как исходные данные, дизайн исследования, качество данных и понимание лежащих в основе механизмов, зачастую гораздо более важны, чем такие статистические меры, как значения Р или интервалы.

Возражение, которое чаще всего возникает при упоминании отказа от статистической значимости, заключается в том, что она позволяет принимать решения типа «да» или «нет». Но для осуществления выбора, часто требующегося в нормативной, политической и предпринимательской среде, принятие решения основывается на затратах, преимуществах и вероятностях всех потенциальных последствий и всегда выходит за рамки одной лишь статистической значимости. Более того, в принятии решений о необходимости продолжения исследований нельзя предположить, что имеющееся значение Р будет схожим и в результатах будущих исследований.

Как будет выглядеть отказ от статистической значимости? Авторы статьи надеются, что выделение методов и табулирование данных будет более подробным и детальным. Авторам необходимо акцентировать внимание на своих оценках и их неопределенности, например, путем открытого обсуждения пределов их интервалов. Они не должны полагаться на определение значимости. Описывать значения Р они будут с разумной точностью (например, Р = 0,021 или Р = 0,13) — без таких дополнений, как звездочки или буквы, обозначающие статистическую значимость, и неравенств (Р < 0,05 или Р > 0,05). Решения о толковании или публикации результатов не будут основываться на статистических пределах. Люди будут тратить меньше времени на статистическое программное обеспечение и больше — на размышления.

Призыв отказаться от статистической значимости и использовать доверительные интервалы как интервалы совместимости — это не панацея. Хотя он устранит многие порочные практики, он вполне может породить новые. Мониторинг литературы, злоупотребляющей статистическими допущенияними, должен стать постоянным приоритетом научного сообщества. Но искоренение категоризации может помочь прекратить чрезмерно уверенные заявления об «отсутствии различий» и абсурдные утверждения о «проблемах с воспроизводимостью» в случаях высокой совместимости оригинальных и репликационных исследований. Злоупотребление статистической значимостью нанесло большой вред научному сообществу и тем, кто полагается на научные рекомендации. Значения Р, интервалы и другие статистические меры останутся на своем месте, но настало время отказаться от статистической значимости.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.