Обсервационные Исследования Бездоказательны.

Статья находится в работе, открыта для прочтения по техническим причинам

Deming, data and observational studies

A process out of control and needing fixing

 

Хочется повторить пост, который не так давно публиковала — так как мне продолжают присылать в личную почту ссылки на исследования, в короторых изучали нечто, разыскивая статистические ассоциации. А если точнее, тщательно подбирая данные, чтобы получить нужный заказчикам исследования результат.

  

Abstract

«Любое утверждение, полученное в результате обсервационного исследования, скорее всего, будет неверным». «Поразительно, но это правда. Кофе вызывает рак поджелудочной железы. Личность типа А вызывает сердечные приступы. Транс-жир — убийца. Женщины, которые едят сухие завтраки, рожают больше мальчиков. Все эти утверждения исходят из наблюдательных исследований; Тем не менее, когда исследования тщательно изучены, заявленные ссылки оказываются неверными. Что не так? Некоторые полагают, что научный метод не работает, что сама природа обманывает нас. Но это наш способ изучения природы, который сломан и нуждается в срочном исправлении, говорят С. Стэнли Янг и Алан Карр; и они предлагают стратегию, как это исправить».

Наука работает используя доказательства, полученные в результате экспериментов, которые можно повторить; при повторении эксперименты должны дать тот же самый ответ. Если эксперимент не получается повторить, значит, что-то пошло не так. В большом количестве отраслей науки эксперименты являются наблюдательными исследованиями: мы смотрим на людей, которые едят определенные продукты, или принимают определенные лекарства, или живут определенным образом жизни, и мы, вроде бы, обнаруживаем, что они больше страдают от определенных болезней или излечиваются от этих болезней, или — как у женщин, которые едят больше хлопьев для завтрака — что большинство их детей — мальчики. Чем больше поразительных утверждений, тем лучше. Эти результаты публикуются в рецензируемых журналах, а также часто попадают в заголовки новостей. Они производят впечатление твердых утверждений. Они основаны на наблюдениях, научных методах и статистике. Но что-то идет не так. В настоящее время имеется достаточно доказательств, чтобы сказать то, о чем многие давно думали: что любое утверждение, полученное в результате обсервационного исследования, скорее всего, будет ошибочным — неправильным в том смысле, что оно не будет повторяться при строгой проверке.

Еще в 1988 (1, 2) году было отмечено, что были получены противоречивые результаты для исследований типа «случай-контроль» в 56 различных тематических областях, из которых рак и то, что вызывает или излечивает рак, были наиболее частыми темами исследований. В среднем 2.4 исследования поддерживали каждую ассоциацию, а в среднем 2.3 исследования не поддерживали ее. Например, три исследования подтвердили связь между антидепрессантом резерпин и раком молочной железы, а восемь — нет. Было заявлено (2), что «большая часть разногласий может возникнуть из-за того, что набор строгих научных принципов еще не был принят для руководства при разработке или интерпретации исследований типа «случай-контроль». Проблемы распространяются практически на все обсервационные исследования. Небольшой прогресс был достигнут в принятии строгих научных принципов. Названия некоторых журнальных статей дают представление о чувствах писавших: «Эпидемиология дошла до своего предела», «Не пора ли заканчивать?», «Учимся ли мы на своих ошибках или же мы обречены их повторять?». В популярной прессе статья Джоны Лерера в «Нью-Йоркере»(3) имела подзаголовок «Что-то не так с научным методом?» И, казалось, подразумевала, что тиражирование больше не происходит; В заключение она гласила фразу: «Когда эксперименты будут проведены, нам все равно придется выбирать, во что верить». Нет. В примере Лерера мотивирующая находка была неверной и поэтому не должна была повторяться.

ID no. Pos. Neg. No. of claims Treatment(s) Reference
1 0 1 3 Vit E, beta‐carotene NEJM 1994; 330: 1029‐1035
2 0 3 4 Hormone Replacement Ther. JAMA 2003; 289: 2651–2662, 2663–2672, 2673–2684
3 0 1 2 Vit E, beta‐carotene JNCI 2005; 97: 481‐488
4 0 0 3 Vit E JAMA 2005; 293: 1338‐1347
5 0 0 3 Low Fat JAMA. 2006; 295: 655‐666
6 0 0 3 Vit D, Calcium NEJM 2006; 354: 669‐683
7 0 0 2 Folic acid, Vit B6, B12 NEJM 2006; 354: 2764‐2772
8 0 0 2 Low Fat JAMA 2007; 298: 289–298
9 0 0 12 Vit C, Vit E, beta‐carotene Arch Intern Med 2007; 167: 1610‐1618
10 0 0 12 Vit C, Vit E JAMA 2008; 300: 2123‐2133
11 0 0 3 Vit E, Selenium JAMA 2009; 301: 39‐51
12 0 0 3 HRT + Vitamins JAMA 2002; 288: 2431‐2440
Totals 0 5 52    
 

Причина, почему все это происходит

Причина неуловима и может рассматриваться как техническaя, так и оперативнaя. Отдельные исследователи, работники науки, просто рационально реагируют на стимулы, публикуя статьи в рецензируемых журналах и обеспечивая финансирование своих исследований. Качество их работ оценивается финансирующими агентствами и редакторами журналов, важными руководителями производственной системы наблюдательных исследований. Здесь мы можем обратиться к статистику У. Эдвардсу Демингу 5, самому дальновидному новатору в области контроля качества и человеку, который преобразовал сначала японское производство автомобилей, а затем и контроль качества во всем мире (см. Вставку 1). Деминг сказал: «Работник не проблема. Проблема наверху! Управление!» Для Деминга обвинение рабочих — отдельных исследователей — так же неправильно, как и бесполезно. Взятие системы под контроль является обязанностью тех, кто ею управляет.

Вставка 1. Усиление мышления по методу Деминга (W. Edwards Deming)

Стоит противопоставить контроль за качеством наблюдательных исследований контролю в производстве товаров. Когда Деминг впервые занялся контролем качества продуктоов на производстве, было принято проверять только конечный продукт, будь то винт или автомобиль, для поддтверждения качества продукта. Систематическая обратная связь от проблем с конечным продуктом к местам в процессе, где происходили эти дефекты, была незначительной или отсутствовала. Эта проверка конечного продукта работала, но это было ужасно дорого. Идея Деминга заключалась в том, чтобы контролировать каждый этап процесса, в котором происходят ошибки, так что конечная частота производства плохого продукта значительно снижается. В настоящее время во всем мире промышленное производство является процессом управления. Контролируйте этапы процесса, и в большинстве случаев это обеспечит качество конечного продукта

Рассмотрим результаты наблюдательного исследования: рабочие, то есть исследователи, занимаются сбором данных, очисткой данных, статистическим анализом, интерпретацией, написанием отчета/статьи. Это ремесло, практически без управленческого контроля на каждом этапе процесса.

Напротив, в производстве компьютерных чипов управление диктует контроль на нескольких этапах производства, и это лишь один пример управления процессом. А редакторы и рецензенты журналов проверяют только конечный продукт процесса наблюдательного исследования, и в результате выпускают много плохого продукта. Потребителю остается самому разобраться со всем этим. Никакое количество просвещения потребителя не исправит процесс. Никакое количество обучения — или обвинений — работников не изменит существенным образом поведение группы. Идея Деминга заключалась в том, чтобы предупредить руководство о необходимости изменить процесс для недопущения выхода этого процесса из-под контроля.

Что нужно для исправления системы? Среди знаменитых «Четырнадцати пунктов управления» Деминга наиболее актуален третий: прекратить зависимость от проверки для достижения качества. Каждая успешная компания сегодня полагается на контроль над процессом; они не ждут до конца процесса, чтобы затем выбрасить плохой продукт. Это будет контроль продукта, а не контроль процесса. Бесполезно что-то делать, затем проверять и выбрасывать плохой продукт. Вместо этого каждый шаг процесса контролируется, так что плохой продукт не производится. «Индустрия наблюдательных исследований» должна создать хороший продукт; редакторы журналов не могут проверить плохой продукт на стадии публикации, не говоря уже о стадии репликации. Если процессы контролируются руководством, продукты могут быть обоснованными исследованиями. Контроль процессов возможен, и требует внимания к стимулам, публикациям и грантам. Сначала мы рассмотрим три основные технические трудности, связанные с наблюдательными исследованиями: множественное тестирование, систематическая ошибка и множественное моделирование.

Mногократное Тестирование

Ложные позитивные случаются даже в идеальном мире. Когда много вопросов задают по одним и тем же данным, некоторые из этих вопросов случайно оказываются положительными. Получение хотя бы одного ложного срабатывания становится почти достоверным, если анализ данных не учитывает несколько вопросов. Рисунок 1, с превосходного сайта xkcd.com блестяще объясняет основную проблему. «Женщины, которые едят зерновые хлопья для завтрака, рожают большее количество мальчиков», утверждают, что мультипликационный пример воплощен в жизнь. Заявление появилось в Proceedings of Royal Society, Series B. Это по сути не имеет биологического смысла, так как для человека Y-хромосома контролирует пол и происходит от отца. Набор данных состоял из пола детей 740 матерей и результатов опросника по продуктам питания, не только из хлопьев для завтрака, ни и из 133 различных продуктов питания — по сравнению только с 20 цветами желейных конфет. Хлопья для завтрака во второй рассматриваемый период были одним из немногих продуктов из 133, которые дали положительный результат. Мы провели повторный анализ данных 6 с 262 t-тестами и пришли к выводу, что результат легко объясним как случайность.

image

 

Рисунок 1

Там нет общего эффекта разноцветных желейных конфет на прыщи. Облом. Как насчет подгрупп? Часто подгруппы исследуются, не предупреждая читателя о количестве спорных вопросов. Предоставлено xkcd, http://xkcd.com/882/

Для тех, кто хочет больше, чем комиксы, простая веб-симуляция 7 убеждает, что нужно контролировать несколько тестов. Хотя многие работники, которые считаются лидерами исследователей, проводящих обсервационные исследования, выступают против какой-либо коррекции анализа для множественного тестирования 8, руководители могут требовать, чтобы авторы учитывали проблему с множественным тестированием.

Предвзятость

В то время как многократное тестирование ведет к случайным ошибкам, смещение — систематическая ошибка. Чтобы проиллюстрировать это, рассмотрим ченнелинг, где врачи направляют определенных пациентов на определенные виды лечения. Например, врачи направляли пациентов с ВИЧ с высоким сердечно-сосудистым риском определенное лечение ВИЧ, абакавир и пациентов с низким риском назначают другие лекарства, предотвращая простую оценку абакавира по сравнению с другими методами лечения. Анализ, который не исправил эту предвзятость, несправедливо представил абакавир в негативном свете, поскольку его пациенты были более высокого риска, поэтому у большинства из них были сердечные приступы (Рисунок 2). Другая проблема заключается в том, что ковариатная корректировка широко используется, но уязвима для манипуляций и, как известно, дает ненадежные результаты, когда группы лечения несопоставимы; см. «Многократное моделирование» ниже. Отсутствие факторов, неизмеримые факторы риска и потеря контроля могут также привести к предвзятости. Например, в исследовании, опубликованном в разделе «Педиатрия» 9, IQ у детей был исследуемой проблемой, однако IQ отцов не измерялся, и из 505 детей, начавших исследование, 256 (50,7%) были потеряны для наблюдения. При отборе бумаг со значительным значением p отбрасываются отрицательные исследования — что является смещением публикации (см. Вставку 2).

Whereas multiple testing is random error, bias is systematic error. To illustrate it, consider channelling, where doctors steer certain patients to particular treatments. For example, doctors directed HIV patients at high cardiovascular risk to a particular HIV treatment, abacavir, and lower‐risk patients to other drugs, preventing a simple assessment of abacavir compared to other treatments. An analysis that did not correct for this bias unfairly penalised the abacavir, since its patients were more high‐risk so more of them had heart attacks (Figure 2). Another problem is that covariate adjustment is widely used, but is vulnerable to manipulation and is well known to give unreliable results when the treatment groups are not comparable; see “Multiple modelling” below. Missing factors, unmeasured confounders, and loss to follow‐up can also lead to bias. For example, in a study published in Pediatrics9, offspring IQ was the issue, yet IQ of the fathers was not measured and of the 505 children starting the study, 256 (50.7%) were lost to follow‐up. By selecting papers with a significant p‐value, negative studies are selected against – which is publication bias (see Box 2).

image
Events per thousand patient‐years are plotted against estimated risk of a heart attack. Risky patients were channelled to the HIV drug ABC, abacavir, and those patients had more heart attacks, as shown by the uppermost point on the graph. Risk‐adjusted, all the drugs appear to be of equal risk. Source: Lancet 371, 1417 ff.

Box 2. Publication bias

Общепризнано, что у статьи гораздо больше шансов быть принятой, если будет найдено что-то новое. Это означает, что для публикации требование в документе должно быть основано на p-значении менее 0,05. С точки зрения Деминга 5, это качество проверкой. Журналы также делают большую ставку на статистический тест, а не на изучение методов и шагов, которые приводят к выводу. Что касается значения p менее 0,05, у некоторых может возникнуть искушение проманипулировать системой 10 путем многократного тестирования, многократного моделирования или предвзятой обработки смещения или некоторой комбинации из вышеупомянутых трех, что приводит к небольшому значению p. Исследователи могут быть весьма изобретательны в разработке правдоподобной истории, соответствующей статистическим результатам.

Mногократное Моделирование

Эта проблема сродни — но менее признана и менее понятна,  множественному тестированию. Например, рассмотрим использование линейной регрессии, чтобы скорректировать уровни риска двух видов лечения для одного и того же фонового уровня риска. Может быть много ковариат, и каждый набор ковариат может быть внутри или вне модели. С десятью ковариатами существует более 1000 возможных моделей. Рассмотрим лабиринт как метафору для моделирования (рисунок 3). Красная линия показывает правильный путь из лабиринта. Путь через лабиринт выглядит простым, если он известен. Возвращаясь к модели линейной регрессии, можно вводить и исключать термины из модели регрессии. Как только вы получите значение p меньше 0,05, модель может быть заморожена, и выбор модели будет обоснован после факта. Это легко оправдать каждый ход.

This problem is akin to – but less well recognised and more poorly understood than – multiple testing. For example, consider the use of linear regression to adjust the risk levels of two treatments to the same background level of risk. There can be many covariates, and each set of covariates can be in or out of the model. With ten covariates, there are over 1000 possible models. Consider a maze as a metaphor for modelling (Figure 3). The red line traces the correct path out of the maze. The path through the maze looks simple, once it is known. Returning to a linear regression model, terms can be put into and taken out of a regression model. Once you get a p‐value smaller than 0.05, the model can be frozen and the model selection justified after the fact. It is easy to justify each turn.

image
Путь через сложный процесс может показаться довольно простым после определения пути. Какие термины включены в модель множественной линейной регрессии? Каждый поворот в лабиринте аналогичен включению или не определению конкретного термина в развивающейся линейной модели. Следя за p-значением термина, выбранного для обсуждения, можно стремиться к достаточно малому p-значению. © ktsdesign – Fotolia

Сочетание множественного тестирования и множественного моделирования может привести к очень большому пространству поиска, как показано на примере бисфенола А во вставке 3. Такие большие пространства поиска могут давать небольшие ложные положительные значения где-то внутри них. К сожалению, авторы и потребители часто похожи на оленей, пойманных светом фар, и принимают небольшое значение р как показатель реального эффекта.

The combination of multiple testing and multiple modelling can lead to a very large search space, as the example of bisphenol A in Box 3 shows. Such large search spaces can give small, false positive p‐values somewhere within them. Unfortunately, authors and consumers are often like a deer caught in the headlights and take a small p‐value as indicating a real effect.

How can it be fixed? A new, combined strategy

Как это можно исправить? Новая, комбинированная стратегия

К настоящему времени должно быть ясно, что необходимы более мелкие средства. Вся система наблюдательных исследований и заявления, сделанные на их основе, уже не функционируют и не соответствуют цели. Что можно сделать, чтобы починить эту сломанную систему? В литературе нет принципиальных способов решения проблемы выбора моделей, поэтому мы предлагаем новую, составную стратегию. После Деминга он основан не на рабочих — исследователях, а на менеджерах производственной системы — финансирующих агентствах и редакторах журналов, в которых сообщается о претензиях.

Мы предлагаем многоэтапную стратегию, чтобы помочь взять под контроль наблюдательные исследования (см. Таблицу 2). Основная техническая идея состоит в том, чтобы разделить данные на два набора данных: набор данных моделирования и набор данных удержания. Основная операционная идея состоит в том, чтобы потребовать, чтобы журнал принимал или отклонял статью на основе анализа набора данных моделирования, не зная результатов применения методов, использованных для набора моделирования, в наборе несогласных и публикует дополнение к статье Результаты анализа несогласных установлены. Теперь рассмотрим шаги, один за другим.

It should be clear by now that more than small‐scale remedies are needed. The entire system of observational studies and the claims that are made from them is no longer functional, nor is it fit for purpose. What can be done to fix this broken system? There are no principled ways in the literature for dealing with model selection, so we propose a new, composite strategy. Following Deming, it is based not upon the workers – the researchers – but on the production system managers – the funding agencies and the editors of the journals where the claims are reported.

We propose a multi‐step strategy to help bring observational studies under control (see Table 2). The main technical idea is to split the data into two data sets, a modelling data set and a holdout data set. The main operational idea is to require the journal to accept or reject the paper based on an analysis of the modelling data set without knowing the results of applying the methods used for the modelling set on the holdout set and to publish an addendum to the paper giving the results of the analysis of the holdout set. We now cover the steps, one by one.

Table 2. Steps 0‐7 can be used to help bring the observational study process into control. Currently researchers analysing observational data sets are under no effective oversight

Таблица 2. Шаги 0-7 могут быть использованы, чтобы помочь контролировать процесс наблюдений. В настоящее время исследователи, анализирующие наборы данных наблюдений, не находятся под эффективным надзором.

Step Process / Action
0 Data are made publicly available
1 Data cleaning and analysis separate
2 Split sample: A, modelling; and B, holdout (testing)
3 Analysis plan is written, based on modelling data only
4 Written protocol, based on viewing predictor variables of A
5 Analysis of A only data set
6 Journal accepts paper based on A only
7 Analysis of B data set gives Addendum
 
  1. The data collection and clean‐up should be done by a group separate from the analysis group. There can be a temptation on the part of the analyst to do some exploratory data analysis during the data clean up. Exploratory analysis could lead to model selection bias.Сбор и очистка данных должны выполняться группой, отдельной от группы анализа. Со стороны аналитика может возникнуть соблазн провести некоторый исследовательский анализ данных во время очистки данных. Поисковый анализ может привести к смещению выбора модели.
  2. The data cleaning team creates a modelling data set and a holdout set and gives the modelling data set, less the item to be predicted, to the analyst for examination.
  3. The statistical analysis plan is written based on access to all the modelling data except the response(s) to be predicted План статистического анализа составляется на основе доступа ко всем данным моделирования, кроме прогнозируемых ответов12.12.
  4. The analyst writes down and files the statistical protocol. The point is that the analysis should not be guided by looking at the results of exploratory analysis. It is too easy to move predictors into and out of an evolving statistical models. Reconsider the maze (Figure 3). Given flexibility, the analyst can move the answer around. Such flexibility must be prevented.Аналитик записывает и подает статистический протокол. Дело в том, что анализом не следует руководствоваться, рассматривая результаты поискового анализа. Слишком легко перемещать предикторы в развивающиеся статистические модели. Пересмотрите лабиринт (рисунок 3). Учитывая гибкость, аналитик может переместить ответ. Такая гибкость должна быть предотвращена.
  5. The analysis is done and the paper written Анализ завершен, и документ написан (см. Вставку 2) (see Box 2).
  6. The journal agrees to accept or reject the paper without knowing the results of the analysis of the holdout data set.Журнал соглашается принять или отклонить статью, не зная результатов анализа набора несогласованных данных.
  7. Once that analysis is done, an addendum will be added to the paper using the specified analysis on the holdout set..После того, как этот анализ будет завершен, добавление будет добавлено в документ с использованием указанного анализа в наборе несогласных.

A hold‐out set of data can be tested against claims; if the test fails, both author and journal stand to be embarrassed Накопительный набор данных может быть проверен на соответствие требованиям; если тест не пройден, и автор, и журнал подвергаются смущению

 

 

Задержка — это ключ. И автор, и журнал знают, что над их головами висит дамоклов меч. И то и другое смущает, если набор несогласных не поддерживает первоначальные утверждения автора. И автор, и журнал в настоящее время живут в практически безрисковой среде. Ложные результаты никогда не могут быть отменены. Утверждение о том, что «личность типа А вызывает сердечные приступы» все еще живет, и потребовались десятилетия, чтобы быть признанными недействительными. Большинство тех, кто воспринял претензию за чистую монету как правду, никогда не понимало, что это неправда. Миф все еще жив. Протокол, который мы предлагаем, сорвал бы его при рождении.

The holdout set is the key. Both the author and the journal know there is a sword of Damocles over their heads. Both stand to be embarrassed if the holdout set does not support the original claims of the author. Both the author and the journal are at present living in a largely risk‐free environment. False results may never be overturned. The claim that “Type A personality causes heart attacks” still lives and took decades to be declared invalid. Most who took the claim at face value to be true never got the word that it is not true. The myth still lives. The protocol we suggest would have scotched it at birth.

Box 3. Bisphenol A

Вставка 3. Бисфенол А

Центр контроля заболеваний США провел анализ мочи около 1000 человек на наличие 275 химических веществ, одним из которых был бисфенол А (BPA). Одним из полученных результатов было то, что BPA связан с сердечно-сосудистыми диагнозами, диабетом и патологическими концентрациями ферментов печени. BPA является химическим веществом в новостях и под угрозой со стороны людей, которые боятся химических веществ. Люди, у которых была проведена проверка мочи на химические вещества, также сообщали о состоянии здоровья, о котором сообщалось в 32 случаях. Для каждого человека также были собраны десять демографических переменных (таких как этническая принадлежность, образование и доход). Есть 275 × 32 = 8800 потенциальных конечных точек для анализа. Используя простую линейную регрессию для ковариатной корректировки, существует около 1000 потенциальных моделей, включая или не включающих каждую демографическую переменную. В целом пространство поиска составляет около 9 миллионов моделей и конечных точек11. Авторы по-прежнему убеждены в том, что их утверждение является действительным.

The US Center for Disease Control assayed the urine of around 1000 people for 275 chemicals, one of which was bisphenol A (BPA). One resulting claim was that BPA is associated with cardiovascular diagnoses, diabetes, and abnormal liver enzyme concentrations. BPA is a chemical much in the news and under attack from people fearful of chemicals. The people who had their urine assayed for chemicals also gave a self‐reported health status for 32 medical outcomes. For each person, ten demographic variables (such as ethnicity, education, and income) were also collected. There are 275 × 32 = 8800 potential endpoints for analysis. Using simple linear regression for covariate adjustment, there are approximately 1000 potential models, including or not including each demographic variable. Altogether the search space is about 9 million models and endpoints11. The authors remain convinced that their claim is valid.

image

Deer in Headlights. A deer caught in the headlights will freeze, much like an author or reader seeing a p‐value < 0.05, and think there must be a real effect. Authors can exploit this phenomenon intentionally or fool both themselves and the reader.Олень, ослепленный фарами. Олень, попавший в свет фар, замирает, так же как автор или читатель, увидевший значение p <0,05, и думает, что должен быть реальный эффект. Авторы могут использовать это явление намеренно или обмануть и себя, и читателя. Иллюстрация: Том Боултон Illustration: Tom Boulton

 

Прежде чем начнутся шаги 1-7, нужно сделать еще один шаг. Шаг 0, делающий данные доступными, он обеспечивает дополнительный контроль. Обратите внимание, что стратегия разделения выборки может контролировать множественное тестирование и множественное моделирование, но не смещение. Смещением можно управлять, устанавливая порог эффекта, скажем, для отношения риска значение от 3 до 413, эффекта, который следует рассматривать как действенное доказательство причины и следствия.

Before our steps 1‐7 begin, there is another step to be made. Step 0, making data available, provides additional oversight. Note that the split‐sample strategy can control multiple testing and multiple modelling, but not bias. Bias can be controlled by setting a threshold of effect, say for risk ratio a value of 3 to 413, of effect to be considered actionable evidence of cause and effect.

Что можно сделать?

 Обратите внимание, что работники знали о проблемах, по крайней мере, с 1988 года и не предприняли ни одного из шагов 0-7 в Таблице 2. Просьба авторов добровольно предоставить протокол, данные и код анализа была в значительной степени неэффективной. Существует реальный предел тому, что человек может сделать, чтобы улучшить ситуацию, поскольку большинство из нас являются потребителями. Отдельные лица могут писать письма в редакцию, в которых говорится, что без доступа к данным исследования в значительной степени являются наукой «поверь мне». Стимулы должны быть изменены, и это могут исходить только от руководителей процесса. Менеджеры не могут тщательно изучить каждую опубликованную претензию, но финансирующие агентства и редакторы могут потребовать «воспроизводимых исследований». Воспроизводимые исследования — это исследования, в которых протокол исследования, электронный набор данных, используемый для статьи, и код анализа — все это общедоступно. Менеджерам также могут потребоваться стратегии анализа отдельных выборок и другие методы для защиты от ложных срабатываний. В настоящее время исследователей — и, что не менее важно, широкой общественности — обманывают и обманывают во имя науки. Это не должно быть позволено продолжить.

Note that workers have known of problems since at least 1988 and have instituted none of the steps 0‐7 in Table 2. Asking authors voluntarily to provide protocol, data and analysis code has been very largely ineffective. There is a real limit to what an individual can do to improve the situation, as most of us are consumers. Individuals can write letters to the editor saying that without access to data the research is largely “trust me” science. The incentives need to be changed and that can only come from the managers of the process. Managers cannot carefully examine each published claim, but funding agencies and editors can require “reproducible research”. Reproducible research is research where the study protocol, the electronic data set used for the paper, and the analysis code are all publicly available. Managers can also require split‐sample analysis strategies and other methods to protect against false positives. At present, researchers – and, just as important, the public at large – are being deceived, and are being deceived in the name of science. This should not be allowed to continue.

 

194 просмотров всего, 5 просмотров сегодня

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *