Bloomberg Opinión — El campo de la biología del cáncer es un caos. Las señales de los problemas surgieron años antes del escándalo más reciente, en el que los investigadores hallaron pruebas de manipulación de datos en una serie de artículos de alto nivel del Instituto Oncológico Dana Farber, afiliado a Harvard.
Es la última crisis de la investigación académica, en la que existe una clara necesidad de un mejor control de calidad, un filtro más estricto que la revisión por pares. Algunos investigadores sugieren que la IA podría ayudar a señalar qué artículos necesitan un examen más minucioso.
Pero para entender lo que está pasando, tenemos que entender cómo hemos llegado hasta aquí. Hace una década, algunos organismos de control de la investigación empezaron a dar la voz de alarma después de que los científicos descubrieran que menos de la mitad de los estudios preclínicos sobre el cáncer “de referencia” (los publicados en las mejores revistas) podían reproducirse.
En 2021, una evaluación similar descubrió que la exageración es la norma. Los investigadores descubrieron que sólo podían reproducirse 50 de 193 experimentos. Y en los que sí se reprodujeron, el segundo intento mostró tamaños de efecto mucho menores: sólo un 15% de lo que se había afirmado en un principio.
Estos son los tipos de experimentos en tubos de ensayo o en ratones que determinan qué tratamientos se prueban en personas. También influyen en cómo se informa a los sujetos de los ensayos sobre los riesgos y beneficios. Así pues, los resultados afectan a las vidas de personas reales.
Aunque las pruebas de manipulación de datos (de lo que se acusa a los científicos de Dana Farber) son un problema distinto de los resultados irreproducibles, ambos se derivan de las mismas causas profundas. Los científicos ganan fama y fortuna obteniendo hallazgos llamativos y potencialmente de gran impacto, pero la gente se beneficia de los hallazgos que son sólidos y reproducibles. También nos benefician los hallazgos que muestran qué tratamientos tienen pocas probabilidades de funcionar, aunque éstos son difíciles de publicar.
Como me advirtió el premio Nobel William Kaelin en 2017, los investigadores biomédicos han empezado a hacer mayores afirmaciones con pruebas más endebles. (También trabaja en Dana Farber, pero su trabajo no ha sido mencionado en este escándalo actual).
Los científicos pueden cometer errores, por supuesto. Pero se supone que deben presentar sus datos exactamente como los midieron. Los gráficos deben representar los datos tal y como los midieron. Añadir, sustraer o cambiar datos sin explicación suele considerarse un acto de fraude.
Aunque el caso sigue investigándose, Dana Farber tiene previsto retractarse de seis artículos y publicar correcciones en muchos más. Es posible que los problemas en algunos de los artículos hayan sido accidentales, pero son muchísimos, y tales errores seguirían poniendo en duda los resultados.
La manipulación de datos es demasiado habitual, afirma Ivan Oransky, cofundador del blog Retraction Watch. “La parte que me preocupa es que vamos a seguir tratando esto como una extraña anomalía, que no lo es”.
Por otra parte, un estudio que no se replica puede haberse realizado siguiendo todas las normas, pero las conclusiones no son aquellas por las que querrías apostar la vida de los pacientes de cáncer. Los investigadores podrían haber malinterpretado sus datos o el experimento podría funcionar sólo en condiciones muy específicas.
Entonces, ¿por qué la revisión por pares no ha impedido la publicación de resultados débiles y fraudes descarados? En primer lugar, muchos artículos no incluyen los datos brutos, lo que dificulta la detección del fraude.
Pero a un nivel más profundo, la revisión por pares no es la medida de control de calidad que mucha gente supone. Algunos historiadores remontan la revisión inter pares a 1830, cuando el filósofo inglés William Whewell la propuso para los artículos que se publicaban en una nueva revista, las Actas de la Real Sociedad de Londres. En el primer intento, el propio Whewell se encargó del trabajo, pero no pudo ponerse de acuerdo con un segundo revisor, iniciando así una larga tradición lamentada por científicos de todo el mundo.
Los revisores suelen tener experiencia para evaluar el 90% o el 95% de un artículo, afirma Brian Uzzi, científico social que estudia los problemas de la replicación en la Escuela de Administración Kellogg de la Universidad Northwestern. “Dejarás ese último 5% con la esperanza de que el otro revisor se dé cuenta. Pero puede que el otro revisor esté haciendo lo mismo”, afirma. Los revisores también suelen tener poco tiempo, abrumados por otras solicitudes de revisión y sus propias obligaciones de investigación.
Uzzi descubrió que en las ciencias sociales, donde existe desde hace tiempo una crisis de reproducibilidad, el aprendizaje automático puede señalar los artículos con más probabilidades de fracasar en los intentos de réplica. Utilizó datos de cientos de intentos de réplica para entrenar un sistema que luego probó en 300 experimentos nuevos de los que tenía datos de réplica. El sistema de aprendizaje automático fue más preciso que los revisores humanos individuales, además de barato y casi instantáneo.
Tal vez estos sistemas podrían ayudar a los expertos humanos a hacer más por señalar el trabajo descuidado y deshonesto al dar una primera pasada. También podría ayudar a dirigir a los revisores y editores de revistas, sobrecargados de trabajo, lejos de los científicos e instituciones famosos que suelen recibir la mayor atención, y hacia los descubrimientos importantes de equipos menos conocidos.
Los científicos ya crean una avalancha de nuevos artículos de investigación, así que no estaría de más añadir una nueva capa de control de calidad y dedicar más tiempo y dinero a separar los artículos buenos de los malos. De lo contrario, pagaremos por toda esa mala investigación, no sólo con nuestros impuestos, sino con nuestra salud.
Esta nota no refleja necesariamente la opinión del consejo editorial o de Bloomberg LP y sus propietarios.