Iremos analisar mais casos claros de ocultação de dados por parte de empresas da Indústria Farmacêutica, por vezes com o apoio de reguladores, em histórias onde é possível identificar indivíduos. Quando lá chegarmos, espero que a sua fúria aumente. Mas vale a pena determo-nos um momento para reconhecer que o enviesamento de publicação também ocorre fora do desenvolvimento comercial de medicamentos, e em domínios académicos sem qualquer relacionamento com este último, em que o que move as pessoas é apenas a sua reputação e os seus interesses pessoais.
Ao fim e ao cabo, o enviesamento de publicação é, em muitos aspectos, um processo muito humano. Se o leitor realizou um estudo que não obteve um resultado positivo excitante, talvez conclua, erradamente, que a sua experiência não é muito interessante para outros investigadores. Existe ainda a questão dos incentivos: os académicos são muitas vezes avaliados, de uma maneira bastante inútil, por bitolas grosseiras como o número de vezes em que os seus artigos são citados, e o número de estudos de «elevado impacto» que conseguem publicar em revistas prestigiadas e muito lidas. Se os achados negativos são mais difíceis de publicar nas maiores revistas e apresentam uma menor probabilidade de serem citados por outros académicos, os incentivos ao esforço de os difundir são menores. Em contrapartida, um achado positivo dá-nos a sensação de termos descoberto algo novo.
Todas as pessoas que nos cercam estão excitadas porque os nossos resultados são excepcionais.
Uma ilustração clara deste problema surgiu em 2010. Um famoso investigador americano na área da Psicologia, Daryl Bem, publicou um competente artigo académico, numa revista respeitada, comprovando a pré-cognição, a capacidade de prever o futuro.* Os estudos estavam bem concebidos e os achados eram estatisticamente significativos, mas muitas pessoas não se deixaram convencer, pelas mesmas razões que o leitor: se os seres humanos pudessem realmente prever o futuro, é provável que já o soubéssemos; além disso, afirmações extraordinárias deste tipo exigem provas extraordinárias, e não achados esporádicos.
Porém, o estudo de Bem foi reproduzido, sem que se obtivessem, no entanto, os mesmos resultados positivos. Dois grupos de académicos, pelo menos, reproduziram diversas experiências de Bem, utilizando exactamente os mesmos métodos, e não descobriram nenhumas provas de pré-cognição. Um grupo apresentou os seus resultados negativos à revista Journal of Personality and Social Psychology — a mesma que tinha publicado o artigo de Bem em 2010 —, que rejeitou a publicação. O editor chegou mesmo a dizer que nunca publicariam estudos que reproduzissem outros trabalhos.
Observamos aqui o mesmo problema que em medicina: os achados positivos apresentam maiores probabilidades de serem publicados do que os negativos. De vez em quando, é publicado um resultado positivo insólito que demonstra, por exemplo, que as pessoas podem prever o futuro. Quem sabe quantos psicólogos têm tentado, ao longo dos anos, descobrir provas de poderes psíquicos, através de experiências complicadas e demoradas, em dezenas de sujeitos ou talvez centenas, acabando por constatar que esses poderes não existem? Qualquer cientista que tentasse publicar um achado desse tipo teria de lutar para que uma revista o levasse a sério, na melhor das hipóteses. Mesmo com o alvo claro do artigo de Bem sobre a pré-cognição, amplamente coberto em jornais sérios em toda a Europa e nos Estados Unidos, a revista académica que se mostrara recentemente interessada no assunto da pré-cognição recusou-se simplesmente a publicar um artigo com um resultado negativo. No entanto, se a reprodução desses achados era crucial, como o próprio Bem afirmara no seu artigo, também era vital manter um registo das reproduções negativas.
Como lhe dirão pessoas que trabalham em laboratórios reais, uma experiência pode não produzir um resultado positivo repetidas vezes, até aparecer finalmente o resultado que se espera. Que quer isto dizer? Por vezes, os fracassos resultarão de problemas técnicos legítimos; mas por vezes o contexto estatístico é vital, podendo inclusive questionar o principal achado da investigação. Convém recordar que muitos achados não são resultados absolutos a preto e branco, mas frágeis correlações estatísticas. No nosso sistema actual, a maior parte desta informação contextual é varrida para baixo do tapete, o que tem imensas ramificações para o custo da investigação de reprodução, de maneiras que não são imediatamente óbvias. Por exemplo, os investigadores que não conseguem reproduzir um achado inicial podem não saber se o seu fracasso se deve ao resultado original ser uma sorte extraordinária ou a algum tipo de erro que tenham cometido nos seus métodos. Com efeito, muito mais dispendioso do que fazer um achado é provar que ele é errado, porque é preciso realizar a experiência muito mais vezes para provar a ausência de um achado, dado o modo como funciona a estatística da detecção de efeitos fracos; e também é preciso garantir absolutamente que excluímos todos os problemas técnicos, para evitar a humilhação de a nossa reprodução se revelar inadequada. Essas barreiras à refutação podem explicar parcialmente por que motivo é tão fácil alguém escapar incólume depois de publicar achados que acabam por se revelar errados.
O enviesamento de publicação não constitui um problema exclusivo dos recantos mais abstractos da investigação psicológica. Em 2012, um grupo de investigadores relatou na revista Nature como tentaram reproduzir cinquenta e três estudos laboratoriais promissores para tratamentos contra o cancro: só conseguiram reproduzir quarenta e sete. Este estudo tem sérias implicações no desenvolvimento de novos fármacos em medicina porque achados irreproduzíveis não são meramente um assunto académico abstracto: os investigadores elaboram teorias sobre eles, confiam na sua validade e investigam a mesma ideia utilizando outros métodos. Se estão a ser enganados, a perseguir resultados positivos obtidos por pura sorte, desperdiçam-se enormes esforços e quantias em investigação, e a descoberta de novos tratamentos médicos é seriamente atrasada.
Os autores do estudo são claros quer em relação à causa quer à solução do problema. Como explicaram, é mais provável os achados de pura sorte serem apresentados para publicação, e serem publicados, do que os achados negativos e enfadonhos. Devíamos incentivar mais os investigadores a publicarem resultados negativos, mas também lhes devíamos dar mais oportunidade.
Isto significa mudar o comportamento das publicações académicas, e neste aspecto enfrentamos um problema: embora também costumem ser académicos, os editores destas publicações têm os seus próprios interesses e programas, assemelhando-se mais do que alguns deles estariam dispostos a admitir a jornalistas e editores de jornais, como o ilustra claramente o episódio da experiência de pré-cognição anteriormente relatado. A questão de saber se publicações deste tipo são um modelo judicioso para divulgar investigações é acesamente debatida nos meios académicos, mas é assim que as coisas se passam actualmente. Estas publicações funcionam como guardiões, tomam decisões sobre o que é pertinente e interessante para a sua audiência, e disputam leitores.
Isto pode levá-las a ter comportamentos que não reflectem os melhores interesses da Ciência, porque o desejo de uma determinada publicação de fornecer um conteúdo colorido pode entrar em conflito com a necessidade colectiva de proporcionar uma imagem abrangente da evidência. Há um aforismo bem conhecido no jornalismo em geral: «Não é notícia um cão morder um homem; mas um homem morder um cão…» Estas apreciações sobre o que vale a pena publicar nos média dominantes têm sido demonstradas quantitativamente. Um estudo de 2003, por exemplo, analisou a cobertura noticiosa da BBC em matéria de saúde durante vários meses, e calculou quantas pessoas tinham de morrer de uma determinada causa até surgir uma notícia sobre o assunto. Por cada artigo sobre tabagismo, tinham de morrer 8571 pessoas, mas havia três artigos por cada morte causada por uma nova variante da doença de Creutzfeldt-Jakob, ou «doença das vacas loucas». Outro estudo, realizado em 1992, analisou a cobertura que os média impressos davam à mortalidade causada por fármacos e drogas, e descobriu que eram necessárias 265 mortes causadas por envenenamento com paracetamol para que surgisse um artigo num jornal sobre o assunto; mas a cada morte causada por ecstasy correspondia, em média, uma peça noticiosa.
Enfrentamos um problema se este tipo de apreciações está a influenciar o conteúdo das publicações académicas. Mas será que o estrangulamento se faz nas publicações académicas, será que são elas que estão a impedir médicos e académicos de aceder a resultados de ensaios pouco lisonjeiros sobre a segurança e eficácia dos fármacos que usamos? Este argumento é comummente apresentado pela indústria, e os investigadores também tendem, demasiadas vezes, a responsabilizar as revistas pela rejeição em massa de resultados negativos. Este assunto tem sido felizmente alvo de algumas investigações; e, no global, embora as revistas não sejam isentas de culpas, é difícil afirmar que são a principal fonte deste grave problema de Saúde pública, sobretudo desde que há revistas académicas dedicadas à publicação de ensaios clínicos que se comprometeram estatutariamente a publicar resultados negativos.
Para ser simpático, por uma questão de integridade e porque a indústria e os investigadores fazem tanta questão em responsabilizar as publicações académicas, podemos analisar se a sua afirmação é verdadeira.
Um inquérito limitou-se a perguntar aos autores de trabalhos não publicados se o tinham apresentado a alguma revista para publicação. Identificaram-se cento e vinte e quatro resultados por publicar, através do controlo de todos os estudos aprovados por um grupo de comissões de ética nos Estados Unidos, e, quando os investigadores contactaram as equipas por trás dos resultados não publicados, verificou-se que só seis artigos tinham de facto sido submetidos e rejeitados. Talvez se possa dizer que foi por acaso. Outra abordagem possível é seguir todos os artigos apresentados para publicação a uma revista e verificar se os que têm resultados negativos são rejeitados com maior frequência.
Mais uma vez, a responsabilidade parece não estar nas revistas: seguiram-se 745 originais apresentados para publicação na JAMA (Journal of the American Medical Association), e não havia qualquer diferença na taxa de aceitação dos resultados significativos e não significativos. Procedeu-se da mesma maneira em relação aos artigos apresentados para publicação na BMJ, Lancet, Annals of Internal Medicine e Journal of Bone and Joint Surgery. Mais uma vez, não se encontrou qualquer diferença. Terá sido porque as revistas se comportavam com imparcialidade quando sabiam que estavam a ser observadas? É difícil alterar todo o funcionamento editorial apenas por um curto período, mas não é impossível.
Todos estes estudos observaram o que acontecia na prática normal. Uma última opção é realizar uma experiência em que se enviam artigos idênticos a diversas revistas, modificando ao acaso a direcção dos resultados, para ver se isso se repercute nas taxas de aceitação. Não é uma experiência que se queira fazer muitas vezes, porque desperdiça muito tempo de trabalho de muitas pessoas, mas, como a questão do enviesamento de publicação é importante, tem sido considerada uma intromissão justificável em algumas ocasiões.
Em 1990, um investigador chamado Epstein elaborou uma série de artigos fictícios, com métodos e apresentação semelhantes, diferindo apenas no sentido dos resultados (positivos ou negativos). Enviou-os ao acaso para 146 revistas na área do serviço social: os artigos positivos foram aceites 35% das vezes e os negativos 26%, uma diferença que não era suficientemente grande para ser estatisticamente significativa.
Outros estudos tentaram fazer algo semelhante em menor escala. Em vez de apresentarem um artigo a uma revista, para publicação, enviaram, com o apoio da revista, pretensos artigos académicos a profissionais responsáveis pela revisão por pares (peer review): estas pessoas não são os decisores finais no que toca à publicação mas, como aconselham os editores, poderia ser útil ter uma ideia do seu comportamento. Os resultados deste estudo foram menos claros. Num estudo realizado em 1977, enviaram-se artigos falsos com métodos idênticos e resultados diferentes a setenta e cinco profissionais, para uma revisão por pares. Descobriu-se algum enviesamento por parte destes últimos em relação aos achados que discordavam dos seus próprios pontos de vista.
Outro estudo, realizado em 1994, analisava as respostas de responsáveis pela revisão por pares a um artigo sobre máquinas TENS, dispositivos bastante controversos comercializados para o alívio da dor. Identificaram-se trinta e três responsáveis pela revisão por pares com pontos de vista sólidos contra ou a favor das máquinas, e, embora o estudo fosse pequeno, descobriu-se mais uma vez uma correlação ampla entre as suas opiniões sobre o artigo e os pontos de vista prévios. Outro estudo procedeu da mesma maneira em relação a artigos sobre tratamentos de curandeiros: descobriu que a direcção dos resultados (positivos ou negativos) não influenciava a sua aceitação pelos responsáveis pela revisão por pares das publicações médicas dominantes.
Em 2010, realizou-se um ensaio aleatório em grande escala, destinado a verificar se os responsáveis pela revisão por pares rejeitam realmente ideias com base nas suas crenças preexistentes (um bom indicador da existência ou não de enviesamento dos resultados nas revistas, que deveriam centrar-se apenas na questão de saber se um estudo foi adequadamente concebido e executado). Enviaram-se a mais de duzentos responsáveis pela revisão por pares artigos fabricados, todos idênticos à excepção dos resultados: metade dos responsáveis recebeu resultados que lhes agradavam e a outra metade resultados que lhes desagradavam. Descobriu-se que os sujeitos tendiam mais a recomendar a publicação se recebiam a versão com resultados que lhes agradavam (97% em comparação com 80%), tendiam mais a detectar erros numa versão cujos resultados lhes desagradavam e pontuavam mais os métodos nos artigos cujos resultados lhes agradavam.
No entanto, estes resultados não sugerem, em geral, que as revistas sejam a principal causa do desaparecimento dos resultados negativos, embora existam claramente pequenas falhas em alguns domínios. Nas experiências que isolavam os responsáveis pela revisão por pares, esses árbitros individuais demonstravam enviesamento em alguns estudos, mas não têm a última palavra no que toca à publicação; além disso, em todos os estudos que analisam o que acontece aos artigos negativos apresentados a revistas no mundo real, verifica-se a inexistência de problemas no que toca à sua publicação. É possível que as revistas não sejam totalmente inocentes, mas seria errado apontá-las como únicas responsáveis.
A luz de tudo isto, são muito eloquentes os dados sobre o que os investigadores dizem do seu próprio comportamento. Em muitos estudos, afirmaram que tinham pensado não valer a pena apresentar resultados negativos porque seriam rejeitados pelas revistas: 20% dos investigadores médicos disseram-no em 199842, 61% dos investigadores em psicologia e educação disseram-no em 199143 e assim sucessivamente. Quando se lhes pergunta por que motivo não enviam estudos para publicação, as razões mais comuns que fornecem são resultados negativos, desinteresse ou falta de tempo.
Apesar de se tratar do sector mais abstracto do mundo académico, muito afastado do mundo imediato dos ensaios clínicos, parece que os académicos estão, no mínimo, errados quanto às razões que explicam os resultados negativos em falta. As revistas podem erguer alguns obstáculos à publicação de resultados negativos, mas essas barreiras não são de todo absolutas, e grande parte do problema reside nas motivações e percepções dos académicos.
Além disso, generalizou-se e consolidou-se como nunca nos últimos anos a era das revistas académicas de acesso livre: neste momento existem várias, como a Trials, de acesso gratuito e com uma política editorial de aceitar qualquer relatório de ensaio, independentemente dos resultados, e de solicitar activamente resultados negativos. Com este tipo de ofertas na mesa, é muito difícil acreditar que alguém possa ter de lutar realmente para publicar um ensaio com um resultado negativo se quiser fazê-lo. No entanto, apesar de tudo isto, os resultados negativos continuam em falta: grandes multinacionais limitam-se a não divulgar resultados sobre os seus fármacos, não obstante académicos e médicos ansiarem por essas informações.
Faz sentido que nos interroguemos se não haverá pessoas responsáveis por impedir a ocultação de dados deste tipo: as universidades onde ocorre a investigação, por exemplo, ou os reguladores, ou as «comissões de ética», que estão encarregadas de proteger os doentes que participam nas investigações. Infelizmente, a nossa história está prestes a entrar no seu lado negro. Veremos que muitas das pessoas e organizações que esperaríamos protegessem os doentes dos danos infligidos pelos dados em falta se esquivaram, ao invés, das suas responsabilidades; pior do que isso, veremos que muitas delas conspiraram activamente para ajudar as empresas da Indústria Farmacêutica a ocultar dados dos doentes. Estamos prestes a chegar a alguns dos grandes problemas, a algumas pessoas más e a algumas soluções simples.
NOTAS:
* Em vez de conceber novos estudos complicados para verificar se as pessoas podiam conscientemente antever, Bem limitou-se a realizar algumas experiências clássicas de Psicologia de trás para a frente. Realizou, por exemplo, uma experiência bem conhecida sobre influência subliminar, em que se mostram às pessoas duas imagens em espelho da mesma fotografia e se pergunta a seguir qual a preferida; mas exibe-se uma imagem subliminar desagradável antes de uma ou da outra imagem durante uns escassos milissegundos antes de elas fazerem a sua escolha. Na realização normal desta experiência, a imagem subliminar diminui a probabilidade de as pessoas escolherem essa opção. Na experiência de Bem, as imagens subliminares desagradáveis são exibidas imediatamente depois de os participantes escolherem a sua imagem preferida. Contudo, por improvável que pareça, Bem descobriu que essas imagens subliminares ainda tinham efeito nas escolhas das pessoas.