“Copérnico primeiramente provou que a Terra gira em torno do Sol, removendo assim os humanos do centro do universo. Então Darwin provou nossa origem através da evolução cega, tirando nosso lugar de honra entre os seres vivos. Quando Freud finalmente revelou o papel predominante do inconsciente no processo psíquico, tornou-se evidente que nosso ego nem mesmo é senhor em sua própria casa. Hoje, um século depois, um quadro mais claro está surgindo: os avanços científicos parecem estar infligindo uma série de novas humilhações à imagem narcísica do homem”, escreveu em 2011 o polêmico filósofo esloveno Slavoj Zizek. Sua análise nunca foi tão contemporânea.
“Estou atônito”, explicou ao The New York Times o Dr. Adam Rodman, especialista em medicina interna do Beth Israel Deaconess Medical Center (Boston), quando um estudo revelou que o ChatGPT4 sozinho foi capaz de obter mais assertividade em um “diagnóstico complexo” do que médicos que usavam o próprio ChatGPT para suporte analítico no caso. O LLM sozinho obteve uma média de 90% de assertividade ao diagnosticar uma condição médica relatada. Os médicos, designados aleatoriamente para usar o Chatbot, obtiveram uma pontuação média de 76%. Aqueles que não usaram qualquer tecnologia IA, obtiveram uma pontuação média de 74%. O estudo “Large Language Model Influence on Diagnostic Reasoning” foi publicado em outubro último no JAMA Network Open, testando 50 médicos em seis casos clínicos desafiadores.
Segundo o New York Times, o estudo revelou a crença que os médicos reservam ao seu próprio diagnóstico (crença às vezes inabalável), mesmo quando uma IA potencialmente sugere um juízo melhor. Explica o artigo do NYT: “Como, então, os médicos diagnosticam os pacientes? O problema, disse o Dr. Andrew Lea, historiador em medicina do Brigham and Women’s Hospital (que não esteve envolvido no estudo), é que ‘realmente não sabemos como os médicos pensam. Ao descrever como chegam a um diagnóstico, eles dizem: ‘intuição’ ou ‘com base em minha experiência’, explica Lea. Por que aqueles que usaram o Chatbot não se saíram melhor? Acontece que a maioria dos médicos não foi persuadida pela IA quando ela apontou algo que estava em desacordo com seus diagnósticos. Eles tendiam a se apegar à sua própria ideia diagnóstica. ‘Eles não ouviram a IA quando ela lhes disse coisas com as quais não concordavam’, explicou Adam Rodman”.
É muito provável que um dos objetivos do estudo fosse constatar que médicos, quando recebem ajuda das IAs, têm um desempenho melhor em seu processo decisório. Mas o resultado foi surpreendente. Talvez até pudessem comemorar os dois anos de entrada dos LLMs no mercado global (ChatGPT, OpenAI, novembro/2022), notadamente na Saúde, onde avançam em ‘velocidade-trem-bala’. Dario Amodei, físico com pós-doutorado médico pela Universidade de Stanford e fundador da Anthropic AI, já expressou esse avanço: “Minha previsão básica é que a biologia e a medicina habilitadas por IA nos permitirão comprimir o progresso que os biólogos humanos teriam alcançado nos próximos 50 a 100 anos em 5 ou 10 anos. Vou me referir a isso como o “século XXI comprimido”. Quando uma IA ainda mais poderosa for desenvolvida, faremos em poucos anos todo o progresso em biologia e medicina que teríamos feito durante o resto do século”.
Imagine um cenário onde, além da flora e da fauna, crescesse uma nova “espécie” forjada no cadinho do silício e da eletricidade. “Máquinas de IA”, com seus algoritmos intricados, emergem como um novo “ente” planetário, uma espécie sintética que aprende, se adapta, cria e evolui em velocidade sônica. Nascida do ventre da mente humana, os LLMs estão permeando o bioma saúde com enorme intensidade.
Estamos apenas no início do que Amodei chama acima de “século XXI comprimido”. No setor clínico-assistencial, essa expansão não tem paralelo na história da prática médica. No meio dessa transformação de conceitos e ortodoxias, emergem mantras como: “médicos não serão substituídos por IA, mas poderão ser substituídos por médicos que utilizam IA”. Isso é real, mas (atenção!), dependerá cada vez mais do perfil médico que utilizar os LLMs. O estudo do JAMA é mais do que uma análise crítica sobre a convivência entre “duas espécies” (médicos e máquinas). Trata-se de um trabalho mostrando como a ‘nova espécie’ está aterrizando no ambiente médico-assistencial e como será recebida.
Afirma o estudo do JAMA: “Este ensaio clínico randomizado descobriu que o uso de um chatbot LLM, disponível comercialmente, não melhorou o raciocínio diagnóstico dos médicos que o utilizaram, apesar de o LLM sozinho ter superado significativamente os participantes médicos. Os resultados foram semelhantes entre subgrupos de diferentes níveis de treinamento e experiências com o chatbot. Essa descoberta é particularmente relevante agora que muitos sistemas de saúde oferecem IAs, já em conformidade com o Health Insurance Portability and Accountability Act, para que médicos as utilizem no ambiente clínico-diagnóstico”.
Uma avaliação superficial do estudo (e de sua “repercussão desmensurada”) mostra que médicos, ou demais profissionais que trabalham com ‘risco preditivo-crítico’, tendem a encontrar dificuldades quando a IA começa a igualar ou exceder a capacidade humana. Certamente que o estudo publicado no JAMA foi um teste estreito e frágil para definir a relação ‘médico + máquina’ (baixa escala), mas mostra como será o futuro dessa relação se os profissionais de decisão clínica (1) não forem devidamente treinados para essa relação; e se (2) não controlarem suas matrizes convictivas.
O pesquisador John Nosta, um dos mais importantes observadores do impacto das IAs no meio clínico-assistencial (colunista da ‘Psychology Today’), explica vieses desse tipo de estudo: “Os autores definiram “raciocínio diagnóstico” como uma avaliação abrangente do pensamento do médico. Isso inclui formular um diagnóstico diferencial, identificar os fatores que apoiam ou se opõem a esse diagnóstico e determinar as próximas etapas. O estudo utilizou uma ferramenta de “reflexão estruturada” para capturar esse processo, pontuando os participantes em sua capacidade de apresentar diagnósticos plausíveis. Em contraste, a “precisão do diagnóstico final” mediu, especificamente, se os participantes chegaram ao diagnóstico mais correto para cada caso. Assim, o “raciocínio diagnóstico” nesse contexto engloba todo o processo cognitivo, enquanto o “diagnóstico final” se concentra apenas no resultado. Nessa direção, médicos que usam LLMs podem ter dificuldades com o diagnóstico devido ao ceticismo, falta de familiaridade, baixa interação com IA e outras abordagens comportamentais e morais”.
Segundo o estudo do JAMA, o uso de LLMs pelos médicos não melhorou o raciocínio diagnóstico para casos desafiadores. No entanto, o fato dos LLMs sozinhos terem desempenho significativamente melhor pode ser explicado por alguns desses eixos: (1) Viés Humano: muitos médicos se apegaram aos seus diagnósticos iniciais, mesmo quando o Chatbot sugeriu alternativas com melhor raciocínio. Eles resistiram aos insights da IA talvez porque contradiziam as opiniões humanas; (2) Subutilização: a maioria dos médicos que usou o ChatGPT o fez com perguntas direcionadas, deixando de explorar a sua capacidade de analisar os casos de forma abrangente (apenas alguns médicos maximizaram o potencial do ChatGPT enviando históricos completos dos casos); (3) Baixo Treinamento: talvez o principal fator, ressaltado no estudo, seja o pouco treinamento que os médicos tiverem na utilização da plataforma (nenhum dos médicos recebeu treinamento explícito sobre o uso do ChatGPT para participar do estudo).
Alguns desses fatores existem por algo parecido com “medicocentrismo”, ou seja, a certeza de que, como ocorreu nos últimos séculos da história, o médico sempre foi o provedor da “melhor certeza diagnóstica”. Ele nunca foi realmente confrontado em suas convicções ou juízos de valor ao longo das Ciências Médicas. É verdade que a responsabilidade não é só dele, mas também dos pacientes e das instituições que os representam.
Outro estudo, publicado em novembro/2024 pela OCDE (“Artificial Intelligence and The Health Workforce – Perspectives from Medical Associations on AI in Health”), realizado com 18 associações médicas ao redor do mundo, descobriu que 72,2% de seus líderes acreditam que os benefícios da IA na saúde superam os riscos. Entretanto, os entrevistados “manifestaram medo de uma má compreensão, comunicação e gerenciamento do risco, pedindo que os governos tomassem medidas sobre regulamentação, salvaguardas e outros temas protetivos”. O estudo declarou: “As associações médicas acreditam fortemente que a IA transformará significativamente o campo da medicina, mas também concordam (70%) que o papel dos médicos permanecerá central. Notavelmente, nenhum entrevistado acreditava que a IA substituiria os médicos”. Essa métrica mostra que os provedores de saúde não estão preocupados com a substituição de seus empregos por IA, como explica o trabalho da OCDE: “Os provedores estão preocupados com a IA sendo projetada e implementada sem eles. Há potencial para mudança na força de trabalho da Saúde, mas é percebido mais como uma mudança de tarefas e funções, com pouca ou nenhuma preocupação com a eliminação de empregos devido à crescente automação dos serviços médicos”.
Por outro lado, conforme a pesquisa da OCDE, “quase três quartos dos médicos e enfermeiros relataram realizar tarefas para as quais são superqualificados, principalmente relacionadas a funções administrativas. A Associação Médica Britânica, por exemplo, indicou que mais de 13,5 milhões de horas dos médicos são perdidas a cada ano devido à tecnologia inadequada – o equivalente a quase 8.000 médicos (até 30% das tarefas administrativas podem ser automatizadas)”. Com relação a possíveis mudanças no status profissional e financeiro dos médicos, cerca de metade dos respondentes da pesquisa considerou improvável que “o uso da IA na assistência médica diminua o status médico, pois eles serão sempre vistos como técnicos usando ferramentas inteligentes”.
É preciso alguma humildade e muita serenidade quando as IAs adentram o bioma Saúde. Máquinas não têm humildade, nem arrogância, não estão “centradas no paciente” enão perseguem o egocentrismo ou o alocentrismo. Portanto, não espere delas a modéstia ou o despojamento diante das decisões diagnósticas. Elas são o que são, fazem o que têm que fazer e para o qual são treinadas em milhões de casos. Um LLM é como um “polifemo”, aquele ciclope imortal da mitologia grega, conhecido por possuir um único olho em sua testa. Ciclopes geralmente enxergam o mundo de forma direta, sem a percepção binocular, são monomodais. Isso pode simbolizar enxergar uma “verdade” ou uma “realidade” sem nuances. Mitólogos levam a sério esse ente. Muitos médicos ainda tendem a confiar mais em seu “olho clínico”, mesmo quando podem receber ajudas artificiais. Não estão errados, somente desacostumados. Aos poucos, certamente, aprenderão a confiar nas IAs naquilo que lhes pareça correto. Caso não o façam, forçosamente também serão ciclopes solitários pairando pelas estepes do mundo contemporâneo. Não serão mais assertivos ou mais erráticos, serão apenas mais uma “espécie” em extinção.
Guilherme S. Hummel
Scientific Coordinator Hospitalar Hub
Head Mentor – EMI (eHealth Mentor Institute)