Para o filósofo francês Jacques Derrida (1930-2004), qualquer tentativa de encontrar um significado fixo para a realidade é uma ilusão. Para ele, significados estão sempre em movimento, sendo dependentes das relações entre palavras, símbolos e contextos. O texto nunca é um objeto estático, muito menos a imagem, mas um “campo de significados que se multiplicam conforme o tempo, o leitor e o contexto”. A desconstrução derridiana foi o ‘soco no estômago’ que o pensador deixou para a pós-modernidade: “a realidade, assim como o seu significado, não pode ser capturada por uma única interpretação ou narrativa”. Derrida desafia a ideia de que podemos “acessar diretamente o real”, argumentando que não há uma verdade central. Sempre estaremos em um processo de interpretação, onde o significado nunca está totalmente presente, sendo sempre fluxo, em trânsito, mudando conforme a forma da realidade se apresentar.

Quase que por encanto, emergiu na última década a expressão “Multimodalidade”, um termo sequestrado pela tecnologia para identificar a “integração de diferentes tipos de dados (ou modos de comunicação), como visual, áudio, texto, etc.”, criando diferentes formas de interpretação da realidade. Perseguindo Derrida, a ‘realidade contemporânea’ passou a ser mediada por tecnologias multimodais, como a Inteligência Artificial (IA), que refletem a pluralidade dos modos para entendermos o mundo. A Multimodalidade, portanto, no âmbito das IAs, reflete a visão derridiana: a realidade é sempre construída e desconstruída por diferentes perspectivas, nunca acessível por um único caminho. O mundo está sempre mudando em nós e fora de nós. Os significados também.

Nada passou a ser tão esperado pelas cadeias de saúde, que testam soluções de IA, quanto a Multimodalidade. Chegando de forma minimalista nas plataformas GenAI, ela é a maior promessa para a Saúde Digital em 2025. O poder multimodal deverá catapultar as cadeias sanitárias décadas à frente. Cerca de 7 mil estudos científicos são publicados diariamente no mundo, sendo que 25% deles na área médica (fonte: STM – International Association of Scientific Publishers). Ou seja, sem ajuda de IA Multimodal, capaz de garimpar, ler, sintetizar e compreender textos, imagens, vídeos, áudios, ondas eletrônicas, etc., a maior parte do conhecimento humano continuará se perdendo. Em outras palavras: qualquer solução de IA que não for multimodal será uma solução incompleta. Será útil, com certeza, mas datada e servindo a propósitos específicos e não aplicáveis de forma transversal. Em Saúde, por exemplo, ou será multimodal ou será “tecnologia inacabada”. Se humanos são multimodais, quem quiser se relacionar com eles deve ser também.

Uma plataforma de IA Multimodal é aquela que aceita múltiplos tipos de dados ao mesmo tempo (ou “perfil de dados”). Ao invés de trabalhar apenas com o tipo linguístico no prompt, pode receber texto, imagem, áudio e vídeo. A multimodalidade permite que uma IA leia um texto (processamento de linguagem natural), interprete uma imagem (visão computacional), reconheça uma fala (processamento natural de áudio), sendo capaz de detectar e interpretar um vídeo (elementos visuais e sonoros juntos). O resultado dessa coletânea de dados informacionais gera um mecanismo capaz de distinguir e perceber objetos, pessoas, ações, cenários e contextos dentro do quadro semiótico apresentado.

IA multimodal é a IA que combina vários tipos de dados para criar determinações mais precisas, tirar conclusões perspicazes ou fazer projeções mais corretas sobre problemas do mundo real. Os dados, uma vez “ingeridos” pelo modelo, treinam e constroem a sua rede neural, estabelecendo uma linha de respostas adequadas. Assim, quando mostramos a foto de uma refeição para uma IA Multimodal, ela é capaz de discernir cada elemento no prato, apresentando quantas colorias, proteínas, nutrientes, etc. estão contidos na imagem. Quando apresentamos a figura de uma igreja no interior de Bucareste, ela é capaz de contar a história do templo. Quando uma câmera lhe mostra uma plateia, ela é capaz de quantificar quantos homens e mulheres estão presentes. Na Saúde, uma plataforma multimodal é capaz de identificar sinais de estresse na voz do paciente e combinar isso com sinais de raiva na sua expressão facial, propondo respostas em função das combinações multimodais.

Mas por que essa incessante busca pela multimobilidade artificial? Por que todos os provedores de GenAI (ou qualquer outra IA) estão competindo arduamente no avanço das plataformas de múltipla modalidade (prompt-multimodal)? O motivo é primário: seres humanos são multimodais, mais que isso, são plurimodais. Qualquer inteligência que queira trabalhar em conjunto com eles precisa entrar em sintonia com sua cognição intelectiva, que, por óbvio, é plurimodal. A maioria das plataformas lançadas nos últimos dois anos propõem uma multimodalidade limitada (ML), ou seja, embora possa combinar informações visuais com textuais (como a capacidade de traduzir um artigo, ou legendar um vídeo, ou discernir uma imagem, ou pesquisar produtos visualmente), sua performance em gerar novos conteúdos é restrita. O que vem pela frente é a chamada multimobilidade avançada (MA), que pode combinar, integrar, hierarquizar, analisar e projetar informações advindas de diferentes modalidades de arquivos (modos de representação do contexto, como texto, imagem e áudio), criando resultados cada vez mais sofisticados e contextualmente mais relevantes. Na realidade, as GenAIs estão trabalhando com dois conjuntos de modais: os Simbólicos/Linguísticos (linguagem-escrita) e os Sensoriais/Perceptuais (imagem, áudio e vídeo). 

O estudo “A Multimodal Generative AI Copilot for Human Pathology”, publicado em junho/2024 pela Nature, mostra o PathChat, um assistente GenAI de visão para a patologia. Ele combina um LLM pré-treinado, ajustando mais de 456.000 instruções de linguagem visual, consistindo em 999.202 turnos de perguntas e respostas. O PathChat alcançou desempenho de última geração em questões de diagnóstico de múltipla escolha em diversas origens de tecidos e modelos de doenças. Além disso, usando perguntas abertas e avaliação de especialistas humanos, a pesquisa descobriu que ele é capaz de produzir respostas mais precisas e preferíveis para patologistas. Apesar de todos os “milagres” expostos no estudo, a diferenciação mesmo está na “capacidade multimodal” de uma GenAI. Mesmo em fase piloto, o PathChat é um microcosmos do que vem pela frente.

Outro estudo, publicado pela mesma Nature em setembro/2024 (“Enhancing early Parkinson’s disease detection through multimodal deep learning and explainable AI: insights from the PPMI database”) investiga a “detecção precoce da Doença de Parkinson utilizando aprendizado profundo multimodal e IA explicável”. As características multimodais incluem a combinação de dados em imagem 3D (ressonância magnética) com dados clínicos textuais para melhorar a acurácia diagnóstica. Modelos como DenseNet e ResNet (arquiteturas de redes neurais) revelam áreas cerebrais específicas (como o lobo temporal direito), cruciais para a detecção precoce da doença. Trata-se de um exemplo de “multimobilidade profunda” no eixo da pesquisa médica.

Conspira a favor das IAs Multimodais Avançadas três características: (1) Habitus e Perfectibilidade: a capacidade das MAs de aprenderem e se aperfeiçoarem continuamente, automatizando tarefas sempre em busca de melhorias. Esse traço está alinhado ao conceito de “perfectibilidade” do iluminista Rousseau (1712-1778). Trata-se da busca permanente pelo aprimoramento, impulsionada pela capacidade de sempre apreendermos visando expandir nossa eficiência. Embora a ‘perfectibilidade rousseauniana’ se referisse a uma condição natural dos humanos (que os diferenciava dos outros animais), é claro que no século XXI ser perfectível em sabedoria e conhecimento é uma busca custosa, às vezes dolorosa, portanto, uma condição desigual dos humanos. Todavia, como atributo, a perfectibilidade tecnológica permite que a MA supere as limitações humanas em termos de velocidade, precisão e consistência. Sua habilidade de aperfeiçoamento contínuo é difícil de ser alcançada por indivíduos em geral (estamos cercados por limitações biológicas, psicológicas e sociais). O comportamento humano não é apenas regido por instâncias imanentes, mas também por interesses externos ao seu querer. Uma IA é desenvolvida para aprender de forma incessante, evoluindo ininterruptamente sem as distrações ou limitações que os humanos enfrentam. Máquinas inteligentes não conhecem a esporadicidade e não são paridas para ceder diante da desilusão dos encontros com o mundo.

Não menos importante para a dimensão da Multimobilidade Avançada (MA) é a característica de (2) Conversão Contínua de Dados Não-Estruturados em Dados Estruturados. A habilidade de estruturar dados é um dos grandes trunfos das GenAIs. Ao transformar informações como imagens, vídeos, áudios e textos em “machine-readable data” (dados legíveis por máquina), cada nova pesquisa sobre um determinado objeto (ou sujeito) é mais efetiva e mais veloz. Suas análises e insights passam a ser mais ágeis e assertivos porque a contínua estruturação de dados pavimenta as buscas. No caso da Saúde, a capacidade de estruturar o histórico clínico completo do paciente, incluindo imagens de exames e anotações médicas, cria ‘camadas estruturadas de dados’ que se multiplicam em informação qualitativa a cada nova consulta. Humanos são bons para pesquisa, mas são menos-bons quando ela gravita em torno de informações não-estruturadas, e menos ainda quando incapazes de a cada nova análise começar de onde terminou a última. Quando o médico realiza uma pesquisa em centenas de dados de um paciente, objetivando avaliar sua decisão diagnóstica ou terapêutica, dificilmente ele constrói um ‘arcabouço metodológico explicando como chegou a essa decisão’. Não há tempo, paciência ou prioridade para descrever essa estrutura lógica. Mas seu Assistente Conversacional GenAI o fará, e sempre de forma estruturada.

Finalmente, outra característica evolutiva de uma GenAI Multimodal Avançada é a capacidade de (3) Redução das Razões de Interoperabilidade. A contração da necessidade de integração sistêmica entre diferentes dispositivos e plataformas, cujos dados agora podem ser acessados (filmados ou fotografados diretamente do display de um equipamento) e “decodificados” pela GenAI, passou a ser outro atributo crucial da MA. Ao reconhecer e interpretar diretamente os modais Sensitivos/Perceptuais, como as imagens da tela de um monitor multiparamétrico, por exemplo, reduz-se um dos maiores gargalos operacionais da prática hospitalar: a necessidade da interoperabilidade na coleta de dados.

Na leitura de Monitores de Sinais Vitais Multiparamétricos, por exemplo, percebe-se claramente essa terceira característica: uma câmera registra ininterruptamente o display dos monitores numa CTI, por exemplo, coletando dados multimodais (que eventualmente a enfermagem coleta a cada ciclo de visita, anotando o índice que está na tela). Esses dispositivos (95% das vezes) são de fornecedores diferentes, fabricados em épocas diferentes, muitos com linguagens de programação que não se utilizam mais, com APIs singulares e com o uso de barramento interoperável para integrar os dados. Cada dispositivo novo deve seguir os protocolos de cada hospital, muitas vezes com regras semânticas, ontológicas e padrões de dados diferentes entre si. Mas, uma câmera integrada a uma GenAI Multimodal Avançada (com aferição Sensitiva/Perceptual) elimina tudo isso. A IA registra o display do monitor, identifica o dado, o reconhece (Visual Recognition), o descreve em linguagem natural (texto ou áudio), transferindo-o diretamente ao EHR, ou à equipe de atendentes. Isso é feito de forma direta, sem interoperabilidade de coleta, sem barramento, sem cabos e sem enfermagem anotando o display a cada quadra-temporal. Capta o dado do ‘screen’, que, por exemplo, registra o batimento cardíaco e o remete diretamente à GenAI, que pode ser acessada por um médico a milhares de quilômetros de distância.

Essas três características vão movimentar a aplicação das IAs na Saúde nos próximos meses. Todas as provedoras de IAs estarão lançando seus modelos multimodais avançados ainda em 2024 ou 2025, sendo que várias já lançaram ferramentas para suporte a completude da ‘interação multimodal’, como o Google Lens, o Amazon Bedrock ou o Amazon Rekognition, sendo que, recentemente, a Apple mostrou seu Visual Intelligence (ainda tímido), ou a própria OpenAI com muitas promessas de multimobilidade e poucas entregas. Para se entender o alcance do que estamos falando, basta conferir com atenção o Vídeo (Projeto Astra, Google). Ele retrata, ainda em caráter experimental, como serão os próximos anos e como a multimodalidade em IA vai transformar o contexto da assistência cognitiva. Em 2025, boa parte das plataformas GenAIs terão multimodalidade avançada, sendo operadas por meio de Agentes Conversacionais (copiloto-generativo). Segundo o Gartner Group, 40% das soluções de IA generativa serão totalmente multimodais até 2027.

Na Saúde a multimobilidade avançada (MA) será transformadora. A pesquisa “Evaluating multimodal AI in medical diagnostics”, realizada por pesquisadores alemães e publicada também na Nature em agosto/2024, avalia a capacidade dos modelos de IA multimodais em responder às perguntas do NEJM Image Challenge (uma competição interativa promovida pelo New England Journal of Medicine, onde os participantes visualizam imagens médicas e são desafiados a diagnosticar a condição correspondente a partir de opções múltiplas). A GenAI Claude 3, da Anthropic, demonstrou a maior precisão entre os modelos avaliados, superando a precisão humana média, enquanto a tomada de decisão humana coletiva superou todos os modelos de IA. O estudo conclui: “No geral, as descobertas são promissoras para o futuro das GenAIs ​​em diagnósticos médicos, particularmente em áreas como dermatologia, onde a automação da detecção de câncer está mostrando crescente interesse científico. Uma meta-análise publicada recentemente demonstrou que a precisão da IA ​​na detecção de câncer de pele excedeu significativamente a dos clínicos gerais e mostrou desempenho comparável ao de dermatologistas experientes. Além disso, outra análise descobriu que uma precisão de mais de 90% na detecção de câncer de pele poderia ser alcançada usando modelos de IA”. A GenAI pode acelerar e aprimorar diagnósticos, mas, se e somente se, sua característica multimodal for ampliada, sofisticada e disponível a baixo custo para qualquer entidade ou profissional médico.

Absorvendo Derrida, podemos alinhar a realidade de infinitas formas e com infinitos significados. Uma imagem pode ser percebida em diferentes ângulos, com diferentes níveis de iluminação e até com distorções visuais do observador. Mas uma IA deve lidar com essa variação de modo cartesiano, usando sua ‘perfectibilidade tecnológica’ para interpretar cada vez melhor os dados do mundo. O ser humano pode avaliar mal uma imagem (ou cena), uma IA não. Humanos podem alucinar, IAs são contestadas ao menor sinal de ambivalência.

Perceba que mesmo os Assistentes Médicos Conversacionais (GenAI-Agents), cuja oferta no mercado alcançou mais de uma centena de opções em menos de 18 meses, só serão amplificados na expansão direta de sua multimodalidade. A geração atual de Assistentes baseados em modelos linguísticos (texto), só consegue “gerar a próxima palavra provável em uma frase”, um Agente de IA Multimodal terá a capacidade de agir de forma autônoma, identificando de “modo natural” múltiplos perfis de arquivos (texto, imagem, áudio e vídeo). Embora a Multimodalidade seja um termo relativamente novo, trata-se de um atributo antigo. Afinal, como os seres humanos aprenderam sobre o mundo desde que aqui surgiram? Só proliferamos por meio dos sentidos, como visão, som e tato. Nossos cérebros combinam esses diferentes modais de dados, transformando tudo em algo altamente matizado e holístico da realidade. Como concluiu o report “Multimodal: AI’s new frontier”, publicado em 2024 pelo MIT Technology Review: “(1) a IA  multimodal utiliza texto, imagens, áudio, e outros formatos de dados para criar uma visão diferenciada do mundo mais próxima do que nunca de como o cérebro humano o percebe; (2) o desenvolvimento  de  produtos  e  serviços  multimodais  disruptivos,  habilitados  por  IA,  já começou e só vai crescer”.   

A tecnologia multimodal possui vários Modelos, como os VLMs (Modelos de Linguagem Visual). Nas Consultas Médicas Virtuais (telemedicina), por exemplo, o VLM poderá analisar quadros faciais, tons de voz, fluxo respiratório ou mesmo interpretar expressões corporais, oferecendo insights em tempo real aos médicos. Os novos rumos da Telemedicina serão balizados pela Multimodalidade dos LLMs. Usuários de ‘óculos metaversos inteligentes’ (intelligence headset), como o Ray-Ban Meta, ou Apple Vision Pro e outros, já operam com tecnologia multimodal, ainda que em estágios diferentes de sofisticação. Seus usuários podem solicitar descrições em áudio ou texto, coletadas das imagens capturadas pela câmera, traduzindo qualquer texto ou enriquecendo as informações, como, por exemplo, como e onde comprar um produto identificado pelos headsets.  

Para Derrida, ‘não existe significado fora do contexto’, ou seja, o significado nunca está totalmente presente, mas está sempre em trânsito e em transformação. A Multimodalidade das IAs, onde diferentes tipos de dados se entrelaçam, gera novas interpretações e resultados, portanto, novos significados. O filósofo francês inventou uma palavra para articular algo que ele não conseguia encontrar nos termos tradicionais da filosofia: Différance. É quase idêntico a différence (diferença), mas a mudança de uma letra cria uma distinção modal crucial: ela só é visível na escrita, e não na fala. Essa é a matriz desse instigante pensador: o significado não está somente no som das palavras, mas também na estrutura e na grafia que a sustenta. Além disso, Derrida inseriu na palavra o conceito de ‘adiamento’, ou seja, nunca conseguimos captar o significado de algo de forma imediata. O sentido viaja e está sempre sendo adiado, pois, ao tentar defini-lo, recorremos a outras palavras, imagens e sons, que, por sua vez, carecem de mais elementos multimodais para serem definidos, criando uma cadeia infinita de referências.

Différance se aplica de forma fascinante às tecnologias multimodais, que combinam diferentes formas de comunicação (texto, imagem, som) para interpretar a realidade. Embora Derrida não tenha buscado reduzir os significados com sua “différance”, o avanço das tecnologias multimodais, em certa medida, reduz a distância entre a nossa percepção fragmentada da realidade e a compreensão das múltiplas camadas de significado que estão em trânsito.

Se tirássemos do ser humano seus sentidos plurimodais (visão, audição, tato, etc.) haveria grandes dificuldades para ele navegar na realidade. Da mesma forma, o ‘apoio significatório’ das IAs Multimodais amplifica a nossa compreensão do mundo. Entretanto, embora nos aproxime de uma realidade mais rica, a multimodalidade sempre acompanhará a ideia central de Derrida: ‘o significado estará sempre em movimento, sempre diferido, perpetuamente à espera de novas interpretações’.

 

Guilherme S. Hummel
Scientific Coordinator Hospitalar Hub
Head Mentor – EMI (eHealth Mentor Institute)