‘AI-Detects’ já revelam qualquer conteúdo gerado por IA

Em 2018, na Copa do Mundo da Rússia, a Espanha e Portugal se enfrentavam (em Sochi). Aos 24 minutos, o atacante espanhol Diego Costa deu uma cotovelada no rosto do zagueiro Pepe, que foi ao chão. Na sequência da jogada, Costa mandou a bola no canto da rede. Enquanto a Espanha comemorava o empate (1 x 1), o árbitro Gianluca Rocchi consultou o Árbitro Assistente de Vídeo (o tal de “VAR”), usando seu fone de ouvido. Perguntou se ele havia detectado algo de errado na jogada. O VAR, que estava numa sala de controle em Moscou, a 1.620 quilômetros da partida, respondeu que tudo estava certo, e o gol foi autorizado. Em linhas gerais, toda a audiência da partida sabia da falta, menos o árbitro, e alguns torcedores desatentos que se apertavam no estádio. Terminado o jogo, o próprio Diego Costa declarou: “Eu vi depois. Poderia ter sido marcada a falta, embora seja a interpretação do juiz que vale". Questionado sobre o VAR, Costa acrescentou: "Não gosto… marquei um gol, mas não sabia se comemorava ou não. Se comemoro, isso faz você parecer um estúpido". Foi a primeira vez que o VAR foi utilizado na história das Copas do Mundo, aliás, uma estreia “inesquecível”.

As IAs só crescem na vigilância esportiva. No tênis, por exemplo, o “juiz principal” já obedece ao "juiz eletrônico", conhecido como "Hawk-Eye", que utiliza IA e câmeras de alta velocidade para rastrear a trajetória da bola, determinando se ela caiu dentro ou fora da quadra. Já se testam raquetes de tênis equipadas com sensores e IA para analisar o desempenho dos jogadores. GenAIs estão sendo habilitadas para fazer parte de quase todos os processos desportivos. Talvez, em breve, tenhamos humanoides disputando Wimbledon...

Não é só na vigilância que as IAs impactam o esporte, os próximos Jogos Olímpicos (Paris) devem trazer incríveis artefatos, sensores e devices para propelir a competição. Segundo Alicia Richart, diretora-geral da Afiniti, uma das mais antigas provedoras de máquinas inteligentes, a IA pode melhorar em 17% o desempenho dos atletas, sendo que sua influência nas equipes esportivas pode chegar a 28%. Para ela, os jogos de Paris talvez fiquem conhecidos como os primeiros em que a IA fez a diferença (em corridas de 10 km, adicionar 100 gramas ao calçado, reduz o desempenho em cerca de 10%). Mas, uma Olimpíada com IA significa, acima de tudo, jogos com muito maior vigilância e métricas de controle sobre cada competição, como no dopping. Além disso, em Paris, um sistema de IA monitorará em tempo real milhares de contas em todas as principais plataformas de mídia social (35 idiomas). Quaisquer ameaças serão sinalizadas, para que as mensagens abusivas possam ser “tratadas” pelas redes sociais (antes mesmo de o atleta ver o abuso).

Analogamente, não precisa ser um ‘gênio da lâmpada’ para prever que logo apareceriam “tecnologias-Var” no terreno (minado) da Propriedade Intelectual (PI). As chamadas “criações da mente”, como invenções, obras literárias, peças artísticas, designs, símbolos, estudos científicos, vídeos e imagens usados em todos os campos do saber humano, passam por seu momento mais difícil neste século. O objetivo da PI é proteger e recompensar a inovação e a criatividade, garantindo que criadores possam ter reconhecimento e benefícios de capital por suas criações. Com as GenAIs, toda a estrutura de PI entrou em modo de turbulência. Patentes, direitos autorais (copyright), trademarks, segredos comerciais, etc. estão sendo desafiados pelas novas realidades da ‘cognição artificial’. Há uma ideia temerária e discutível de que a “Regulamentação de IA” pacificará os problemas da PI. Pode ser que traga alguma mitigação nos distúrbios que envolvem os ‘direitos autorais intelectivos’, mas dificilmente as coisas voltarão a ser como antes.

Todavia, as próprias GenAIs estão se habilitando a detectar o uso das IAs na burla da propriedade intelectual. O período de copy-paste (na imprensa, nas universidades, nos relatórios corporativos, nas pesquisas científicas, no marketing, nas escolas secundárias, nas revistas especializadas, nas repartições públicas, etc.) capaz de plagiar e copiar estudos ou artigos de terceiros por meio das GenAIs está com os dias contados.

“Detectores específicos de conteúdo de inteligência artificial e revisores automatizados” já surgem, podendo identificar com precisão todo e qualquer texto, imagem ou vídeo gerado por IA, mesmo depois do “promptista” parafrasear a escrita para torná-la evasiva. As novas plataformas de “revisão-detecção” (“AI-Detects”) já emergem “rastreando” replicações, reproduções ou apografias (escrita derivada de outra fonte, registro escrito baseado em obra original), ameaçando a legião de copiadores compulsivos. A duplicação de “algo autoral”, ou de parte de algo, pode ter intenções fraudulentas, ou apenas parafraseamento, citação ou mera apropriação semântica. Para as AI-Detects, isso é totalmente irrelevante. Seu objetivo é revelar o ato de ‘contornar’ o direito autoral.

Na área de Saúde, esse ‘encalço-digital’ deve ter vida longa. O estudo “The great detectives: humans versus AI detectors in catching large language model-generated medical writing”, publicado em maio/2024, mostra que a “aplicação de IA na escrita acadêmica levanta preocupações relativas à precisão, ética e rigor científico”. O estudo vai além, revelando que mesmo alguns “detectores de conteúdo de IA” podem ainda não serem capazes de identificar com precisão as partes geradas por máquinas inteligentes. A pesquisa escolheu 50 artigos de quatro periódicos revisados por pares e, em seguida, fabricou outros 50 artigos usando o ChatGPT. Alguns AI-Detects do mercado ((Originality.ai, Turnitin, ZeroGPT, GPTZero e GPT-2 Output Detector) foram empregados para identificar “vestígios” de IA nos artigos originais (gerados pelo ChatGPT). Além disso, quatro revisores humanos foram recrutados para diferenciar entre os artigos originais e os reformulados por IA. Como resultado, Originality.ai detectou corretamente 100% dos textos gerados ou reformulados pelo GPT; o ZeroGPT detectou com precisão 96% dos artigos, embora o Turnitin não tenha identificado nada.

Certamente que os AI-Detects ainda estão na sua fase “infantil”, ganhando musculatura à medida que o mercado os utiliza em grande escala. Testá-los agora é útil e esclarecedor, mas os resultados ainda são precipitados para um julgamento criterioso. Nesse sentido, o Dr. Mike Perkins, chefe do Centro de Pesquisa e Inovação da British University Vietnam explicou: “Esse é um estudo interessante que contribui para a discussão dos chamados detectores, que determinam se um texto é produzido por um ser humano ou não. No entanto, precisamos de cautela ao extrapolar os resultados, visto que os autores usaram o ChatGPT 3.5 para gerar o conteúdo do teste”. Principal autor de outro estudo, também publicado em 2024 (“Diretrizes para editores acadêmicos sobre o uso de IA: uma análise temática apoiada por ChatGPT”), Perkins explicou ainda: “O método de criação de texto também não reflete um processo de coescrita entre IA e humanos, que seria uma área chave para exploração”.

Mesmo com toda a polêmica sobre qual estudo está mais correto, a “caça” continua. No âmbito acadêmico-universitário o uso dos AI-Detects é crescente e exponencial. Afinal, como os alunos estão usando os LLMs em seus trabalhos universitários? Seriam esses detectores capazes de inspecionar o trabalho de cada discente? Pesquisadores da University of Wisconsin-Madison (EUA) selecionaram 153 alunos de um curso introdutório de microbiologia para escreverem ensaios sobre a “regulação do operon triptofano” (genes encontrados em bactérias). Em seguida, pediram a mesma tarefa à IA e também entrevistaram os estudantes sobre o uso dos LLMs. A pesquisa, denominada “Students are using large language models and AI detectors can often detect their use”, descobriu que 46,9% dos alunos utilizam as GenAIs em seus trabalhos universitários, sendo que apenas 11,6% deles utilizam mais de uma vez por semana (será?). A maioria declarou claramente que não têm certeza sobre “o que seria antiético nos LLMs”. No geral, os detectores de IA conseguiram diferenciar entre o texto escrito por humanos e aqueles escritos por IA com 88% de assertividade (quatro dos cinco ‘detectores de IA’ testados foram capazes de identificar textos gerados por IA). Da mesma forma, a conclusão do estudo reforça que é cedo para julgar a competência desses “AI-hunters” em estudos científicos, embora a pesquisa conclua ao final: “À medida que estas tecnologias se desenvolvem, o cenário certamente mudará. Os instrutores e as instituições devem manter-se atualizados sobre as tecnologias mais recentes e criar ambientes de apoio, onde os alunos compreendam o uso responsável dos LLMs”.

No início de 2023, um escritor-fantasma liderou mais de 60 escritores e editores, que preparavam postagens, blogs e artigos para promover uma empresa de Tecnologia. Eram textos sobre dezenas de diferentes assuntos. Logo ele percebeu que era mais fácil utilizar plataformas de GenAI para reduzir os custos. Um mês depois, o ChatGPT escrevia os artigos na íntegra e a maioria de sua equipe foi demitida. Em 2024, ele demitiu o restante da equipe e ficou sozinho. “De repente, eu estava apenas fazendo o trabalho de todo mundo”, disse ele a uma matéria da BBC.

Na realidade, essa ‘contração laboral’ ocorre em milhares de empresas, não só na área de marketing, como em toda e qualquer escrituração. Todavia, embora o custo operacional seja mais barato do que quando realizado por humanos, os leitores logo passaram a identificar a ‘qualidade robótica dos conteúdos’. Essa percepção será tanto maior quando mais os AI-Detects se expandirem em uso e sofisticação. Boa parte daquelas empresas que demitem alguns de seus redatores de conteúdo passam a recontratá-los para “inserir um toque humano” nos textos, imagens e vídeos. Da mesma forma, tornou-se comum implementar ‘ferramentas para detecção de IA’ de modo a escapar de acusações de plágio, judicialização de conteúdo, falseamento de estudos, etc.

Todas as publicações de “scientific journals”, por exemplo, já utilizam (e aperfeiçoam) suas plataformas de AI-Detect. Toda a grande mídia nacional e internacional já dispõe de inúmeras plataformas para detecção de GenAI em suas “mesas de redação”. Boa parte dos grandes escritórios de advocacia também adotam, assim como os principais editores de livros. As “ferramentas caçadoras de IA” são atualizadas regularmente, acompanhando (ou tentando acompanhar) os provedores de GenAI. Nessa direção, surgiu um novo tipo de sistema: as plataformas que conferem a escrita (ou outros modais) peculiaridades da escrita humana difíceis de serem identificadas pelos AI-Detects, como, por exemplo, o Undetectable-AI, ou AI Undetect, ou WriteHuman, ou mesmo o HIX Bypass, que promete na entrada de seu site: “Humanize o texto da IA e ignore a detecção da IA”. Dezenas de outros AI-humanizers já existem e muitos outros surgirão.

Outra tendência crescente é a chegada em larga escala dos “Deepfake Detector Tools”, uma classe de GenAIs desenvolvida especificamente para detectar e acusar os deepfakes. O Sentinel, por exemplo, é uma plataforma de IA que ajuda na proteção de governos, agências de defesa e empresas, impedindo-as das ameaças de "synthetic media" (outro neologismo para substituir o batido ‘deepfake’). São conteúdos gerados ou manipulados por IA para “inventar realidades” e confundir a população e os editores de conteúdo. O sistema permite que os usuários carreguem mídia-digital (por meio de APIs), que é automaticamente analisada quanto à falsificação por meio de plataformas artificiais. A ferramenta não só determina se a mídia é deepfake, mas também fornece a visualização da manipulação (largamente usada pelas organizações públicas da Europa).

O WeVerify é um projeto que objetiva desenvolver métodos e ferramentas inteligentes para verificação de conteúdo voltado a desinformação. Entre outros itens, possui um “banco de dados público de falsificações conhecidas” (que roda totalmente em blockchain). A “Deepfake Detection Using Phoneme-Viseme Mismatches” é outra plataforma desenvolvida por pesquisadores da Universidade de Stanford e da Universidade da Califórnia, explorando os visemas (formas visuais dos sons da fala, especificamente os movimentos de boca e lábios quando uma pessoa oraliza). A plataforma identifica a dinâmica da boca e revela as inconsistências em relação ao que está sendo falado. O mercado de instrumentos para detecção de tudo aquilo que passa pelas Inteligências Artificiais (generativas ou não) só cresce, deixando cada vez mais difícil o plágio, o falseamento, a cópia e a mentira. Vai conseguir eliminar o mercado de inverdades? Não, mas tornará o caminho dos farsantes cada vez mais complexo.

Dificilmente teremos, no curto prazo, uma proteção regulatória universal à Propriedade Intelectual. É mais razoável pensar que, independentemente da regulamentação (que em algum momento precisará existir), o mais sábio a fazer é contar com o ‘arsenal de proteção intelectiva’ que as próprias GenAI podem produzir, como as plataformas AI-Detect reveladas acima. Máquina controlando máquina, microchip investigando microchip, redes neurais capturando redes neuróticas, LLMs evitando outras LLMs de explodir o parquinho. Em outras palavras: Inteligência Artificial evitando inteligência artificiosa. É melhor isso funcionar antes que as GenAIs, o mais importante suporte tecnológico à Saúde deste século, sejam consideradas o maior roubo de propriedade intelectual da história da humanidade.

Guilherme S. Hummel
Scientific Coordinator Hospitalar Hub
Head Mentor – EMI (eHealth Mentor Institute)

Propriedade Intelectual? ‘AI-Detects’ já revelam qualquer conteúdo gerado por IA

Article-Propriedade Intelectual? ‘AI-Detects’ já revelam qualquer conteúdo gerado por IA