Áudio de Bonner chamando Lula e Alckmin de bandidos é falso e foi feito com ferramenta de deepfake

No conteúdo aqui verificado, a maioria dos comentários são risadas. No entanto, parte dos usuários não entendeu se o vídeo era de fato uma montagem. Por ser um conteúdo que sofreu edições para mudar o seu significado original, o Comprova o classificou como falso.

13:29 | Ago. 05, 2022

Falso, para o Comprova, é o conteúdo inventado ou que tenha sofrido edições para mudar o seu significado original e divulgado de modo deliberado para espalhar uma falsidade. O POVO faz parte do Projeto Comprova (foto: Reprodução)

Falso. É falso o vídeo publicado no TikTok que mostra o âncora do Jornal Nacional, William Bonner, chamando de ladrão Luiz Inácio Lula da Silva (PT) e Geraldo Alckmin (PSB), candidatos a presidente e vice, respectivamente, na mesma chapa nas eleições deste ano. Ao Comprova, o jornalista e produtor de deepfakes Bruno Sartori explicou que a voz atribuída a Bonner na verdade foi produzida sinteticamente a partir de um conteúdo em texto.

Este conteúdo foi originalmente publicado no site do Projeto Comprova, do qual O POVO faz parte.

Conteúdo investigado

Vídeo de 14 segundos mostra o âncora do Jornal Nacional, William Bonner, dizendo: “O encontro de dois bandidos”. A gravação corta para imagens de Lula e Alckmin se abraçando, com a narração do jornalista: “Perdão, imagem errada. A imagem seria de outro ladrão, digo, de um ladrão de verdade”.

Onde foi publicado: TikTok.

Conclusão do Comprova

Vídeo publicado no TikTok em que William Bonner supostamente chama Lula (PT) e Geraldo Alckmin (PSB) de bandidos é um deepfake, conteúdo manipulado com ferramentas de inteligência artificial em que pessoas aparecem dizendo ou fazendo coisas que nunca fizeram.

Ao comparar a voz com os movimentos da boca do jornalista, é possível perceber que há uma dissincronia. Através de busca reversa da imagem de Bonner no vídeo foi possível identificar que o post utilizou trecho da edição do Jornal Nacional do dia 12 de julho de 2021. A reportagem diz respeito ao arquivamento pela Justiça Eleitoral de São Paulo de uma das ações da Lava Jato contra Delúbio Soares, ex-tesoureiro do PT. Em nenhum momento do trecho utilizado pelo vídeo aqui investigado o apresentador fala sobre Lula ou Alckmin.

Procurado pelo Comprova para analisar o vídeo verificado, o jornalista e produtor de deepfakes na internet Bruno Sartori explicou que a voz atribuída a Bonner foi produzida a partir da técnica Text to Speech (TTS), que gera áudios sinteticamente a partir de um conteúdo em texto. Sartori se popularizou pela produção de vídeos de humor que utilizam a técnica, e frequentemente publica conteúdos para alertar sobre as possibilidades de criação e edição de vídeos por meio de deepfakes.

No conteúdo aqui verificado, a maioria dos comentários são risadas. No entanto, parte dos usuários não entendeu se o vídeo era de fato uma montagem. Por ser um conteúdo que sofreu edições para mudar o seu significado original, o Comprova o classificou como falso.

Alcance da publicação: O Comprova investiga os conteúdos suspeitos de maior alcance nas redes sociais. Até o dia 1º de agosto, o vídeo teve 2,3 milhões de visualizações, 48,6 mil curtidas, 1,8 mil comentários e 37,6 mil compartilhamentos.

O que diz o autor da publicação: Não foi possível entrar em contato com o autor do post pois o TikTok não permite o envio de mensagens. Diante disso, o Comprova pesquisou pelo perfil do autor em outras redes sociais e fez buscas reversas de imagem, utilizando fotos do homem, mas não encontrou resultados.

Como verificamos

Para verificar o conteúdo, o Comprova entrou em contato com Bruno Sartori, jornalista e produtor de deepfakes na internet, e solicitou que ele analisasse o vídeo investigado. A equipe conversou também com Anderson Rocha, cientista da computação, estudioso dos deepfakes e diretor do Instituto de Computação da Universidade Estadual de Campinas (Unicamp).

Também foram feitas buscas reversas das imagens de William Bonner e de Lula e Alckmin presentes no vídeo aqui analisado.

Para tentar localizar o autor da postagem, foram feitas buscas pelo nome do seu perfil em outras redes sociais e no Google. Por fim, a equipe também assistiu aos outros vídeos postados pelo usuário no TikTok.

Vídeos originais usados na postagem

O vídeo tem 14 segundos e se inicia com uma tela preta com a inscrição “O encontro de dois bandidos” e emojis de risadas. Segue para a abertura do Jornal Nacional com a narração de William Bonner: “O encontro de dois bandidos”. O vídeo corta para imagens de Lula e Alckmin se abraçando, enquanto o jornalista diz: “Perdão, imagem errada. A imagem seria de outro ladrão, digo, de um ladrão de verdade”.

É perceptível que a voz não está sincronizada com os movimentos da boca de Bonner. Com base na leitura labial, também é possível ver que, no primeiro trecho da fala de Bonner (em que o áudio diz: “O encontro de dois bandidos”), o jornalista na verdade está falando: “A Justiça Eleitoral”.

Por meio de busca reversa da imagem de William Bonner no vídeo foi possível identificar que a postagem utilizou trecho da edição do Jornal Nacional do dia 12 de julho de 2021. Bonner está com a mesma gravata verde do vídeo do TikTok e, a partir de 10 minutos e 49 segundos do link da transmissão, ele diz: “A Justiça Eleitoral de São Paulo arquivou por prescrição uma das ações da Lava Jato contra o ex-tesoureiro do PT, Delúbio Soares”. Pelos movimentos do lábio do apresentador, é possível verificar que o primeiro trecho usado no vídeo do TikTok corresponde à fala “A Justiça Eleitoral”. O segundo trecho usado na postagem corresponde a “Por prescrição uma das ações da Lava Jato contra o ex-tesoureiro”.

Já as imagens de Lula e Alckmin se abraçando utilizadas no vídeo investigado foram gravadas em 14 de abril de 2022, durante evento com centrais sindicais em São Paulo. A publicação no TikTok usou vídeo da reportagem do UOL Notícias sobre o evento.

Ferramenta de criação de voz

De acordo com o jornalista e produtor de deepfakes na internet Bruno Sartori, a voz atribuída a William Bonner no vídeo aqui analisado foi feita a partir de uma técnica chamada Text to Speech (TTS), que é capaz de gerar áudios sinteticamente a partir de um conteúdo em texto. Na análise, Sartori reconheceu semelhanças entre o áudio do vídeo aqui analisado e um conteúdo criado por ele mesmo, em que ele também “criou” uma voz idêntica a de William Bonner a partir de deepfakes. Assim, segundo Sartori, o vídeo que é objeto dessa verificação também trata-se de um deepfake, tecnologia que manipula áudio e vídeos por meio de ferramentas de inteligência artificial.

Como o conteúdo adulterado é apenas de áudio, Sartori explica que não é possível fazer uma espécie de “contraprova”, ou seja, um vídeo comparando o material original com o modificado apontando as falhas e as provas de que o material passou por alterações. Ele costuma produzir esse tipo de conteúdo em casos como o do vídeo de deepfake envolvendo a cantora Anitta, que viralizou na última semana. “A produção dessa contraprova é possível apenas em materiais que envolvem adulteração de imagens”, comenta.

Ele exemplificou ainda que a técnica utilizada pelo autor do vídeo aqui analisado foi similar a que ele utilizou em um conteúdo com a voz da ex-presidente Dilma Rousseff. “A partir de um banco com dezenas de áudios do William Bonner falando, o computador gera um novo áudio, do zero, baseado no que foi escrito em texto”, acrescenta.

Sartori ainda afirmou que hoje já existem sites disponíveis ao público capazes de produzir áudios sintéticos de pessoas famosas a partir de conteúdos em texto.

De acordo com Anderson Rocha, cientista da computação, estudioso dos deepfakes e diretor do Instituto de Computação da Unicamp, as falsificações já existem há bastante tempo, o que muda em relação aos deepfakes é que agora esses conteúdos são criados por inteligência artificial, e não um ser humano.

“A inteligência artificial permite que você consiga criar falsificações sem precisar da supervisão de um humano, que é substituído por uma técnica chamada ‘generative adversarial network’ (rede adversarial regenerativa, uma rede de inteligência artificial). Essa rede normalmente tem muitas camadas e parâmetros, e justamente daí sai o nome ‘deep’ [profundo, em inglês]. ‘Deepfake’ então vem da criação de conteúdo a partir de redes desse tipo, tanto para áudio quanto para vídeo e imagem”, explica.

Segundo Rocha, como os algoritmos utilizados pelos primeiros deepfakes não eram muito avançados, haviam pistas que podiam ser procuradas para identificar se aquele conteúdo era uma falsificação. Por exemplo, no caso de imagens e vídeos, era feita análise de movimento dos olhos (ver se a pessoa estava piscando ou não) e próximo aos lábios, e se a iluminação na cena casava com a próxima ao rosto. Isso porque, conforme o pesquisador, normalmente nessas regiões os algoritmos geravam algumas inconsistências.

No caso de conteúdos em áudio, Rocha diz que, no geral, eram analisados o pitch, a modulação da voz e as transições entre fonemas.

“O problema é que como esses algoritmos de inteligência artificial vão melhorando cada vez mais com o tempo, à medida que eles veem mais dados e mais exemplos, esse tipo de pista já não é mais trivial. Hoje não é necessariamente fácil identificar se um vídeo é um deepfake ou não. Se você ouve um áudio, a não ser que você seja uma pessoa que entenda bastante de áudio, você não vai encontrar essas inconsistências facilmente. Então hoje em dia a gente tem que utilizar a própria inteligência artificial para nos ajudar a identificar esse tipo de falsificação.”

Em relação ao Text to Speech (TTS), Rocha afirma que existem pelo menos duas modalidades. Há o TTS que utiliza um algoritmo capaz de receber um texto de entrada e verbalizar aquele conteúdo para que as pessoas possam ouvir, como os audiobooks, por exemplo. Esse tipo de TTS, conforme Rocha, é normalmente usado com fins de assistência pessoal.

E há também uma técnica de TTS chamada “puppeting”, que é quando um algoritmo gera um texto e faz uma voz falá-lo. “Puppeting” vem da palavra puppet em inglês, que significa fantoche. “É como se você estivesse colocando palavras na boca de uma pessoa. Aí você vai imitar toda a questão do tom e formato da voz, o rosto vai ter que se mexer de acordo. Essa técnica de falsificação tem sido bastante utilizada muitas vezes com fins humorísticos ainda, mas também já há casos em que isso é utilizado justamente para fazer pessoas falarem o que elas não querem e isso é divulgado depois como se fosse um vídeo real.”

Outros vídeos postados pela mesma conta

O perfil do TikTok responsável pelo post aqui investigado se descreve na rede como “locutor e radialista” e “pregador da palavra de Deus”. Além de vídeos com teor religioso, há outros três vídeos semelhantes ao que foi aqui analisado. São montagens com a voz de William Bonner, sempre fazendo referência a Lula ou ao atual presidente, Jair Bolsonaro (PL), em tom de sátira e brincadeira, o que reforça a ideia de que a postagem aqui analisada era originalmente uma peça de humor, que não foi compreendida assim por alguns usuários.

No conteúdo aqui investigado, a maior parte dos comentários são risadas. Apesar de diversas pessoas comentarem, em tom de ironia, que Bonner e a Globo “falaram a verdade ao menos uma vez” e elogiarem a montagem, algumas pessoas ficaram em dúvida se o conteúdo havia sido editado ou não.

Em outro vídeo postado pela mesma conta, Bonner aparece na bancada do Jornal Nacional dizendo que “a rede Globo reconhece o presidente Jair Messias Bolsonaro o melhor presidente da história desse país”, o que nunca ocorreu. É possível novamente observar a falta de sincronia entre a voz e o movimento da boca do apresentador. Em outro vídeo, a voz de William Bonner é sobreposta a imagens de uma multidão vestida de verde e amarelo comemorando e a frase “Em outubro receberemos essa notícia”. A voz diz: “2 de outubro de 2022 às sete trinta e dois. Acabamos de receber a notícia que todos esperavam. Jair Messias Bolsonaro é reeleito presidente do Brasil”.

Por que investigamos

O Comprova investiga conteúdos suspeitos sobre a pandemia, eleições presidenciais e políticas públicas do governo federal que viralizaram nas redes sociais. O vídeo aqui verificado cita o ex-presidente e candidato à presidência pelo PT, Lula e seu vice, Geraldo Alckmin. Conteúdos falsos e enganosos são prejudiciais ao processo democrático porque atingem o direito do eleitor de fazer sua escolha baseada em fatos, não em boatos e desinformação.

Outras checagens sobre o tema

Em verificações anteriores envolvendo adulteração de áudio e montagens, o Comprova mostrou que com áudio falso, vídeo engana ao sugerir que ex-governador da Paraíba “humilhou” Lula e elogiou Bolsonaro, que vídeo falso faz montagem de Lula declarando voto em Bolsonaro e que post adultera áudio e mente ao afirmar que Lula foi xingado em Caruaru.

Investigado por: Piauí e Plural.

Checado por: Folha, Metrópoles, SBT, Correio Braziliense, Estadão e AFP.