Visualização normal

Received before yesterdayTecnologia

Um em cada três novos sites é feito por IA, revela estudo

27 de Abril de 2026, 17:06
Ilustração com o texto "AI" ao centro. Na parte inferior direita, o logotipo do "tecnoblog"é visível.
Inteligência artificial está em cerca de 35% das novas páginas na web (imagem: Vitor Pádua/Tecnoblog)
Resumo
  • Estudo revela que 35% das páginas criadas desde 2022 utilizam modelos de linguagem.
  • O levantamento foi conduzido por pesquisadores da Universidade de Stanford, do Imperial College London e do Internet Archive.
  • Eles analisaram amostras de sites arquivados pela Wayback Machine e identificaram padrões de texto automatizado.

Um em cada três sites criados desde 2022 já conta com algum nível de produção por inteligência artificial. É o que mostra um estudo conduzido por pesquisadores da Universidade de Stanford, do Imperial College London e do Internet Archive.

Segundo o levantamento, até meados de 2025 cerca de 35% das novas páginas publicadas na internet foram classificadas como geradas ou assistidas por IA. Antes do lançamento do ChatGPT, no fim de 2022, esse número era praticamente inexistente.

Para chegar a esses dados, os pesquisadores analisaram amostras de sites arquivados pela Wayback Machine entre agosto de 2022 e maio de 2025. O grupo utilizou o software Pandram v3 para identificar padrões de texto automatizado e medir a presença de conteúdo gerado por modelos de linguagem.

Ao 404 Media, Jonáš Doležal, pesquisador de Stanford e coautor do estudo, diz que a velocidade dessa mudança chama atenção. Segundo ele, em poucos anos a IA passou a ocupar uma fatia relevante de um ambientes que levou décadas para ser construído por humanos.

Uma internet mais “uniforme”

Os autores também buscaram entender como o avanço afeta a forma como o conteúdo é produzido. Inspirados por debates como o da chamada Teoria da Internet Morta — a ideia de que grande parte da rede é composta por robôs interagindo entre si —, eles testaram diferentes hipóteses sobre o impacto da IA na web.

Duas delas, relacionadas ao estilo textual, foram confirmadas. De acordo com o estudo, conteúdos gerados por IA tendem a ser mais “alegres” e menos prolixos.

Ao mesmo tempo, há sinais de perda de diversidade estilística e de vocabulário, levando a uma espécie de “monocultura” digital, em que um padrão de escrita domina e substitui diferentes tons de voz. Falamos sobre esse impacto da IA na internet no Tecnocast 355 — A Teoria da Internet Morta.

O que o estudo não encontrou

Apesar do impacto textual, surpreedentemente o estudo não identificou crescimento de informações comprovadamente falsas nem queda relevante no uso de fontes.

O resultado chama atenção porque contraria a percepção de que a IA teria alavancado informações falsas ou enganosas. O argumento é usado, inclusive, pela imprensa brasileira no inquérito contra algumas das tecnologias do Google, como os Resumos de IA.

Em paralelo, o levantamento também comparou esses resultados com a percepção de usuários. Embora parte do público associe o avanço da IA a uma piora na qualidade da informação, esse efeito não apareceu de forma clara nos dados analisados.

Gráfico de linha mostra a evolução da presença de conteúdo gerado por IA na internet entre julho de 2022 e meados de 2025. A linha vermelha indica a proporção de sites totalmente gerados por IA, enquanto a linha roxa inclui conteúdos gerados ou assistidos por IA. Os dados, baseados em amostras do Internet Archive analisadas pelo Pangram v3, revelam crescimento acentuado após novembro de 2022 — marcado por uma linha tracejada que indica o lançamento do ChatGPT —, com a participação chegando a cerca de 35% no cenário mais amplo até 2025.
Conteúdo gerado por IA dispara na web após o lançamento do ChatGPT (imagem: reprodução/AI on the internet)

Uma das explicações levantadas pelos autores é que a própria internet já opera, historicamente, com diferentes níveis de rigor na verificação de informações.

De acordo com o 404 Media, os pesquisadores pretendem aprofundar a análise para entender quais tipos de sites e idiomas estão mais sujeitos ao uso de IA.

A ideia é transformar o estudo em uma ferramenta de monitoramento contínuo, em parceria com o Internet Archive, capaz de acompanhar em tempo real a evolução da presença de conteúdo gerado por IA na web.

Um em cada três novos sites é feito por IA, revela estudo

💾

Pesquisadores de Stanford e do Internet Archive indicam que 35% das páginas criadas desde 2022 utilizam modelos de linguagem.

Inteligência artificial (ilustração: Vitor Pádua/Tecnoblog)

(imagem: reprodução/AI on the internet)

Diretor critica novos bloqueios ao Internet Archive

19 de Fevereiro de 2026, 17:09
Fotografia em plano médio e ângulo diagonal mostra três racks de servidores pretos alinhados lateralmente. Os equipamentos possuem diversas gavetas horizontais com frentes gradeadas e pequenas luzes indicadoras acesas em tons de azul e vermelho. No centro de cada rack, há uma placa preta com o logotipo de um templo grego e o texto "INTERNET ARCHIVE" em letras brancas e maiúsculas. Nas laterais, veem-se etiquetas brancas numeradas e alças de metal prateadas para manuseio.
Internet Archive tem mais de 1 trilhão de páginas arquivadas (foto: Jason Scott/Flickr)

Portais e páginas na internet podem sair no ar por vários motivos, desde falhas técnicas a mudanças de endereço ou remoções deliberadas feitas por seus responsáveis. Para preservar esse conteúdo, serviços como o Internet Archive mantêm cópias arquivadas que permitem consultar versões antigas de sites. Isso se dá pelo Wayback Machine.

Agora, Mark Graham, diretor do Wayback Machine, tenta reverter um aumento nos bloqueios impostos ao serviço por grandes plataformas e veículos de mídia.

Em um manifesto publicado nesta terça-feira (17/02), o executivo afirmou que impedir o Internet Archive de salvar páginas da web compromete o registro público e pode causar danos históricos. O posicionamento responde a medidas adotadas nos últimos meses por publicações como o New York Times e pela plataforma Reddit.

O cerco ao arquivo digital foi motivado pelo temor de que empresas de inteligência artificial estejam utilizando a biblioteca sem fins lucrativos para facilitar a raspagem de dados e o treinamento de grandes modelos de linguagem.

Avanço de bloqueios contra o arquivo

Sede do New York TImes (Imagem: Joe ShlabotnikSeguir/Flickr)
NYT e outros jornais bloquearam robô do Internet Archive (Imagem: Joe ShlabotnikSeguir/Flickr)

Um levantamento publicado em janeiro pelo Nieman Lab, de Harvard, constatou que veículos de peso estão reavaliando a relação com o Internet Archive. O NYT, por exemplo, adicionou o robô do arquivo as restrições. A justificativa é que o Wayback Machine fornece acesso irrestrito e não autorizado aos conteúdos por parte de empresas de IA.

O veículo é um dos maiores críticos ao uso de material jornalístico para treinamento da tecnologia sem que haja acordos financeiros.

O laboratório menciona também o The Guardian, que filtrou os artigos da interface do Wayback Machine e excluiu o site das APIs do arquivo.

Ao todo, até a publicação da pesquisa, o Nieman Lab havia identificado 241 sites de notícias de nove países que haviam bloqueado pelo menos um robô do Internet Archive, apesar de maioria pertencer ao grupo USA Today, dono do jornal homônimo.

O que diz o executivo?

Captura de tela da página inicial do Tecnoblog em 2014
Wayback Machine permite revisitar páginas antigas, como o vicentenário Tecnoblog (imagem: Felipe Faustino/Tecnoblog)

Para Graham, as preocupações das organizações de mídia são compreensíveis, mas não têm fundamento sobre o Wayback Machine. Segundo ele, a ferramenta “não tem a intenção de ser uma porta dos fundos para raspagem comercial em larga escala”, e afirma que a organização trabalha para “evitar tais abusos”.

Ele explica, também, que a plataforma é construída para leitores humanos e utiliza mecanismos de filtragem, monitoramento e limite de taxa de acesso para combater atividades abusivas de bots. Para o diretor, o bloqueio do trabalho de preservação prejudica a capacidade informacional da sociedade.

“Jornalistas perdem ferramentas de prestação de contas. Pesquisadores perdem evidências. A web se torna mais frágil e fragmentada, e a história se torna mais fácil de reescrever”

Mark Graham, em manifesto contra o bloqueio do Wayback Machine

A mobilização do Internet Archive ocorre anos após reportagens apontarem que a plataforma esteve entre milhões de sites utilizados para raspagem de dados por empresas como Google e Meta. Em maio de 2023, a organização chegou a enfrentar instabilidade após uma sobrecarga provocada por tentativas automatizadas de extração de conteúdo. Na ocasião, os administradores da biblioteca bloquearam os acessos.

Diretor critica novos bloqueios ao Internet Archive

Sede do New York TImes (Imagem: Joe ShlabotnikSeguir/Flickr)

Wayback Machine permite revisitar páginas antigas, como o vicenário Tecnoblog (imagem: Felipe Faustino/Tecnoblog)

Internet Archive quer consertar links quebrados em páginas antigas

5 de Fevereiro de 2026, 17:27
Fotografia em plano médio e ângulo diagonal mostra três racks de servidores pretos alinhados lateralmente. Os equipamentos possuem diversas gavetas horizontais com frentes gradeadas e pequenas luzes indicadoras acesas em tons de azul e vermelho. No centro de cada rack, há uma placa preta com o logotipo de um templo grego e o texto "INTERNET ARCHIVE" em letras brancas e maiúsculas. Nas laterais, veem-se etiquetas brancas numeradas e alças de metal prateadas para manuseio.
Internet Archive tem mais de 1 trilhão de páginas arquivadas (foto: Jason Scott/Flickr)
Resumo
  • O Internet Archive e a Automattic criaram o plugin Link Fixer para corrigir links quebrados em páginas antigas.
  • O Link Fixer é gratuito e de código aberto, escaneia links, arquiva páginas na Wayback Machine e atualiza links para versões arquivadas.
  • Um estudo de 2024 da Pew Research indica que 38% dos links de 2013 não funcionam mais, destacando a importância da iniciativa.

A organização sem fins lucrativos Internet Archive e a empresa Automattic, responsável pelo WordPress, anunciaram a criação do plugin Link Fixer, que terá como objetivo evitar que links de páginas antigas levem o leitor a endereços quebrados ou fora do ar.

Do lado do Internet Archive, a iniciativa faz parte do projeto Wayback Machine, que tem arquivos de mais de 1 trilhão de páginas. O software será integrado ao serviço de sites e blogs.

Como o plugin vai funcionar?

O plugin Link Fixer é gratuito e de código aberto. Quando instalado pelo dono de um site, vai escanear os links publicados. Com isso, ele checa se as páginas ainda estão no ar e se elas têm cópias na Wayback Machine — caso não tenham, a solução fará um snapshot e o enviará ao serviço.

A ferramenta não vai apenas arquivar conteúdos — ela também consertará ligações para outras páginas. Caso note que uma página linkada está offline, o plugin entra em cena e atualiza o caminho para uma versão arquivada. O contrário também pode ocorrer: se o endereço original voltar a funcionar, o redirecionamento é desfeito.

Fotografia frontal de um edifício neoclássico branco sob céu azul límpido. A fachada apresenta oito colunas monumentais de estilo jônico que sustentam um frontão reto adornado com quatro grandes vasos ornamentais no topo. No centro, três portas altas de cor esverdeada são precedidas por uma escadaria de mármore. Acima das portas, há janelas quadradas com treliças escuras. Árvores verdes flanqueiam o prédio, e na base da imagem, três carros — um bege, um preto e um vermelho — estão estacionados na rua.
Sede do Internet Archive fica em San Francisco (EUA) (foto: Beatrice Murch/Flickr)

De acordo com a página do Link Fixer, o plugin só precisa ser configurado uma vez; depois disso, ele roda em segundo plano. Caso um site tenha milhares de links, pode demorar algumas semanas até concluir os trabalhos.

Links quebrados são um problema na web

Se você já navegou por notícias de décadas atrás, blogs esquecidos e outros tipos de conteúdo antigo, sabe como é frustrante encontrar uma indicação para uma página interessante, mas não conseguir acessá-la.

Segundo um estudo de 2024 da Pew Research, 38% dos links que existiam em 2013 não estavam mais funcionando. Isso vale para diferentes tipos de conteúdo, como sites, reportagens, páginas governamentais, artigos da Wikipédia e publicações em redes sociais.

“Nós acreditamos que a web deve ser um recurso durável e confiável para todos. Ao longo do tempo, no entanto, os links quebram. Páginas são movidas, domínios não são renovados, sites saem do ar e conteúdo valioso desaparece”, explica a Automattic em seu comunicado.

Com informações do TechCrunch

Internet Archive quer consertar links quebrados em páginas antigas

Sede do Internet Archive fica em San Francisco (EUA) (foto: Beatrice Murch/Flickr)
❌