Visualização de leitura

Escritores acusam Nvidia de acessar 500 TB de livros pirateados

Tecnoblog

Por:Felipe Faustino

20 de Janeiro de 2026, 11:03

Empresa de chips recorreu a arquivos piratas do Anna’s Archive (ilustração: Vitor Pádua/Tecnoblog)

Resumo

A Nvidia é acusada de usar 500 TB de livros pirateados do site Anna’s Archive para treinar IA, ignorando alertas sobre ilegalidade.
Emails internos indicam que a gerência da Nvidia autorizou o download de obras protegidas, visando competir com o ChatGPT.
Um grupo de escritores processa a Nvidia por uso não autorizado de suas obras, enquanto a empresa alega “uso justo” no treinamento de IA.

A Nvidia teria autorizado o download massivo de livros pirateados do site Anna’s Archive para treinar modelos de inteligência artificial, de acordo com acusação de um grupo de escritores dos Estados Unidos. As novas evidências foram anexadas na última sexta-feira (16/01) a um processo que tramita no Tribunal Distrital do Norte da Califórnia.

Segundo a acusação, a gigante dos chips teria contatado diretamente os administradores da plataforma e deu prosseguimento à coleta de dados em menos de uma semana, ignorando um alerta do próprio site sobre a natureza irregular do acervo.

A denúncia, analisada pelo portal Torrent Freak, aponta que a decisão de usar material protegido foi uma estratégia deliberada impulsionada pela “pressão competitiva” para rivalizar com o ChatGPT, da OpenAI, e lançar modelos proprietários (como o NeMo e Megatron) no mercado.

Empresa foi avisada sobre pirataria

A acusação baseia-se em trocas de emails de 2023, obtidas durante a fase de coleta de evidências do processo. Os documentos mostram que um membro da equipe de estratégia de dados da Nvidia entrou em contato com o Anna’s Archive para negociar “acesso de alta velocidade” ao banco de dados, visando alimentar o que a empresa chamava internamente de “NextLargeLLM”.

De acordo com o processo, os operadores do Anna’s Archive alertaram que a coleção era adquirida ilegalmente e questionaram se a Nvidia tinha permissão interna para assumir o risco.

O site teria oferecido acesso a cerca de 500 terabytes de dados, incluindo milhões de livros que, legalmente, estariam disponíveis apenas em sistemas de empréstimo digital restritos. Ainda assim, o documento afirma que a Nvidia “deu sinal verde” para prosseguir com a pirataria.

Quem está processando?

A ação coletiva é movida por um grupo de escritores que representam uma classe de autores cujas obras teriam sido utilizadas sem consentimento ou pagamento. Eles buscam compensação.

A nova versão da queixa expande o escopo do processo original. Além do Anna’s Archive, os autores alegam que a Nvidia utilizou outras fontes notórias de pirataria acadêmica e literária, como Bibliotik (através do dataset Books3), LibGen, Sci-Hub e Z-Library.

A defesa da Nvidia argumentou, em fases anteriores do processo, que a utilização de livros para treinamento de IA constitui “uso justo” (fair use), alegando que as obras são apenas correlações estatísticas para os modelos de IA.

Agora, os autores adicionaram acusações de infração direta e vicária de direitos autorais.

Em junho de 2025, a Anthropic venceu um processo também movido por um grupo de autores que acusava a empresa de usar obras protegidas no treinamento da IA Claude. A Justiça, à época, reconheceu o uso justo de livros comprados pela empresa, mas ordenou um outro processo para julgar as cópias pirateadas. A Anthropic optou por encerrar a disputa por meio de um acordo de US$ 1,5 bilhão (cerca R$ 8 bilhões) com autores e editoras.

Escritores acusam Nvidia de acessar 500 TB de livros pirateados

Nvidia placa de vídeo — Placa de vídeo Nvidia (ilustração: Vitor Pádua/Tecnoblog)

300 TB de dados do Spotify são copiados por site de arquivamento

Tecnoblog

Por:Felipe Faustino

22 de Dezembro de 2025, 11:59

Anna’s Archive apresentou extração massiva de dados do Spotify (ilustração: Vitor Pádua/Tecnoblog)

Resumo

O Anna’s Archive extraiu 300 TB de dados do Spotify, incluindo metadados de 256 milhões de faixas e áudio de 86 milhões de músicas.
O Spotify confirmou a violação de segurança, mas não a escala do vazamento, afirmando que táticas ilícitas foram usadas para contornar o DRM.
O site de arquivamento distribui o material via redes peer-to-peer, justificando a ação como preservação de arquivo.

A plataforma de arquivamento digital Anna’s Archive, conhecida por fornecer links para um vasto acervo de livros e artigos acadêmicos, anunciou a liberação de um pacote de dados massivo extraído do Spotify.

Segundo a publicação no blog oficial da organização, foram copiados cerca de 300 terabytes de informações da plataforma de streaming, incluindo metadados detalhados de 256 milhões de faixas e os arquivos de áudio de 86 milhões de músicas.

Os organizadores do projeto denominam a ação como um esforço de “preservação de arquivo” e reconhecem que a raspagem de dados nessa escala viola os termos de serviço e leis de direitos autorais. No entanto, argumentam que a medida é necessária para proteger a história da música digital contra o desaparecimento de plataformas ou fim de contratos de licenciamento.

Em nota enviada ao portal Android Authority, o Spotify declarou que uma investigação interna identificou o uso de “táticas ilícitas” por terceiros para contornar a gestão de direitos digitais (DRM) e acessar o conteúdo. A companhia não confirmou a escala do vazamento alegada pelo grupo.

O que o grupo extraiu?

De acordo com o Anna’s Archive, a operação conseguiu capturar o equivalente a 99,6% de todo o conteúdo efetivamente reproduzido na plataforma até julho de 2025.

Metadados: Informações técnicas, créditos, títulos e IDs de 256 milhões de faixas.
Áudio: Os arquivos de som de 86 milhões de músicas.
Imagens: Capas de álbuns e artes associadas ao conteúdo.
Letras: Arquivos de texto sincronizados com as músicas.

O material começou a ser distribuído através de redes peer-to-peer (torrent), organizado por popularidade. Para viabilizar o armazenamento e a distribuição de um volume tão expressivo de dados, os responsáveis pelo projeto aplicaram diferentes níveis de qualidade aos arquivos.

Na divisão, músicas populares foram mantidas no formato original de 160 kb/s (padrão de streaming do Spotify), enquanto faixas com poucas reproduções passaram por um processo de recodificação para reduzir o tamanho final do arquivo.

O que diz o Spotify?

Apesar do grupo afirmar que teve acesso a esse enorme volume de dados, o Spotify menciona que apenas “alguns” arquivos de áudio foram acessados através da brecha de DRM, sem confirmar os números na casa dos milhões apresentados pelos hackers.

A empresa não detalhou se o incidente resultou no comprometimento de dados pessoais de usuários ou quais medidas jurídicas serão tomadas contra os operadores do site.

A extração é a primeira do Anna’s Archive que vai além de textos e documentos. Vale lembrar que o site surgiu após as tentativas das autoridades de derrubar a Z-Library.

Na publicação do grupo, a justificativa é de que, embora hits globais estejam seguros em múltiplos lugares, músicas menos conhecidas correm risco real de desaparecimento se dependerem exclusivamente da custódia de empresas privadas.

300 TB de dados do Spotify são copiados por site de arquivamento