Visualização de leitura

Escritores acusam Nvidia de acessar 500 TB de livros pirateados

Uma placa de vídeo com detalhes em tons de verde vibrante e preto flutua diagonalmente no centro da imagem. Abaixo dela, em destaque, o logo da "NVIDIA" em verde e branco. O fundo é cinza escuro, com elementos desfocados que remetem a outras placas de vídeo. No canto inferior direito, o logo "tecnoblog".
Empresa de chips recorreu a arquivos piratas do Anna’s Archive (ilustração: Vitor Pádua/Tecnoblog)
Resumo
  • A Nvidia é acusada de usar 500 TB de livros pirateados do site Anna’s Archive para treinar IA, ignorando alertas sobre ilegalidade.
  • Emails internos indicam que a gerência da Nvidia autorizou o download de obras protegidas, visando competir com o ChatGPT.
  • Um grupo de escritores processa a Nvidia por uso não autorizado de suas obras, enquanto a empresa alega “uso justo” no treinamento de IA.

A Nvidia teria autorizado o download massivo de livros pirateados do site Anna’s Archive para treinar modelos de inteligência artificial, de acordo com acusação de um grupo de escritores dos Estados Unidos. As novas evidências foram anexadas na última sexta-feira (16/01) a um processo que tramita no Tribunal Distrital do Norte da Califórnia.

Segundo a acusação, a gigante dos chips teria contatado diretamente os administradores da plataforma e deu prosseguimento à coleta de dados em menos de uma semana, ignorando um alerta do próprio site sobre a natureza irregular do acervo.

A denúncia, analisada pelo portal Torrent Freak, aponta que a decisão de usar material protegido foi uma estratégia deliberada impulsionada pela “pressão competitiva” para rivalizar com o ChatGPT, da OpenAI, e lançar modelos proprietários (como o NeMo e Megatron) no mercado.

captura de tela de um trecho do processo contra a Nvidia que diz que a empresa estaria visando os arquivos pirateados por pressão competitiva
Trecho do processo indica que a competição em IA levou a Nvidia à pirataria (imagem: reprodução/Torrent Freak)

Empresa foi avisada sobre pirataria

A acusação baseia-se em trocas de emails de 2023, obtidas durante a fase de coleta de evidências do processo. Os documentos mostram que um membro da equipe de estratégia de dados da Nvidia entrou em contato com o Anna’s Archive para negociar “acesso de alta velocidade” ao banco de dados, visando alimentar o que a empresa chamava internamente de “NextLargeLLM”.

De acordo com o processo, os operadores do Anna’s Archive alertaram que a coleção era adquirida ilegalmente e questionaram se a Nvidia tinha permissão interna para assumir o risco.

O site teria oferecido acesso a cerca de 500 terabytes de dados, incluindo milhões de livros que, legalmente, estariam disponíveis apenas em sistemas de empréstimo digital restritos. Ainda assim, o documento afirma que a Nvidia “deu sinal verde” para prosseguir com a pirataria.

captura de tela de trecho do processo contra a Nvidia
Anna’s Archive avisou empresa sobre natureza dos dados (imagem: reprodução/Torrent Freak)

Quem está processando?

A ação coletiva é movida por um grupo de escritores que representam uma classe de autores cujas obras teriam sido utilizadas sem consentimento ou pagamento. Eles buscam compensação.

A nova versão da queixa expande o escopo do processo original. Além do Anna’s Archive, os autores alegam que a Nvidia utilizou outras fontes notórias de pirataria acadêmica e literária, como Bibliotik (através do dataset Books3), LibGen, Sci-Hub e Z-Library.

A defesa da Nvidia argumentou, em fases anteriores do processo, que a utilização de livros para treinamento de IA constitui “uso justo” (fair use), alegando que as obras são apenas correlações estatísticas para os modelos de IA.

Agora, os autores adicionaram acusações de infração direta e vicária de direitos autorais.

Em junho de 2025, a Anthropic venceu um processo também movido por um grupo de autores que acusava a empresa de usar obras protegidas no treinamento da IA Claude. A Justiça, à época, reconheceu o uso justo de livros comprados pela empresa, mas ordenou um outro processo para julgar as cópias pirateadas. A Anthropic optou por encerrar a disputa por meio de um acordo de US$ 1,5 bilhão (cerca R$ 8 bilhões) com autores e editoras.

Escritores acusam Nvidia de acessar 500 TB de livros pirateados

Placa de vídeo Nvidia (ilustração: Vitor Pádua/Tecnoblog)

(imagem: reprodução/TorrentFreak)

(imagem: reprodução/Torrent Freak)
  •  

300 TB de dados do Spotify são copiados por site de arquivamento

Dois logos do Spotify em close-up sobre um fundo escuro. Cada logo é um círculo verde vibrante com três barras horizontais curvas e brancas em seu interior, representando ondas sonoras. Na parte inferior direita, está o logotipo do "Tecnoblog".
Anna’s Archive apresentou extração massiva de dados do Spotify (ilustração: Vitor Pádua/Tecnoblog)
Resumo
  • O Anna’s Archive extraiu 300 TB de dados do Spotify, incluindo metadados de 256 milhões de faixas e áudio de 86 milhões de músicas.
  • O Spotify confirmou a violação de segurança, mas não a escala do vazamento, afirmando que táticas ilícitas foram usadas para contornar o DRM.
  • O site de arquivamento distribui o material via redes peer-to-peer, justificando a ação como preservação de arquivo.

A plataforma de arquivamento digital Anna’s Archive, conhecida por fornecer links para um vasto acervo de livros e artigos acadêmicos, anunciou a liberação de um pacote de dados massivo extraído do Spotify.

Segundo a publicação no blog oficial da organização, foram copiados cerca de 300 terabytes de informações da plataforma de streaming, incluindo metadados detalhados de 256 milhões de faixas e os arquivos de áudio de 86 milhões de músicas.

Os organizadores do projeto denominam a ação como um esforço de “preservação de arquivo” e reconhecem que a raspagem de dados nessa escala viola os termos de serviço e leis de direitos autorais. No entanto, argumentam que a medida é necessária para proteger a história da música digital contra o desaparecimento de plataformas ou fim de contratos de licenciamento.

Em nota enviada ao portal Android Authority, o Spotify declarou que uma investigação interna identificou o uso de “táticas ilícitas” por terceiros para contornar a gestão de direitos digitais (DRM) e acessar o conteúdo. A companhia não confirmou a escala do vazamento alegada pelo grupo.

O que o grupo extraiu?

De acordo com o Anna’s Archive, a operação conseguiu capturar o equivalente a 99,6% de todo o conteúdo efetivamente reproduzido na plataforma até julho de 2025.

  • Metadados: Informações técnicas, créditos, títulos e IDs de 256 milhões de faixas.
  • Áudio: Os arquivos de som de 86 milhões de músicas.
  • Imagens: Capas de álbuns e artes associadas ao conteúdo.
  • Letras: Arquivos de texto sincronizados com as músicas.
Gráfico de barras intitulado "Archived Tracks by Estimated Total Stream Count". O eixo horizontal mostra o "Popularity Score (0-100)" e o eixo vertical o "Total Stream Count" atingindo mais de 250 bilhões. A grande maioria das barras é verde, representando faixas "Archived" (arquivadas), com uma pequena porção de faixas amarelas ("ISRC Copy Archived") e vermelhas ("Not Archived") concentradas no escore de popularidade zero.
Músicas arquivadas representam 37% do acervo do Spotify (imagem: reprodução/Anna’s blog)

O material começou a ser distribuído através de redes peer-to-peer (torrent), organizado por popularidade. Para viabilizar o armazenamento e a distribuição de um volume tão expressivo de dados, os responsáveis pelo projeto aplicaram diferentes níveis de qualidade aos arquivos.

Na divisão, músicas populares foram mantidas no formato original de 160 kb/s (padrão de streaming do Spotify), enquanto faixas com poucas reproduções passaram por um processo de recodificação para reduzir o tamanho final do arquivo.

O que diz o Spotify?

Logotipo do Spotify com notas de dinheiro voando ao redor
Spotify não confirma escopo da raspagem de dados (ilustração: Guilherme Reis/Tecnoblog)

Apesar do grupo afirmar que teve acesso a esse enorme volume de dados, o Spotify menciona que apenas “alguns” arquivos de áudio foram acessados através da brecha de DRM, sem confirmar os números na casa dos milhões apresentados pelos hackers.

A empresa não detalhou se o incidente resultou no comprometimento de dados pessoais de usuários ou quais medidas jurídicas serão tomadas contra os operadores do site.

A extração é a primeira do Anna’s Archive que vai além de textos e documentos. Vale lembrar que o site surgiu após as tentativas das autoridades de derrubar a Z-Library.

Na publicação do grupo, a justificativa é de que, embora hits globais estejam seguros em múltiplos lugares, músicas menos conhecidas correm risco real de desaparecimento se dependerem exclusivamente da custódia de empresas privadas.

300 TB de dados do Spotify são copiados por site de arquivamento

Spotify (ilustração: Vitor Pádua/Tecnoblog)

(imagem: divulgação/Anna's blog)

O Spotify finalmente conseguiu ter um ano completo de lucro (imagem: Guilherme Reis/Tecnoblog)
  •