Logo
Tudo que você precisa saber sobre as eleições em um só lugar

Reddit processa empresas por ‘raspagem ilegal de dados’ usados por OpenAI e Meta; entenda

23/10/2025 08:32 O Globo - Rio/Política RJ

Oito anos atrás, a SerpApi, uma startup de Austin, no Texas, mergulhou no complexo universo do uso de robôs para “raspar” os algoritmos de busca do Google — técnica usada para coletar dados que ajudassem clientes a aparecerem em posições mais altas nos resultados de pesquisa.
Abóboras à deriva? Competição nos EUA reúne barcos feitos de vegetais gigantes; vídeo
Chocolate, mikan e glacê: 282 pessoas decoram casas de gengibre ao mesmo tempo no Japão e batem recorde mundial; vídeo
Então surgiu o ChatGPT, da OpenAI, e teve início uma revolução na inteligência artificial. À medida que mais empresas de tecnologia passaram a desenvolver chatbots de IA, cresceu a necessidade de grandes volumes de dados para treinar esses modelos — e a SerpApi já dispunha de uma vasta base de informações.
De forma quase repentina, surgiu um novo mercado: o de empresas especializadas em “raspagem de dados” que começaram a vender informações extraídas do Google para companhias interessadas em treinar seus sistemas de IA.
Reddit entra com ação judicial contra startups
Na quarta-feira, o fórum online Reddit decidiu reagir contra os raspadores de dados. A empresa entrou com uma ação judicial no Tribunal Distrital dos EUA, no Distrito Sul de Nova York, alegando que quatro companhias haviam roubado ilegalmente seus dados ao raspar resultados de busca do Google que exibiam conteúdo do Reddit.
Três dessas empresas — a americana SerpApi, a lituana Oxylabs e a russa AWMProxy — teriam vendido informações para companhias de IA como a OpenAI e a Meta, segundo o processo. A quarta, a Perplexity, é uma startup de São Francisco que desenvolve um buscador com tecnologia de inteligência artificial.
O Reddit pede uma liminar permanente contra as empresas, indenização por danos financeiros e a proibição do uso ou comercialização de quaisquer dados previamente coletados da plataforma.
“As empresas de IA estão presas em uma corrida armamentista por conteúdo humano de qualidade — e essa pressão alimentou uma economia de ‘lavagem de dados’ em escala industrial”, afirmou Ben Lee, diretor jurídico do Reddit. “Os scrapers burlam as proteções tecnológicas para roubar dados e revendê-los a clientes ávidos por material de treinamento.”
A SerpApi afirmou, em nota, que não recebeu notificação formal do processo, discordava das acusações e “se defenderá vigorosamente em tribunal”. A Perplexity declarou que também não foi informada da ação, mas que sua “abordagem continua baseada em princípios e responsabilidade, oferecendo respostas factuais com IA de forma precisa e transparente”.
Denas Grybauskas, responsável por governança e estratégia na Oxylabs, disse que a empresa ainda não havia sido notificada, mas reforçou que “nenhuma companhia deve reivindicar propriedade sobre dados públicos que não lhe pertencem”. A AWMProxy não respondeu a pedidos de comentário enviados por e-mail.
Da simbiose ao conflito na coleta de dados
A raspagem de dados é uma prática antiga — e controversa. Nos primórdios da internet, o próprio Google construiu um império ao usar robôs para varrer páginas da web e organizá-las, criando um mecanismo de busca capaz de ajudar usuários a encontrar informações com rapidez. Com o tempo, empresas passaram a raspar o próprio Google, vendendo suas descobertas a outras que buscavam melhorar sua visibilidade nos resultados de pesquisa.
A relação entre quem raspava e quem era raspado era vista como simbiótica: a prática ajudava a direcionar tráfego aos sites dos editores, e os dados obtidos permitiam que eles aprimorassem o conteúdo para melhorar seu ranqueamento no Google.
“Esse era o ecossistema original da web”, disse Doug Leeds, cofundador da Really Simple Licensing, organização sem fins lucrativos que ajuda editores e criadores a obter compensação quando seus conteúdos são usados por IA. “Não era necessariamente um problema, porque havia uma forma de monetização para todos os envolvidos.”
Hoje, porém, especialistas veem a relação como parasitária. Empresas de IA passaram a usar seus próprios bots para coletar o máximo de informações possível, sem pagar por elas. Em resposta, companhias como o Reddit começaram a bloquear o acesso de rastreadores automatizados para evitar que seus dados sejam usados livremente.
Grandes editoras, como a Simon & Schuster, e veículos de imprensa, como o New York Times — que processou a OpenAI e a Microsoft por violação de direitos autorais — fecharam acordos milionários de licenciamento de dados.
O Reddit, que reúne mais de 416 milhões de usuários por semana, considera seu conteúdo particularmente valioso. As discussões na plataforma abrangem desde marcas de maquiagem e raças de cães até jogos de RPG e dicas de viagem, o que pode ser útil para empresas de IA que buscam aprimorar a compreensão da linguagem natural.
Uma batalha global por dados humanos
Em 2023, o Reddit anunciou que passaria a cobrar pelo acesso de terceiros aos seus dados e firmou acordos com o Google — que usa informações da rede para treinar o chatbot Gemin

Fonte original: abrir