Meta é acusada de usar dados pirateados em corrida contra OpenAI

Um processo de direitos autorais contra a Meta revelou detalhes internos sobre o desenvolvimento dos modelos de inteligência artificial (IA) de código aberto da empresa, conhecidos como Llama. Documentos judiciais, recentemente divulgados na Califórnia, mostram discussões internas que levantam preocupações sobre o uso de dados possivelmente protegidos por direitos autorais, incluindo esforços para evitar que o uso de conteúdo “pirata” viesse à tona.

As comunicações internas destacam a competição acirrada entre a Meta e rivais como OpenAI e Mistral no desenvolvimento de IA. Em um e-mail de outubro de 2023, Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, afirmou que o objetivo da empresa era competir diretamente com o GPT-4 da OpenAI.

Al-Dahle enfatizou a necessidade de “aprender a construir fronteiras e vencer esta corrida”. Entre os dados utilizados para treinar os modelos, surgiu a menção ao controverso site de pirataria Library Genesis (LibGen).

Discussões sobre o uso de LibGen

Um e-mail de Sony Theakanath, diretor de produto da Meta, enviado a Joelle Pineau, vice-presidente de pesquisa em IA, detalha opções para o uso do LibGen. Entre elas, estavam utilizar o site internamente, incluir benchmarks em postagens de blog ou até mesmo treinar um modelo baseado em seu conteúdo. O e-mail revela que o uso do LibGen foi escalado até Mark Zuckerberg e aprovado para o Llama 3, desde que “mitigações acordadas” fossem aplicadas.

Entre essas medidas, estava a remoção de dados marcados como “pirateados” e evitar referências externas ao uso do LibGen nos treinamentos. Internamente, foi mencionado que rivais como OpenAI e Mistral já utilizavam dados do site, embora nenhuma dessas empresas tenha confirmado publicamente essa prática.

libgen
LibGen pode ter sido usado para treinar modelos de IA da Meta (Imagem: Sharaf Maksumov / Shutterstock.com)

Riscos e estratégias para ocultar evidências

Além de preocupações legais, documentos internos mostram que a Meta também tomou medidas para ocultar informações sobre os dados utilizados. Sugestões incluíam remover cabeçalhos de direitos autorais, metadados e listas de autores de documentos para reduzir possíveis responsabilidades jurídicas.

A Meta também enfrentou críticas ao buscar formas alternativas de obter dados para seus modelos. Em 2023, relatórios indicaram que a empresa considerou a compra da editora Simon & Schuster e até a contratação de trabalhadores na África para resumirem livros sem permissão.

Leia mais:

  • Meta: o que são as notas de comunidade? Veja diferença para o sistema de checagem de fatos
  • Meta AI: como mudar a voz na IA do WhatsApp
  • Quer conversar com uma IA no WhatsApp? Veja alternativas à Meta AI

Escassez de dados e impacto na competição

O setor de IA enfrenta um problema crescente: a escassez de novos dados. Líderes como o CEO da OpenAI, Sam Altman, negam a existência de um “muro de dados”, enquanto outros, como Ilya Sutskever, cofundador da OpenAI, admitiram que o setor atingiu o “pico de dados”. Essa limitação tem levado empresas a buscar fontes alternativas, como pagar criadores de conteúdo digital por materiais não utilizados.

Sam Altman, CEO da OpenAI, nega a existência de um muro de dados (Imagem: QubixStudio / Shutterstock.com)

A disputa acirrada entre gigantes da tecnologia para avançar em IA está gerando controvérsias e processos legais que podem moldar o futuro do setor. As evidências apresentadas no caso contra a Meta podem fortalecer as alegações de violação de direitos autorais, enquanto a indústria busca equilibrar inovação e conformidade legal.

O post Meta é acusada de usar dados pirateados em corrida contra OpenAI apareceu primeiro em Olhar Digital.

Adicionar aos favoritos o Link permanente.