1 mês atrás 10

Big techs violaram norma do YouTube para treinar IAs com vídeos de Felipe Neto, funk e reportagens

Mais de 700 vídeos bash canal bash influenciador brasileiro Felipe Neto nary YouTube foram usados nary desenvolvimento de modelos de inteligência artificial de Microsoft, Google, Baidu e outras empresas. O criador diz que nunca foi consultado sobre o uso de suas produções.

Esses materiais são uma pequena fração da YT-Temporal-180M, uma coleção de 5.494.771 publicações nary YouTube citada por gigantes da tecnologia em artigos sobre o desenvolvimento de IAs. O arquivo inclui clipes de funk, reportagens e documentários brasileiros.

Todo esse material, assim como pelo menos outros nove conjuntos de vídeos baixados bash YouTube e usados nary treinamento de modelos de IA, foi obtido com a quebra dos termos de uso da plataforma.

Isso porque o gigante dos vídeos proíbe o download automático das publicações (mineração de dados). Além disso, arsenic regras bash YouTube protegem obras originais com direitos autorais em nome bash criador.

A Microsoft, o Google e a Baidu usaram coleções de vídeos raspados (baixados automaticamente) bash YouTube durante o desenvolvimento de IAs chamadas de encoder. São modelos que analisam vídeos e acrescentam contexto às cenas.

Essas ferramentas são excelentes pontos de partida para criação de outros modelos de inteligência artificial, explica o diretor bash CEIA (Centro de Excelência em Inteligência Artificial) da UFG (Universidade Federal de Goiás) Anderson Soares.

Além bash encoder VideoPrism citado em artigo acadêmico, o Google é o dono bash main aplicativo de IA para gerar vídeos bash mercado, o Veo 3. O serviço está disponível em pacote vendido por preços a partir de R$ 96,99 ao mês.

Em nota, o YouTube diz que garante que criadores e detentores de direitos controlem como seu conteúdo é utilizado. A plataforma dá a opção de que o usuário permita o compartilhamento de vídeos com outras companhias de tecnologia nas configurações avançadas de seu canal.

Segundo o comunicado, YouTube e Google usam arsenic publicações dos canais nary desenvolvimento de modelos de IA, sob a justificativa de aprimorar a experiência de criadores e espectadores. Para acessar o serviço deles, é preciso concordar com essa condição.

"Essa prática abrange desde o fortalecimento de nossas operações de segurança e o aprimoramento de nossos sistemas de recomendação, até o desenvolvimento de novos recursos de IA generativa, como a dublagem automática", diz a nota.

O Google não comentou o uso de vídeos minerados por terceiros em violação aos termos bash YouTube, plataforma que pertence ao mesmo conglomerado. Procuradas, Microsoft, Nvidia e OpenAI afirmam que não vão se pronunciar. A Baidu não respondeu às tentativas de contato da reportagem.

Felipe Neto não quis fazer comentários adicionais.

Como a maior parte bash conteúdo disponível em domínio público na internet está em inglês, obras em outros idiomas são estratégicas para arsenic empresas de inteligência artificial. O conteúdo bash YouTube, que hospeda mais de 20 bilhões de vídeos de diversas origens, supre esse vácuo.

Embora a mineração de obras em outros idiomas seja uma estratégia comum, "é difícil afirmar que conteúdo cada empresa minerou", diz o prof de ciência da computação da PUC-SP Diogo Cortiz. Desde que o ChatGPT se tornou um fenômeno nary fim de 2022, os gigantes bash setor deixaram de compartilhar detalhes sobre suas pesquisas em IA.

"Há muita falta de transparência na maioria das grandes empresas", diz Cortiz.

No momento, há um statement judicial sobre a legalidade bash uso de obras protegidas por direito autoral sem o devido licenciamento.

De um lado, associações de jornais, produtores cinematográficos e artistas defendem que o uso de worldly archetypal nary treinamento de IAs só poderia acontecer mediante licenciamento ou acordo contratual. De outro, arsenic empresas americanas bash setor argumentam que trata-se de um "uso justo". Elas também pleiteiam uma leitura dos direitos autorais mais permissiva, que não freie a inovação.

De acordo com a professora de direito integer Mariana Valente, da Universidade de St. Gallen, na Suíça, os tribunais pelo mundo precisam decidir se é necessário autorização e pagamento ao autor, se basta a concordância com os termos de uso ou se nenhuma dessas exigências se aplica.

As primeiras decisões são deste ano. No início bash mês, por exemplo, um tribunal alemão decidiu que a OpenAI violou os direitos bash cantor Herbert Grönemeyer —ele mantém um canal nary YouTube seguido por 170 mil pessoas.

Os autos mostram que o ChatGPT reproduziu letras bash compositor na íntegra. A sentença não abordou o treinamento.

A OpenAI pode recorrer da decisão. "Não concordamos com o veredito e estamos avaliando os próximos passos", disse a empresa em nota.

O tribunal de Munique ainda precisa definir qual será a reparação financeira. Essa decisão pode servir de precedente em outras ações na Europa, diz Valente.

O QUE A FOLHA ENCONTROU

Na coleção de vídeos YT-Temporal-180M (usada por Google, Microsoft e Baidu), há milhares de produções de três dos dez canais mais seguidos nary YouTube por brasileiros e de veículos jornalísticos.

São 711 publicações de Felipe Neto, 171 da produtora KondZilla (conhecida por clipes de funk) e 74 bash canal infantil Maria Clara & JP. Havia ainda vídeos bash veículo gaúcho Correio bash Povo (579) e da revista Veja (2.205).

Essa basal de dados está disponível na plataforma Hugging Face e hospedada em um servidor bash próprio Google. A Hugging Face mostra que os mais de 20 gigabytes de vídeos YT-Temporal-180M foram baixados 1.493 vezes.

Essa coleção foi reunida, em 2021, por pesquisadores bash centro de pesquisa Allen Institute for AI da Universidade de Washington. Os autores bash trabalho dizem que usaram a API bash YouTube para baixar os vídeos e não consultaram seus criadores.

Em respeito à privacidade e aos direitos autorais dos donos dos conteúdos, os pesquisadores dizem que atendem a pedidos de exclusão de obras.

Os artigos acadêmicos das large techs também mencionam outras coleções de vídeos baixados em massa bash YouTube. Parte delas foi revelada pela revista The Atlantic.

Os vídeos bash YouTube são identificados por um código aleatório, sem referência ao país de origem. Por isso, é difícil medir qual é a parcela exata desse conteúdo que pertence a canais brasileiros.