Mineração de dados e textos: barreiras autoralistas e desafios legislativos

Atualmente, a posse e o controle de grandes volumes de dados, acoplados a ferramentas avançadas de coleta e análise de dados e textos, passaram a ocupar posição de destaque no desenvolvimento científico e tecnológico. Com efeito, tais tecnologias são hoje usadas para os mais diversos fins, dentre os quais se destacam: o treinamento e operação de sistemas de inteligência artificial; gestão baseada em dados — tanto em governos como em empresas —; desenvolvimento e aprimoramento de bens e serviços e avanços na realização de pesquisas científicas, que ganham em rapidez e detalhamento.

Neste contexto, é fundamental observar as dificuldades no acesso e uso de dados decorrentes da atual estrutura de proteção autoralista para bancos de dados e outras obras protegidas e como os países têm se movimentado para minimizá-las.

Para compreensão do cenário de barreiras legais ao uso de dados, cabe recordar que o direito autoral foi estendido, na década de 1990, para cobrir bancos de dados e seu conteúdo — desde que atendida a condição de que a compilação apresente criatividade em função da seleção ou da disposição dos materiais —, desde o Acordo TRIPS (em inglês: Agreement on Trade-Related Aspects of Intellectual Property Rights; em português: Acordo sobre Aspectos dos Direitos de Propriedade Intelectual Relacionados ao Comércio), assinado pelo Brasil em 1994. Tal extensão, em adição a outros mecanismos legais e extralegais, compõe uma estrutura regulatória extremamente complexa e composta por várias camadas[1] que privilegia a proteção do investimento em detrimento dos direitos morais e das limitações e exceções, conforme nos ensina José de Oliveira Ascensão, em “O Direito Intelectual em Metamorfose”.

A primeira dessas camadas é a do próprio direito de autor: no Brasil, a Lei 9.610/98 garante não somente a proteção à estrutura do banco de dados em seu artigo 7º, inciso VIII, como seu artigo 87 também prevê o direito exclusivo do titular de direitos patrimoniais sobre a base de permitir ou proibir as reproduções totais ou parciais, traduções, adaptações e reordenações, entre outras utilizações. A adição de obras protegidas a bases de dados também é incluída como ato que necessita da anuência prévia e expressa do autor, por força do artigo 29, inciso IX do mesmo documento legal. Vale observar, aí, a escolha restritiva de palavras – condicionando várias utilizações da base, inclusive a própria adição de outras obras, à autorização.

Lembramos que, embora Lawrence Lessig (2004), em seu livro “Cultura Livre”, já apontasse a dificuldade que existe em localizar e negociar com detentores de direitos, este problema se exacerba à enésima potência quando consideramos que, atualmente, processos corriqueiros de coleta e análise lidam com quantidades astronômicas de dados – e, potencialmente, de detentores de direitos. Obter autorização do titular de direitos não só da base de dados, como de cada obra protegida ali contida, pode se mostrar uma tarefa hercúlea – se não inviável.

Além disso, um segundo nível de proteção[2] corresponde aos mecanismos de Digital Rights Management (DRM) e às medidas tecnológicas de proteção (technological protection measures, ou TPM) corriqueiramente usados para controlar e restringir o acesso e uso de obras por meios técnicos, independentemente da existência de respaldo legal para essa restrição.

E, ainda, diante da possibilidade técnica de contornar esses dispositivos, ergue-se uma terceira camada de proteção: as medidas antiburla (do inglês anti-circumvention measures), dispositivos inseridos nas leis de direitos autorais que vedam a alteração, supressão, modificação ou inutilização desses mecanismos tecnológicos de proteção às obras protegidas. Tais dispositivos são acompanhados de medidas sancionatórias e penalidades intimidatórias.

É nesse cenário de regimes institucionais que dão suporte e protegem o controle da apropriação e uso de dados que as técnicas de mineração de dados e textos (em inglês, text and data mining, ou TDM) emergem como parte crucial do desenvolvimento, treinamento e aprimoramento de sistemas de inteligência artificial (IA) e em processos de aprendizado de máquina. As técnicas são fundamentais tanto para aplicações comerciais com evidentes finalidades econômicas ou de avanço científico, quanto para finalidades relacionadas a direitos humanos e, mais amplamente, ao interesse público. E, ainda assim, a valorização e importância crescentes dessas atividades se encontram na contramão do desenvolvimento recente da proteção aos bancos de dados resumida acima.

Os processos de coleta e análise de dados lidam com a cópia, extração e modificação do conteúdo existente em bases de dados alheias, implicando em diversos atos que dependem, em tese, de autorização prévia dos titulares para serem conduzidos. Assim, no caso de os dados envolverem conteúdo protegido (como livros, fotografias etc.), há potencial violação de direitos de reprodução, especialmente se for copiada uma parte substancial do acervo – o que é bastante comum, dado que muitos processos de mineração de dados habitualmente visam obter o máximo de informação relevante possível.

Por outro lado, caso estejamos lidando com um banco de dados original, tanto a extração do material relevante como o descarte de conteúdo irrelevante para a análise também podem constituir uma violação de direito autoral em relação à própria compilação, já que podem replicar ou alterar a seleção ou arranjo do banco de dados de onde se extraiu o material, implicando em violação tanto do direito de reproduzir como de adaptar a obra.

Finalmente, a própria divulgação dos resultados da análise pode violar direitos de comunicação ao público, caso necessite utilizar elementos da obra original na apresentação. Notamos, ainda, que a observação acima não exclui a possibilidade de enquadramento das condutas de TDM em violações de outros direitos — como exemplo, lembramos que o artigo 29 da LDA, para além da cláusula aberta em seu inciso X (referente a quaisquer outros tipos de utilização existentes ou que venham a ser criados), também garante, no inciso anterior, a exclusividade do titular de uma obra especificamente para a inclusão da mesma em uma base de dados.

Explicitados os desafios para que o regime de direitos autorais não seja uma barreira ao uso e expansão de TDM como parte de um processo de inovação, pesquisa e desenvolvimento, há movimentos em maior e menor para adequação legislativa, ou interpretação pelo Judiciário.

Os Estados Unidos foram um dos primeiros países a reconhecer, na sua jurisprudência, a licitude de práticas de reprodução e uso de obras protegidas para fins de mineração de dados e textos. As técnicas de TDM, especialmente para fins de pesquisa, são consideradas fair use no direito norte-americano, independentemente do propósito final da atividade — como pode ser visto no trabalho de Michael Carroll (2020).

Já em termos legais, o Japão foi o primeiro país a incluir uma limitação de direito autoral para mineração de dados de forma explícita. Em 2009, o Copyright Act japonês passou a permitir, em seu artigo 47-7, a gravação ou adaptação de uma obra em processos de análise de dados, independentemente da finalidade, desde que (novamente) o titular de direitos não tivesse reservado para si esse direito.

Contudo, em sua Estratégia de Propriedade Intelectual de 2017, o governo japonês destacou a persistência de diversos problemas em relação ao estado do regime de copyright no país até aquele momento, como a impossibilidade de se obter o consentimento de todos os titulares de direitos quando se lida com uma grande quantidade de conteúdo protegido em meio aos dados coletados. Assim, manifestou-se a necessidade de um sistema de limitações que trouxesse um maior equilíbrio entre clareza regulatória e flexibilidade.

O resultado foi uma reformulação da lei autoral japonesa em 2018, que incluiu diversas limitações concernentes à mineração de dados: seu Artigo 30-4 atualmente permite qualquer exploração não expressiva de uma obra, “de qualquer maneira e na medida considerada necessária”, incluindo processos de análise de dados (e excluindo o uso de programas de computador que constituam obras protegidas).

Na União Europeia, a recém-aprovada Diretiva de Direito de Autor, de 2019, previu duas exceções para a atividade de mineração de textos e dados. No artigo 3º, é prevista uma exceção mandatória, isto é, que deve ser adotada por todos os países, permitindo que instituições de pesquisa e instituições de memória minerem texto e dados em obra que tenham adquirido licitamente, exclusivamente para a finalidade de pesquisa científica. Já o artigo 4º estabelece uma exceção, também mandatória, para a realização de reproduções temporárias durante um processo de TDM, desde que esse uso não tenha sido expressamente proibido pelo titular de direitos — incluindo por meios técnicos, isto é, técnicas anticircunvenção.

Na América Latina, há somente um país que conta com uma limitação específica, no direito autoral, para atividades de mineração de dados: o Equador (CHARQUERO, 2021). No que diz respeito à TDM, entretanto, a regra (artigo 212 num. 9 viii) é bastante restrita: somente protege bibliotecas e arquivos pela atividade de mineração de textos empreendida pelos seus usuários, quando estiverem de boa-fé. A redação desse artigo dá a entender, entretanto, que a atividade de mineração de textos pode ser compreendida como um uso justo, dentro da definição da lei.

A Argentina, o Uruguai e o Brasil estão entre os países com menos limitações e exceções, e não preveem, por exemplo, engenharia reversa ou reproduções temporárias — como ocorre no Chile e Colômbia, o que significa a permissão de mineração de dados em alguns casos.

No Brasil, a Lei de Direitos Autorais não menciona a atividade de pesquisa, e, no que diz respeito a fins educacionais, prevê apenas a comunicação de obras com fins educativos para obras teatrais e musicais usadas para fins didáticos nos estabelecimentos de ensino (Lei 9.610, artigo 46, VI). A Estratégia Brasileira de Inteligência Artificial, de 2021, foi o primeiro documento oficial no Brasil a reconhecer que, uma vez que dados de treinamento de IA precisam ser copiados e editados, uma limitação ajudaria a trazer mais clareza e segurança para o uso desses dados e precisa ser discutida.

Felizmente, é possível que o Brasil dê um passo relevante quanto à permissão de TDM, ao menos quando o intuito é o treinamento de inteligências artificiais. A Câmara dos Deputados aprovou no final de setembro o relatório substitutivo da deputada Luisa Canziani (PTB-PR) para o PL 21/2020 – de autoria do deputado Eduardo Bismarck (PDT-CE). No texto, a disponibilidade de dados consta como princípio para o desenvolvimento e a aplicação da Inteligência Artificial no Brasil.

O projeto, que ainda carece de análise pelo Senado Federal, estabelece “não violação do direito de autor pelo uso de dados, de banco de dados e de textos por ele protegidos, para fins de treinamento de sistemas de inteligência artificial, desde que não seja impactada a exploração normal da obra por seu titular”. Cabe saber se o projeto terá análise célere, se a Casa Legislativa revisora compreenderá a importância desse dispositivo e se o aprovará – considerando que processos de mineração de dados, geralmente, não interferem na exploração econômica normal de um trabalho protegido por direitos autorais.

[1] DERCLAYE, E. The Legal Protection of Databases: A Comparative Analysis. Edward Elgar, 2008.

[2] Estelle Derclaye (2008) já apontava que a legislação de direito autoral é apenas a primeira de múltiplas camadas que compõem um sistema maior de proteções.

D	S	T	Q	Q	S	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Mineração de dados e textos: barreiras autoralistas e desafios legislativos

Localização

Desenvolvido por Aprimora Web

Mineração de dados e textos: barreiras autoralistas e desafios legislativos

Você também pode gostar

STJ: plano deve reembolsar despesa estrita a procedimento feito fora da rede credenciada

Queda nos índices de rejeição a Bolsonaro é alavancada pelo Auxílio Brasil

Uber faz acordo no TST com motorista que demandava vínculo de emprego

Localização

Desenvolvido por Aprimora Web