
Fique a par das novidades
SubscreverNo âmbito do desenvolvimento e da implementação de modelos de inteligência artificial (IA), garantir que o tratamento de elevadas quantidades de dados é realizado em conformidade com os regulamentos de proteção de dados pessoais é uma grande preocupação tanto para as empresas que desenvolvem os modelos de IA, como para as que utilizam os seus sistemas de IA para o desenvolvimento da sua atividade. A este respeito, o Comité Europeu para a Proteção de Dados (CEPD) emitiu o Parecer 28/2024 sobre determinados aspetos da proteção de dados relacionados com o tratamento de dados pessoais no contexto de modelos de IA.
Este Parecer, publicado em dezembro, surge após o documento de julho de 2024 do Comissariado de Proteção de Dados e Liberdade de Informação de Hamburgo (HmbBfDI), no qual se examinava a aplicação do Regulamento Geral sobre a Proteção de dados (RGPD) aos large language models (LLM). O documento indica que os LLM não armazenam textos completos, nem dados pessoais na sua forma original, mas que, para o treino dos modelos, os dados e textos são convertidos em tokens que posteriormente se transformam em valores numéricos. Por conseguinte, conclui que o simples armazenamento de um LLM não consiste num tratamento de dados pessoais na aceção do n.º 2 do artigo 4.º do RGPD.
A posição do organismo alemão levou a autoridade de controlo irlandesa a solicitar ao CEPD que emitisse um parecer sobre as seguintes questões: (i) quando e como é que um modelo de IA pode ser considerado “anónimo”; (ii) como podem os responsáveis pelo tratamento demonstrar a adequação do interesse legitimo como base de licitude para o tratamento de dados pessoais durante as fases de desenvolvimento e implementação dos modelos de IA; e (iii) quais as consequências do tratamento ilícito de dados pessoais na fase de desenvolvimento de um modelo de IA relativamente à utilização subsequente do modelo.
Quando é que se considera que um modelo de IA é anónimo? Como se pode alcançar e demonstrar a anonimização do modelo?
Ao contrário da premissa em que se baseava o parecer do HmbBfDI, o CEPD estabelece que os modelos de IA treinados com dados pessoais não podem ser considerados anónimos em todos os casos, mas que esta é uma questão que deverá ser avaliada caso a caso, em função de critérios específicos, como os meios razoavelmente prováveis que o responsável pelo tratamento ou outra pessoa possa utilizar para identificar os titulares dos dados.
Para que um modelo de IA possa ser considerado anónimo, devem cumprir-se duas condições cumulativas: (i) a probabilidade de que se extraiam, direta ou indiretamente, dados pessoais dos indivíduos cujos dados foram utilizados para treinar o modelo, deve ser insignificante e (ii) a probabilidade de que qualquer informação de saída produzida ao consultar o modelo, se relacione com os titulares dos dados originais deve ser, também, insignificante.
O CEPD destaca a importância da documentação e das medidas técnicas e organizativas implementadas durante o desenvolvimento e a implementação do modelo para reduzir a probabilidade de identificação.
Além disso, o CEPD enfatiza a importância da documentação exaustiva, que deve incluir, entre outros aspetos, o registo das atividades de tratamento (art. 30.º do RGPD), as avaliações de impacto sobre a proteção de dados ou decisão que determine que estas não são necessárias (art. 35.º do RGPD). Também deve ser documentada a aplicação das medidas técnicas e organizativas (art. 24.º do RGPD), incluindo a análise de riscos em que se baseiam as medidas, e a documentação sobre a resistência teórica do modelo a técnicas de reidentificação e os controlos concebidos para limitar ou avaliar o impacto dos principais ataques.
No que respeita às medidas técnicas e organizativas, o CEPD fornece uma lista não exaustiva de medidas que podem ser implementadas. Em concreto, refere-se a medidas implementadas durante a fase de desenvolvimento do modelo (como a seleção de fontes de dados, as medidas destinadas a minimizar o tratamento de dados, a pseudonimização e a aplicação de técnicas como o uso da privacidade diferencial), medidas de análise e avaliação do modelo (como auditorias internas ou externas) e as medidas de avaliação da resistência a ataques (incluindo testes contra ataques de inferência, ataques de inversão do modelo e extração de dados de treino).
Como garantir que o interesse legítimo constitui uma base de licitude adequada para o tratamento?
O CEPD reforça que não existe uma hierarquia entre as bases de licitude estabelecidas no n.º 1 do art. 6.º do RGPD e que cabe aos responsáveis pelo tratamento identificar a base de licitude adequada às suas atividades de tratamento.
Para que o interesse legítimo seja considerado uma base de licitude adequada, devem seguir-se três passos: (i) a identificação do interesse legítimo prosseguido pelo responsável pelo tratamento ou por um terceiro; (ii) a análise da necessidade do tratamento para os fins prosseguidos pelo interesse legítimo (como parte do “juízo de proporcionalidade”) e (iii) a avaliação de que o interesse legítimo não é superado pelos interesses ou pelos direitos e liberdades fundamentais dos titulares dos dados (“ponderação do interesse legítimo”).
- O CEPD destaca que um interesse pode considerar-se legítimo se for lícito, claro, real e não especulativo. Por exemplo, o CEPD presume a possível existência de um interesse legítimo para o desenvolvimento de um agente conversacional para ajudar os utilizadores, a melhoria da deteção de ameaças num sistema de informação ou a deteção de conteúdos ou comportamentos fraudulentos.
- No que diz respeito à análise da necessidade, deve ter-se em consideração se a atividade de tratamento permitirá a prossecução do interesse legítimo e se não existe uma maneira menos instrutiva de prosseguir esse interesse.
- Relativamente à ponderação do interesse legítimo, este deve ter em conta as circunstâncias específicas de cada caso, avaliar os riscos para os direitos fundamentais dos titulares dos dados (por exemplo, os riscos para o direito à reserva da intimidade pessoal e familiar, a liberdade de expressão ou os riscos de discriminação) e considerar as expectativas razoáveis destes em relação ao tratamento dos seus dados pessoais. Em relação às expectativas dos titulares dos dados, o CEPD realça que o mero cumprimento das obrigações de transparência do RGPD não implica necessariamente que os titulares dos dados possam esperar que o tratamento tenha lugar. Adicionalmente, no caso de os interesses, direitos e liberdades dos titulares dos dados prevalecerem sobre o interesse legítimo do responsável ou de terceiro, o CEPD prevê uma série de medidas de mitigação, como a pseudonimização ou a implementação de um mecanismo de opt-out.
Quais são as consequências do tratamento ilícito de dados pessoais na fase de desenvolvimento de um modelo de IA com base no interesse legítimo?
De acordo com o CEPD, as autoridades de controlo devem realizar uma análise caso a caso para determinar o impacto que a ilicitude do tratamento inicial (durante a fase de desenvolvimento do modelo de IA) tem no tratamento subsequente (durante a implementação do modelo de IA). Com base nesta análise, estas poderão tomar medidas corretivas como a eliminação de dados pessoais tratados ilicitamente ou a limitação temporária do tratamento.
No entanto, se o modelo for anonimizado adequadamente antes da implementação, o RGPD não será aplicável se não se tratarem novos dados. Contudo, se na fase de implementação forem recolhidos novos dados, o RGPD será aplicável a estas atividades de tratamento, mas a possibilidade de realizar o tratamento em conformidade com a legislação em matéria de proteção de dados durante a implementação não será afetada pela ilicitude do tratamento efetuado na fase de desenvolvimento do modelo, em virtude da anonimização do mesmo.
Fique a par das novidades
Subscrever