El CEPD publica una Opinión en la que analiza cuestiones como la anonimización y el interés legítimo para desarrollar y desplegar modelos de IA

No te pierdas nuestros contenidos
SuscribirmeEn el marco del desarrollo y despliegue de modelos de inteligencia artificial (IA), garantizar que el tratamiento de grandes cantidades de datos se realiza de conformidad con la normativa de protección de datos personales genera una gran preocupación tanto para las empresas que desarrollan modelos de IA, como para las que los terminan utilizando en sus sistemas de IA para el desarrollo de su actividad. En este sentido, el pasado 17 de diciembre de 2024, el Comité Europeo de Protección de Datos (CEPD) emitió la Opinión 28/2024, sobre ciertos aspectos de protección de datos relacionados con el tratamiento de datos personales en el contexto de modelos de IA.
Esta opinión se publica tras el documento de julio de 2024 de autoridad federal de protección de datos de Hamburgo (HmbBfDI), en el que se examinaba la aplicación del Reglamento General de Protección de Datos (RGPD) a los large language models (LLM), e indicaba que los LLM no almacenan textos completos ni datos personales en su forma original, sino que, para el entrenamiento de los modelos, los datos y textos se convierten en tokens que posteriormente se transforman en valores numéricos. En consecuencia, concluía que el mero almacenamiento de un LLM no constituye un tratamiento de datos personales en el sentido del artículo 4.2 del RGPD.
La posición del organismo alemán llevó a la autoridad de control irlandesa a solicitar al CEPD que emitiera una opinión sobre las siguientes cuestiones: (i) cuándo y cómo un modelo de IA puede considerarse “anónimo”; (ii) cómo pueden los responsables del tratamiento demostrar la idoneidad del interés legítimo como base jurídica para el tratamiento de datos personales durante las fases de desarrollo y despliegue de los modelos de IA; y (iii) qué consecuencias tiene el tratamiento ilícito de datos personales en la fase de desarrollo de un modelo de IA en relación con el uso subsiguiente del modelo.
¿Cuándo se considera que un modelo de IA es anónimo? ¿Cómo se puede lograr y demostrar la anonimización del modelo?
A diferencia de la premisa en la que se basaba la opinión de la HmbBfDI, el CEPD establece que los modelos de IA entrenados con datos personales no pueden considerarse anónimos en todos los casos, sino que esta es una cuestión que deberá evaluarse caso por caso, en función de criterios específicos, como los medios razonablemente probables que pueda utilizar el responsable del tratamiento u otra persona para identificar a los interesados.
Para que un modelo de IA pueda considerarse anónimo deben cumplirse dos condiciones cumulativas: (i) la probabilidad de que se extraigan directa o indirectamente datos personales de los individuos cuyos datos se utilizaron para entrenar el modelo debe ser insignificante; y (ii) la probabilidad de que cualquier información de salida producida al consultar el modelo se relacione con los sujetos de datos originales debe ser también insignificante.
El CEPD destaca la importancia de la documentación y de las medidas técnicas y organizativas implementadas durante el desarrollo y despliegue del modelo para reducir la probabilidad de identificación.
Asimismo, el CEPD enfatiza la importancia de la documentación exhaustiva, que debe incluir, entre otros aspectos, el registro de actividades del tratamiento (artículo 30 RGPD), las evaluaciones de impacto de protección de datos o bien la decisión que determine que esta no es necesaria (artículo 35 del RGPD). También debe documentarse la aplicación de las medidas técnicas y organizativas (artículo 24 del RGPD), incluyendo el análisis de riesgos en el que se basan las medidas, y documentación sobre la resistencia teórica del modelo a técnicas de reidentificación y los controles diseñados para limitar o evaluar el impacto de los principales ataques.
Respecto a las medidas técnicas y organizativas, el CEPD proporciona un listado ejemplificativo no exhaustivo de medidas que pueden implementarse. En concreto, se refiere a medidas implementadas durante la fase de desarrollo del modelo (como la selección de fuentes de datos, las medidas destinadas a minimizar el tratamiento de datos, la pseudonimización y la aplicación de técnicas como el uso de la privacidad diferencial), medidas de análisis y evaluación del modelo (como auditorías internas o externas) y las medidas de evaluación de resistencia a ataques (incluidas pruebas contra ataques de inferencia, ataques de inversión de modelo y extracción de datos de entrenamiento).
¿Cómo se puede garantizar que el interés legítimo constituye una base jurídica adecuada para el tratamiento?
El CEPD subraya que no existe una jerarquía entre las bases legales establecidas en el artículo 6.1 del RGPD, y que corresponde a los responsables del tratamiento identificar la base jurídica adecuada para sus actividades de tratamiento.
Para que el interés legítimo sea considerado una base jurídica apropiada, deben seguirse tres pasos: (i) la identificación del interés legítimo perseguido por el responsable del tratamiento o un tercero; (ii) el análisis de la necesidad del tratamiento para los fines del interés legítimo perseguido (como parte del “juicio de proporcionalidad”); y (iii) la evaluación de que el interés legítimo no se vea superado por los intereses o los derechos y libertades fundamentales de los interesados (“ponderación del interés legítimo”).
- El CEPD destaca que un interés puede considerarse legítimo si es lícito, claro y real, no especulativo. Por ejemplo, el CEPD presume la posible existencia de un interés legítimo para el desarrollo de un agente conversacional para asistir a los usuarios, la mejora de la detección de amenazas en un sistema de información, o la detección de contenido o comportamiento fraudulentos.
- En cuanto al análisis de la necesidad, se debe considerar si la actividad de tratamiento permitirá la consecución del interés legítimo y si no existe una manera menos intrusiva de perseguir dicho interés.
- Respecto a la ponderación del interés legítimo, este debe tener en cuenta las circunstancias específicas de cada caso, evaluar los riesgos para los derechos fundamentales de los interesados (por ejemplo, los riesgos para el derecho a la intimidad personal y familiar, la libertad de expresión, o los riesgos de discriminación) y considerar las expectativas razonables de estos en relación con el tratamiento de sus datos personales. En relación con las expectativas de los interesados, el CEPD subraya que el mero cumplimiento de las obligaciones de transparencia del RGPD no implica necesariamente que los interesados puedan razonablemente esperar que el tratamiento tenga lugar. Asimismo, en el caso de que en que los intereses, derechos y libertades de los interesados prevalezcan sobre el interés legítimo del responsable o de un tercero, el CEPD prevé una serie de medidas de mitigación, como la pseudonimización o el establecimiento de un mecanismo de opt-out.
¿Cuáles son las consecuencias del tratamiento ilícito de datos personales en la fase de desarrollo de un modelo de IA en base al interés legítimo?
Conforme establece el CEPD, las autoridades de control deben realizar un análisis caso por caso para determinar el impacto que tiene la ilicitud del tratamiento inicial (durante la fase de desarrollo del modelo de IA) en el tratamiento posterior (durante el despliegue del modelo de IA). En función de este análisis, estas podrán tomar medidas correctivas como la eliminación de datos personales tratados ilícitamente o la limitación temporal del tratamiento.
No obstante, si el modelo se anonimiza adecuadamente antes del despliegue, el RGPD no sería aplicable en esta fase posterior si no se tratan nuevos datos. Sin embargo, si en la fase de despliegue se recopilan nuevos datos, el RGPD sí que resultaría aplicable a estas actividades de tratamiento, pero la posibilidad de llevar a cabo el tratamiento de conformidad con la normativa de protección de datos durante el despliegue no se vería afectada por la ilicitud del tratamiento en el desarrollo del modelo gracias a la anonimización del mismo.
No te pierdas nuestros contenidos
Suscribirme