La voz de Anny Ondra y los doblajes mediante sistemas de IA

2024-01-17T17:10:00
España
Los doblajes generados mediante IA plantean retos en el ámbito de la propiedad intelectual y del derecho a la propia imagen
La voz de Anny Ondra y los doblajes mediante sistemas de IA
17 de enero de 2024

Introducción

Anny Ondra, una de las estrellas del cine mudo de los años 20, protagonizó en 1929 Blackmail, la primera película británica sonora, dirigida por Alfred Hitchcock. 

Lo que no es muy conocido es que Anny no se apellidaba Ondra, sino Ondráková, y había nacido en Tarnów, una ciudad en territorio del imperio austrohúngaro, hoy perteneciente a Polonia. Pese a que Anny tenía un gran talento interpretativo, que le llevó al estrellato del cine mudo, su fuerte acento al hablar inglés provocó que no fuera su voz la que sonara en Blackmail, sino la de la actriz Joan Barry, nacida en pleno centro de Londres. De este modo, Blackmail fue, además de la primera película británica sonora, la primera película doblada en la historia del cine británico.

Prácticamente cien años más tarde, los doblajes nos siguen cautivando y prueba de ello son los doblajes generados mediante herramientas de inteligencia artificial (“IA”), los cuales suscitan diversos retos jurídicos, tanto desde la perspectiva de los derechos de propiedad intelectual, como desde la perspectiva del derecho a la propia imagen.

A diferencia de Joan Barry, hoy las herramientas de inteligencia artificial no solo son capaces de doblar a otro idioma las palabras del personaje original, sino también de imitar su voz y modificar el movimiento de sus labios al hablar para que se ajuste a la dicción del idioma de doblaje. Algunas herramientas incluso incorporan el acento de la lengua materna del personaje en el doblaje, algo para lo que, irónicamente, Anny no habría necesitado ser doblada.

Para lograr todo eso dichos sistemas necesitan una fase previa de entrenamiento mediante el suministro de datos (inputs) a partir de los cuales la herramienta “aprende” y es capaz de sintetizar una voz con un timbre prácticamente indistinguible del auténtico. Una vez la herramienta ha sido entrenada y ha “clonado” la voz, es capaz de generar outputs, es decir, nuevos audios con la voz del sujeto en cuestión pese a que este nunca haya pronunciado esas palabras.  

Desde la perspectiva de los derechos de propiedad intelectual y a la propia imagen, el doblaje, entendido como la sustitución de la voz original de un actor por la de otro, como el caso de Anny y Joan, no es problemático, siempre y cuando el productor haya obtenido, en el marco de los contratos de producción audiovisual, el permiso del autor del texto para traducirlo, y el permiso de la actriz para que su voz sea sustituida por la de la dobladora.

En el caso de los doblajes generados mediante IA, si el autor del texto ha dado su autorización y la actriz o actor se muestran igualmente conformes, el hecho de que la voz se genere por una herramienta de IA en lugar de por un actor de doblaje humano, no comporta un problema añadido para el productor, al menos dentro del marco de los contratos de producción audiovisual.

Cuestión distinta es que los desarrolladores de sistemas de IA para doblaje de películas, que necesitan entrenar esos sistemas mediante el empleo de fonogramas comerciales, podcasts, grabaciones audiovisuales o emisiones de radio y televisión, los cuales a su vez contienen obras e interpretaciones artísticas, se enfrentan al riesgo de causar una infracción de derechos de propiedad intelectual (tal y como se analizó en este anterior post), y en su caso de derechos de imagen, salvo que su actividad pueda encontrar amparo en algún límite o excepción legal.

Protección de los inputs de entrenamiento por la propiedad intelectual

El hecho de alimentar la herramienta de IA con obras y prestaciones protegidas por la propiedad intelectual comporta la realización de actos (de extracción, scraping, volcado o escaneado) que tienen la virtud de afectar al derecho exclusivo de reproducción. La reproducción es definida en términos muy amplios por nuestro legislador, ya que abarca la fijación directa o indirecta, provisional o permanente, por cualquier medio y en cualquier forma, de toda la obra o de parte de ella, que permita su comunicación o la obtención de copias (vid. artículo 18 de la Ley de Propiedad Intelectual).

Por lo tanto, salvo que exista un límite legal que lo permita, la realización de actos que se puedan reconducir a esa definición afectará al derecho exclusivo de los autores y demás titulares de propiedad intelectual. De entre el catálogo de límites a los derechos, tan solo uno sería susceptible de ser aplicado a las actividades que se realizan para el desarrollo o entrenamiento de los sistemas de IA. Se trata del límite que ampara la minería de textos y datos (text and data mining), incorporado a nuestra legislación con motivo de la transposición de la Directiva (UE) 2019/790, de 17 de abril de 2019, sobre los derechos de autor y derechos afines en el mercado único digital, efectuada a través del Real Decreto-ley 24/2021, de 2 de noviembre.

En concreto, es en el artículo 67 de ese Real Decreto-ley donde ha quedado transpuesta la nueva excepción. Con base en ella, se permite la realización de reproducciones y extracciones de obras y otras prestaciones mediante minería de textos y datos, siempre que se haga, con fines de investigación científica, por organismos de investigación o instituciones responsables del patrimonio cultural. También se podrá realizar fuera de esos casos, pero solo si los titulares de derechos no han hecho una reserva expresa de derechos manifestada a través de medios de lectura mecánica u otros que resulten adecuados en el entorno digital en línea y se accede al contenido de forma legítima.

Esta regulación deja por tanto un margen para la realización de actividades, incluso comerciales, de minería de textos y datos, la cual podría a su vez servir para alimentar y entrenar sistemas de IA. No obstante, el desarrollador de estos sistemas deberá ser usuario legítimo del contenido y verificar que los titulares de derechos no se han opuesto a esa posibilidad mediante la oportuna reserva.

Protección de los inputs de entrenamiento por el derecho a la imagen

Por otro lado, las acciones necesarias para alimentar un sistema de IA podrían afectar al derecho a la propia imagen, que en nuestro sistema se protege por la Ley Orgánica 1/1982, de 5 de mayo, de protección civil del derecho al honor, a la intimidad personal y familiar y a la propia imagen (“LO 1/1982”). La imagen comprende no solo los rasgos físicos externos de la persona, sino también otros atributos que, como la voz, permiten identificarla.

Conforme al artículo 7.5 de la LO 1/982 tendrá la consideración de intromisión ilegítima la captación, la reproducción o la publicación por fotografía, filme, o cualquier otro procedimiento, de la imagen de una persona en lugares o momentos de su vida privada o fuera de ellos. Como en el caso de la Ley de Propiedad Intelectual, la LO 1/1982 también contempla algunos límites o excepciones a este derecho de reproducción sobre la imagen. Sin embargo, ninguno de ellos permite la realización de actividades de minería de datos o de machine learning, a fin de alimentar o entrenar sistemas de IA.

Así, conforme al artículo 8.2 de la LO 1/1982, se considera lícita la reproducción de la imagen de una persona, sin necesidad de consentimiento del interesado, únicamente: (i) cuando se trate de personas que ejerzan un cargo público o una profesión de notoriedad o proyección pública y la imagen se capte durante un acto público o en lugares abiertos al público; (ii) cuando se haga una caricatura de la persona, de acuerdo con los usos sociales;  (iii) cuando se trate de información -gráfica- sobre un suceso o acaecimiento público y la imagen de una persona aparezca como meramente accesoria. Junto con lo anterior, de acuerdo con el artículo 8.1 LO 1/1982, en caso de predominio de un interés histórico, científico o cultural relevante, tampoco habría intromisión ilegítima.

El resultado es que los desarrolladores de sistemas de IA tienen más dificultades para emplear inputs de entrenamiento que contengan la imagen de personas, aunque se trate únicamente de la voz, que para servirse de contenidos protegidos por derechos de propiedad intelectual. Con el añadido de que la voz, y el resto de atributos de la imagen, constituye un bien de la personalidad, predicable de cualquier persona por el mero hecho de serlo, es decir, este elemento se encuentra en cualesquiera grabaciones sonoras o audiovisuales, o emisiones de radiodifusión, con independencia de si los sonidos o palabras pronunciados constituyen, a su vez, una interpretación o ejecución en el sentido de la Ley de Propiedad Intelectual.

A lo anterior se suma que el artículo 7.6 de la LO 1/1982 impide, en cualquier caso, “la utilización del nombre, de la voz o de la imagen de una persona para fines publicitarios, comerciales o de naturaleza análoga”, lo que por cierto podría condicionar no ya las actividades de entrenamiento o desarrollo de un sistema de IA, sino las de utilización posterior de ese sistema para la generación de outputs, siempre que pudiera establecerse que estos resultados son reflejo de la imagen de una persona específica; lo que se antoja difícil de acreditar en el caso concreto de la voz, dado que también entre dos personas físicas puede darse una similitud total, o casi total, entre los timbres de sus respectivas voces.

Dicho todo lo cual, podrían explorarse dos aproximaciones a fin de sostener la viabilidad de utilizar la imagen/voz de las personas para alimentar o entrenar sistemas de IA. Una es el ya mencionado artículo 8.1 LO 1/1982, con arreglo al cual el predominio de un interés histórico, científico o cultural relevante desplaza la existencia de intromisión ilegítima. En este sentido, cabría determinar que se da el predominio de un interés científico o cultural relevante cuando, como sucede en sede de propiedad intelectual, se realiza una actividad de minería de datos, con fines de investigación científica, por parte de organismos de investigación o instituciones responsables del patrimonio cultural.

La otra aproximación es el artículo 2.1 de la LO 1/1982, de acuerdo con el cual, la protección de la propia imagen, como la del resto de derechos de la personalidad protegidos por esa Ley, queda delimitada por las leyes y los usos sociales, atendiendo al ámbito que, por sus propios actos, mantenga cada persona reservado para sí misma o su familia.

Con apoyo en esta previsión, y de nuevo operando por analogía con lo previsto en sede de propiedad intelectual, se podría tal vez sostener que, de conformidad con los usos sociales actuales, la ausencia de una reserva de derechos en origen, manifestada a través de medios de lectura mecánica u otros apropiados, resulta expresiva de una aquiescencia hacia la utilización de la imagen/voz para actividades de aprendizaje o entrenamiento de sistemas de IA.

Conclusión

El uso de sistemas de IA para realizar doblajes cinematográficos y televisivos no tiene por qué constituir un riesgo legal para los productores que recurren al mismo, siempre que cuenten con la autorización de los autores y artistas que intervienen en el film para llevar a cabo la traducción del texto y la sustitución de la voz por otros, en su caso empleando ese procedimiento. Cuestión distinta es que los outputs generados por el sistema de IA pudieran tener un vínculo reconocible con concretos inputs empleados para entrenar el sistema, supuesto en el que el uso de la herramienta puede exponer al productor al riesgo de ser demandado por los titulares de los derechos de propiedad intelectual y/o de imagen.

Con todo, los principales riesgos no son tanto para los usuarios como para los desarrolladores de los sistemas de IA generativa, ya que estos necesitarán reproducir vastos volúmenes de datos y textos (en versión gráfica y sonora), con la consiguiente potencial afectación de derechos de propiedad intelectual y de derechos de imagen.

En este sentido, la legislación de propiedad intelectual se halla mejor adaptada que la de protección de la imagen, de cara a propiciar el uso de contenidos protegidos, ya que no solo permite llevar a cabo minería de textos y datos con fines de investigación científica, sino incluso con fines comerciales, siempre y cuando no conste claramente la reserva de derechos en origen por parte de los titulares y se haya accedido de forma legítima al contenido.

La legislación sobre el derecho a la imagen no se encuentra actualizada, en este como en tantos otros aspectos, pues se promulgó en el año 1982 y apenas ha sido objeto de modificaciones posteriores, datando la última de las reformas del año 2010. Los límites que en esa legislación se contemplan no guardan ninguna relación con actividades de machine learning o de minería de datos. No obstante, algunas cláusulas o salvaguardas generales permiten articular una argumentación que, en la práctica, situaría la cuestión en un punto similar al que el legislador ha establecido en sede de propiedad intelectual.

En definitiva, igual que lo hizo en su día la aparición del cine sonoro, es innegable que la irrupción de las herramientas de IA generativa plantea nuevos retos en el ámbito de los doblajes cinematográficos y televisivos, y en general en el ámbito de la creación y la producción audiovisual. El tiempo nos dirá si el alcance de esta novedad será menor, igual o superior al que supuso la aparición del cine sonoro.

17 de enero de 2024