El desafío legal de entrenar sistemas de IA: el caso Ross Intelligence y la doctrina del fair use.

2023-10-23T13:03:00
España Internacional
Posible infracción de derechos de propiedad intelectual sobre bases de datos jurídicas causada por el entrenamiento de un sistema de IA.
El desafío legal de entrenar sistemas de IA: el caso Ross Intelligence y la doctrina del fair use.
23 de octubre de 2023

I.           Contexto

La irrupción de la Inteligencia Artificial (“IA”) ha transformado no solo nuestra manera de actuar y observar el mundo, sino que también ha suscitado inéditos desafíos jurídicos. Uno de los retos que con más frecuencia está proliferando es el del uso de obras protegidas por derechos de autor para la fase de entrenamiento de los sistemas de IA, que enfrenta a los titulares de los derechos de propiedad intelectual de dichas obras contra las empresas desarrolladoras de los sistemas de IA (p. ej., el caso Stable Diffusion analizado aquí).

En esta ocasión, abordaremos la disputa jurídica entre las empresas de investigación jurídica Thomson Reuters Enterprise Centre GmbH y West Publishing Corporation (denominados conjuntamente, “Thomson y West”) , como parte demandante, por un lado, y ROSS Intelligence Inc. (“ROSS”), como parte demandada, por otro, en relación con el uso legítimo de las notas jurídicas titularidad de Thomson y West para el entrenamiento del sistema de IA de ROSS, consistente en una plataforma de investigación jurídica competidora. A pesar de que el marco regulatorio europeo no se aplicará a este caso, sin duda, la resolución de este asunto será de un interés incuestionable para los tribunales europeos, que más pronto que tarde se deberán enfrentar a procedimientos judiciales similares.

En mayo del 2020, Thomson y West demandaron a ROSS frente al Tribunal de Distrito de Delaware de los Estados Unidos, alegando una infracción de derechos de autor vinculada con el uso ilícito de la plataforma Westlaw propiedad de Thomson y West. En concreto, la controversia principal se centra en si la utilización, en un sentido amplio del término, de obras protegidas por derechos de autor para el entrenamiento de sistemas de IA constituye un acto de infracción de propiedad intelectual o si, por el contrario, dicha actividad se puede enmarcar en la doctrina del fair use americana, contemplada en la sección 107 de la Copyright Act USA.

Para entender la naturaleza de la presunta infracción, debemos comprender la actividad de cada empresa. Thomson y West operan un sistema de indexación de jurisprudencia llamado Key Number System (“WKNS”) ideado para organizar resoluciones judiciales –judicial opinions– en función de las diferentes áreas e instituciones jurídicas del derecho (p. ej., la ley electoral, la prueba, las patentes, etc.). Westlaw, por su parte, agrega pequeños resúmenes –headnotes–, elaborados por sus editores, de una norma jurídica o de los aspectos jurídicos específicos abordados en cada caso concreto. Cada resumen está vinculado a un número clave, un número permanente atribuido a un punto concreto de una resolución judicial, y, cuando un usuario hace clic en un resumen, le lleva al pasaje correspondiente. Además, si el usuario hace clic en el número clave, se le ofrecerá una lista de casos que incluyen los mismos aspectos jurídicos. Conviene puntualizar que Westlaw registró tanto el sistema WKNS como los resúmenes bajo derechos de autor como "texto original, revisado y recopilación de material jurídico". En consecuencia, nos encontraríamos ante dos elementos diferenciados que podrían ser susceptibles de protección al amparo de los derechos de propiedad intelectual: (1) el método de organización de Thomson y West, que sería protegible como base de datos si es original; y (2) los resúmenes de Westlaw.

En lo que respecta a ROSS, su objetivo consistía en crear, a través del aprendizaje automático, un "motor de búsqueda de lenguaje natural", en aras de eliminar la intermediación humana en la creación de contenidos por parte de los editores. Es decir, una vez los usuarios preguntaran al sistema (lenguaje natural), el motor de búsqueda respondería con citas de resoluciones judiciales. Inicialmente, ROSS trató de obtener una licencia para usar lícitamente Westlaw, sin embargo, Thomson y West declinaron la oferta. En consecuencia, ROSS se vio en la necesidad de adquirir material jurídico para entrenar su sistema IA.

En este momento, ROSS recurrió a LegalEase Solutions (“LegalEase”), una empresa de investigación jurídica, con el fin de crear memorandos con preguntas –que podría realizar un abogado– y respuestas jurídicas, en relación con resoluciones judiciales. Es controvertido el origen de las citas incluidas en dichos memorandos, es decir, si la fuente de todos los extractos procurados por LegalEase provenía directamente de Thomson y West, de las propias resoluciones judiciales y/o de otras fuentes alternativas. ROSS admitió que los resúmenes “influyeron” en las preguntas incluidas en sus memorandos, pero aseguraba que fueron redactados directamente por sus abogados, sin ápice de copia. Por su parte, Thomson y West defienden que las oraciones interrogativas incorporadas en los memorandos eran esencialmente sus resúmenes, con la inclusión simplemente de un signo interrogativo final.

Este proyecto, denominado Bulk Memo Project, concluyó con un total de 25.000 memorandos que contenían conjuntos de preguntas y respuestas, elaborados tanto de forma manual como automatizada, utilizando la técnica del “web scraping” (ya abordada en una entrada previa).

Un aspecto divergente respecto a otros litigios, en torno a la infracción de derechos de propiedad intelectual y el entrenamiento de sistemas de IA generativa, consiste en que ROSS no obtiene el contenido jurídico titularidad de Thomson y West de manera directa, sino mediante un licenciatario de Westlaw, LegalEase. Junto con ello, Thomson y West alegan que ROSS sería responsable no solo de la infracción de los derechos de autor, sino también de la interferencia ilícita –tortious interference– en un contrato.

Sentado lo anterior, conviene prestar atención a la secuencia cronológica de algunos de los actos más relevantes de este procedimiento:

A continuación, analizaremos los argumentos esenciales sostenidos por las partes en cuanto a la defensa del fair use y, posteriormente, los apartados y conclusiones más relevantes expuestos en el summary judgment.

II.         Argumentos de ambas partes sobre la defensa del fair use

Los cuatro argumentos esgrimidos por ROSS para defender el uso legítimo son: (i) el uso que ROSS hace del contenido de Westlaw se considera funcional y transformador; (ii) la protección subyacente de los materiales copiados de Westlaw es estrecha (la sentencia lo califica como “thin copyright”); (iii) debería considerarse un caso de “copia intermediaria” para crear un producto final que no contiene materiales con derechos de autor; y (iv) ROSS no ha generado un daño en el mercado de las obras de Westlaw.

En respuesta a estos argumentos, Thomson y West aducen que: (i) el propósito de usar el contenido de Westlaw no es transformativo, al contrario, su finalidad reside en la creación de un producto de investigación jurídica que reemplazaría a Westlaw; (ii) el contenido de Westlaw es creativo; (iii) la copia es sustancial tanto cualitativa como cuantitativamente; (iv) ROSS produjo un daño en el mercado de las plataformas de investigación jurídica, al haber tomado y usado el contenido de Westlaw para generar un producto con capacidad de reemplazar el producto de Thomson y West.

III.       Summary judgment - Dictamen judicial

En su decisión, el Juez Stephanos Bibas estableció que este caso deberá resolverse a través de un juicio, en el que decida un jurado. Por lo tanto, Bibas denegó con carácter general las mociones de ambas partes para un summary judgment, exceptuando algunos aspectos menores.

En este sentido, los argumentos de mayor relevancia expuestos por el magistrado se refieren a los aspectos siguientes: (i) analizar si existe una infracción de propiedad intelectual; (ii) el eventual alcance de la responsabilidad de ROSS y (iii) la discusión sobre la aplicabilidad de la doctrina del fair use alegada por ROSS.

A.   Sobre la posible infracción:

Los tres elementos en disputa son: (i) el ámbito de protección de los derechos de autor titularidad de Thomson y West; (ii) si hay una copia real; y (iii) la similitud sustancial entre las obras.

(i) En lo que respecta al ámbito de protección de los derechos de autor titularidad de Thomson-West, el argumento sostenido por ROSS se fundamenta en que el material registrado por Westlaw es una compilación y, en sus palabras, al tratarse de un único registro, que comprende cientos de miles de resúmenes y números clave, copiar unos pocos miles no se consideraría una infracción. Asimismo, cita jurisprudencia que alega que el registro de una compilación se considera un derecho de autor “estrecho” y cubre solo selecciones y arreglos, pero no otros elementos de la compilación.

Sin embargo, el juez considera que el derecho de autor se extiende a todas las piezas que configuran la compilación, por lo tanto, el aspecto relevante a evaluar por el jurado es si el método de organización WKNS se considera original. En cuanto a los resúmenes, se alcanza una conclusión diferente, dado que su protección depende de si dichos resúmenes se asemejan a las resoluciones judiciales, puesto que en caso de que se trate de una mera copia no serían protegibles. La resolución de la controversia fáctica sobre cuán originales son los resúmenes tendrá una doble implicación jurídica: (i) afectará a la fuerza y el alcance de los derechos de autor de Thomson y West; e (ii) influirá en determinar si ROSS estaba copiando los resúmenes.

(ii) En cuanto a la copia real, se trata de una de las cuestiones en las que el juez otorga un summary judgment afirmando que ningún jurado razonable afirmaría que no hay al menos algún grado de copia debido a las evidentes similitudes.

(iii) En relación con la similitud sustancial, que evalúa si el consumidor o la persona media podría percibir ambas obras como iguales, según Thomson y West, el experto de ROSS admitió dicha similitud en su comparecencia. Por su parte, ROSS negó dicha posición. Finalmente, el magistrado decide remitir al jurado la evaluación de dicha similitud sustancial.

En otro orden de consideraciones, Bibas recuerda que a pesar de que Thomson y West puedan lograr probar una infracción, aún les faltaría demostrar la responsabilidad de ROSS en dicha infracción y que la defensa de fair use no es aplicable

B.   Tipos de responsabilidad por la infracción:

El tribunal considera los tres tipos de responsabilidad alegados por Thomson y West. Primero, aunque la cuestión de responsabilidad directa parece clara, dado que ROSS alojó copias masivas de sus memorandos en sus servidores, aún se debe demostrar que la primera copia (LegalEase Bulk Memo project) fuera no autorizada. Recordemos, que LegalEase había sido la encargada por ROSS de elaborar los memorandos a partir de las resoluciones judiciales vertidas en el sistema de Thomson y West, mediante la licencia cedida por esta última. Por lo tanto, falta evaluar si dicho acto realizado por LegalEase constituye una copia conforme a la ley de propiedad intelectual.

En segundo lugar, para la responsabilidad por contribución (contributory liability), se debe demostrar que: (i) ROSS sabía que LegalEase estaba infringiendo; y (ii) contribuyó materialmente o indujo la infracción. El juez afirma que esta posible responsabilidad de ROSS es independiente de la protección otorgada por la licencia concedida por Thomson y West a LegalEase, una cuestión, esta última, no controvertida.

En tercer lugar, para la responsabilidad vicaria (vicarious liability), se debe demostrar que ROSS: (i) tenía el derecho y la capacidad de supervisar o controlar la actividad infractora primaria; y (ii) tenía un interés económico directo en dicha actividad. Si bien el segundo criterio no es objeto de controversia, respecto al primero, ROSS presenta pruebas que demuestran que LegalEase mantenía en secreto sus asuntos y se resistía a ser controlado. Por ello, el magistrado expone que se trata de una cuestión fáctica que deberá ser evaluada por el jurado.

C.   Fair use:

La doctrina del fair use admite la posibilidad de realizar un uso legítimo de obras protegidas sin contar con permiso de su titular, siempre que se haga para ciertas finalidades, tales como la crítica, el comentario, la actividad docente, la información o la investigación, sujeto a la ponderación, en el caso particular, de cuatro factores:

El primer factor sería la finalidad y el carácter del uso, que depende principalmente de si es un uso comercial y transformativo. El reciente caso sobre la Fundación Andy Warhol para las Artes Visuales, Inc. v. Goldsmith, 143 S. Ct. 1258 (2023) es empleado por Thomson y West para alegar que el uso de ROSS no fue legítimo, dada su finalidad comercial. No obstante, el juez afirma que, en un contexto tecnológico, se debe otorgar más peso al carácter transformativo del uso, el cual puede llegar a compensar la naturaleza comercial del mismo (caso de Google LLC v. Oracle Am., Inc., 141 S. Ct. 1183, 1199–200 (2021)).

En su defensa, ROSS se basó en dos precedentes (Sega Enterprises Ltd. v. Accolade, Inc., 977 F.2d 1510 (9th Cir. 1992) y Sony Computer Entertainment Inc. v. Connectix Corp., 203 F.3d 596 (9th Cir. 2000)) que complementan la noción de copia intermedia para legitimar sus acciones en el marco del entrenamiento de su sistema de IA. Esto se traduce en que la copia se realizó para descubrir información no protegible o funcional, lo que se asimila a un paso intermedio para crear un nuevo producto de tipo transformativo. En contraposición, Thomson y West señalan que esos dos precedentes defienden el acto de copiar para promover la funcionalidad o crear una compatibilidad, pero en ningún caso para entrenar a una IA. El juez manifiesta que el jurado deberá contrastar si el sistema de IA de ROSS estudiaba los patrones lingüísticos de los resúmenes para aprender a redactar reseñas de las resoluciones judiciales o si, por el contrario, dicho sistema de IA estaba únicamente destinado a replicar la redacción creativa de los editores de Westlaw.

El segundo factor del fair use se refiere a la naturaleza de la obra y a si la copia está cerca del núcleo de dicha obra, entendido como lo que el derecho de autor pretende proteger en su esencia: la originalidad y la expresión creativa de una obra. Aunque el juez reitera la necesidad de que sea el jurado quien decida, también afirma que el WKNS está más alejado del núcleo de la protección otorgada por los derechos de autor, ya que, a su juicio, es simplemente una forma de organizar material informativo. Los resúmenes estarían más cerca, y aunque los editores podrían haber tomado decisiones creativas sobre sus reseñas, esas decisiones están limitadas por lo expuesto en las resoluciones judiciales, por lo que, aun protegibles, seguirían sin acercarse al mencionado núcleo.

El tercer factor está relacionado con la cantidad y la sustancialidad de la copia en relación con la obra original. En este sentido, se expone que copiar una gran cantidad de material protegido puede ser considerado como un uso legítimo en caso de que la expresión creativa del material sea levemente copiada, así como si existe un propósito transformativo. En este supuesto, lo sustancial del resumen sería su expresión original y, por lo tanto, si ROSS reproduce el contenido del resumen, pero no su expresión, podría no verse afectada su sustancialidad. El juez ordena al jurado que evalúe si está suficientemente justificada la escala de la copia realizada por ROSS y si estaba justificada por la -pretendida- finalidad transformativa de esa operación.

El cuarto factor consiste en examinar si el uso puede afectar significativamente al valor de la obra original o a su mercado potencial. El juez considera que lo realizado por ROSS afecta a dos mercados: (i) el mercado de Westlaw como plataforma de investigación jurídica; y (ii) el mercado de sus datos. Para el primer mercado, Thomson y West acusaron a ROSS de crear un producto sustitutivo de Westlaw, sosteniendo esta afirmación en el hecho de que algunos de sus clientes cancelaron sus suscripciones a Westlaw. Para el segundo mercado, Thomson y West argumentaron que perdieron: (i) los ingresos derivados de las licencias tradicionales, puesto que ROSS obtuvo su contenido vía LegalEase; y también (ii) su participación en un mercado floreciente de datos para entrenar a la IA. Por su parte, ROSS argumenta que Thomson y West nunca participaron ni participarían en dicho mercado. A modo de conclusión, el juez apunta que también ha de tenerse en cuenta el interés público, si este aconseja que la IA sea entrenada con material protegible por derechos de autor porque ello podría incrementar el acceso a la ley a un coste más bajo, o si por el contrario eso desincentivaría a entidades como Thomson y West para la creación de contenido jurídico de valor añadido.

IV.        Conclusión

El presente caso es un buen compendio de la clase de controversias que pronto proliferarán en la zona de intersección de los derechos de autor y la IA. A medida que la tecnología avanza -y lo hace frenéticamente-, el marco legal se enfrenta al reto de proporcionar respuestas a situaciones novedosas con un instrumental no siempre bien pertrechado para ello. Si bien el magistrado Bibas ha delineado los contornos del debate, la decisión final del jurado está llamada a ser un hito en la jurisprudencia sobre propiedad intelectual en la era digital. La puerta queda abierta no solo a la decisión definitiva del tribunal, sino también a un debate más amplio sobre el equilibrio entre la protección de la propiedad intelectual y la innovación tecnológica.


Autores: Rafael Sánchez Aristi y Josu Andoni Eguiluz, con la colaboración de David Meshaka

23 de octubre de 2023