Juventud Rebelde - Diario de la Juventud Cubana

«Librocidios» en la era de la IA

Con decenas de casos de demandas por infracción de derechos de autor, salen a la luz proyectos de empresas tecnológicas que han entrenado a sus modelos a partir del conocimiento humano previo, sin tomar en cuenta quién lo creó

Autor:

Yurisander Guevara Zaila

Decenas de millones de dólares después, Anthropic, una de las empresas más prominentes en el sector de la inteligencia artificial generativa (IAG), había emulado a Ray Bradbury cuando escribió en su libro Farenheit 451: Era estupendo quemar. Solo que, en este caso, en vez de darles fuego a la primera, lo que hizo la compañía fue adquirir millones de libros para escanearlos, convertir su contenido a datos, y luego destruirlos.

El llamado Proyecto Panamá, dado a conocer recientemente por The Washington Post, significó para Anthropic acceder a datos para entrenar sus modelos de IAG mediante el empleo de obras protegidas por derecho de autor.

A inicios de este 2026, y con más de 70 casos registrados de demandas a compañías tecnológicas por infracción de derechos de autor, de acuerdo con la Copyright Alliance, lo que parece estar de moda es la política de actúa primero y pide disculpas después. Esto ha hecho que la industria de la IAG esté en un estado de litigio sistémico, y en el centro de la tormenta, autores y editores acusan a los gigantes de Silicon Valley de utilizar millones de libros protegidos, a menudo obtenidos de sitios piratas, para alimentar sus algoritmos sin permiso ni compensación.

Uso, luego pago

En septiembre de 2025, Anthropic alcanzó un acuerdo de liquidación por 1 500 millones de dólares tras enfrentar acusaciones por la descarga ilegal de cientos de miles de libros de fuentes ilícitas. Según la revista Wired, si la empresa no hubiera pactado, los pagos podrían haber superado el billón de dólares. El litigio reveló que Anthropic utilizó Books3, una base de datos masiva con copias piratas de repositorios como Library Genesis (LibGen) y Pirate Library Mirror.

Documentos internos desclasificados en el mes de enero revelaron la citada operación secreta Proyecto Panamá. Ejecutivos de la empresa buscaron adquirir y escanear de forma destructiva «todos los libros del mundo». La empresa gastó decenas de millones de dólares para comprar millones de títulos físicos, cortarles el lomo y escanear sus páginas. Los datos fueron alimento para su chatbot, Claude. En un memorando interno, los directivos de Anthropic escribieron que no querían que el público supiera sobre este trabajo.

Una imagen divulgada en documentos judiciales muestra un almacén de libros que presuntamente participó en el Proyecto Panamá de Anthropic dedicado a escanear, digitalizar y destruir millones de textos. Foto: The Washington Post

A pesar de estos esfuerzos, todo se conoció, y fue entablada una demanda en la que el juez dictaminó que Anthropic pudo infringir los derechos de autor al descargar millones de obras piratas gratuitas antes de lanzar su proyecto de escaneo legal. Según el Post, Ben Mann, cofundador de Anthropic, descargó personalmente una gran cantidad de libros de ficción y no ficción de LibGen en junio de 2021. Aunque el tribunal calificó el entrenamiento como «espectacularmente transformador», el uso consciente de fuentes ilícitas debilitó la defensa de la compañía, que tuvo que pagar lo antes citado.

No es Anthropic un caso aislado. El hambre de datos se puso de manifiesto además en el caso Kadrey contra Meta, en el que se han presentado pruebas de que los empleados de la gigante de las redes sociales conocían la ilegalidad de usar sitios piratas. Según documentos citados por el Post, los ingenieros expresaron preocupación por el uso de plataformas torrent desde computadoras corporativas. Un correo electrónico interno de diciembre de 2023 indicó que el uso de LibGen para entrenar el modelo Llama 3 recibió aprobación tras una «escalada a MZ», referencia directa al director ejecutivo Mark Zuckerberg.

Los registros de chat mostraron que el equipo de Meta utilizó servidores alquilados a Amazon en lugar de los propios de Facebook. El objetivo era evitar que las autoridades rastrearan la actividad hasta la empresa. Aunque el juez de este caso otorgó un fallo parcial a favor de Meta al considerar que el entrenamiento era «altamente transformador», el proceso continúa para determinar si la empresa distribuyó copias piratas mediante tecnología BitTorrent.

El asedio a OpenAI

En la actualidad, OpenAI y su aliado Microsoft enfrentan una de las batallas más complejas contra The New York Times. La demanda alega que el éxito comercial de OpenAI se basa en una infracción de derechos de autor a gran escala. Según el diario, los modelos de esa empresa producen fragmentos exactos de sus artículos, lo que permite a los usuarios evitar los muros de pago. Este fenómeno técnico, conocido como «regurgitación», evidencia que los modelos, además de aprender patrones, memorizan y reproducen textos protegidos por derechos de autor.

En mayo del pasado año, la jueza Ona T. Wang emitió una orden histórica que obligó a OpenAI a conservar 60 000 millones de registros de chat de sus usuarios. Esta medida busca determinar con qué frecuencia el sistema genera contenido infractor en condiciones reales. Además, OpenAI perdió una batalla clave sobre el acceso a comunicaciones internas en Slack. Según el portal IPWatchdog, el tribunal ordenó a la empresa entregar documentos que explican por qué eliminó dos enormes conjuntos de datos de libros piratas denominados Books1 y Books2.

Los abogados de los autores sostienen que el acto de descargar las obras ilegalmente constituye una infracción, independientemente de su uso posterior. Sam Altman, director ejecutivo de OpenAI, calificó las reproducciones exactas de artículos como un «error técnico» que la empresa intenta resolver.

La doctrina del uso justo

En Estados Unidos, donde se llevan a cabo estas demandas, el debate jurídico gira en torno a si el acto de descargar y procesar millones de obras constituye una infracción directa o un «uso justo» (fair use). Las tecnológicas argumentan que sus modelos no almacenan copias, sino pesos numéricos que representan conceptos abstractos.

Sin embargo, la Oficina de Derechos de Autor de los Estados Unidos emitió una guía en mayo de 2025 con advertencias claras. El informe señala que el entrenamiento de modelos para generar contenido que compita comercialmente con los originales tiene pocas probabilidades de ser considerado como uso justo.

La Oficina subrayó que la copia total de obras es la norma en la IA, lo cual pesa contra los desarrolladores a menos que demuestren una necesidad técnica transformadora absoluta. Según la guía, el efecto en el mercado es el factor más crítico. Si los sistemas de IA disminuyen las oportunidades de licencia para los creadores humanos, el tribunal debe fallar contra la empresa tecnológica.

Ante la amenaza de sanciones masivas, las empresas tecnológicas iniciaron una carrera por el licenciamiento legal. OpenAI construyó una red de asociaciones con medios como News Corp. Amazon aseguró licencias con el Times y Condé Nast para sus asistentes inteligentes, enfocándose en resúmenes que no canibalizan el tráfico web de los editores.

En la industria musical, las demandas de Universal Music Group y Warner Music Group forzaron a desarrolladores como Udio y Suno a negociar. Para este año, el mercado espera servicios de suscripción de IA entrenados solo con catálogos autorizados, donde los artistas decidan si desean participar a cambio de compensación directa.

La resolución de los casos pendientes en 2026 terminará de trazar las fronteras entre la innovación algorítmica y la protección de la creatividad humana. Según expertos de ComplexDiscovery, la procedencia de los datos es la nueva moneda de cambio, y solo aquellas empresas que prueben la integridad de su información liderarán la próxima ola de innovación.

Comparte esta noticia

Enviar por E-mail

  • Los comentarios deben basarse en el respeto a los criterios.
  • No se admitirán ofensas, frases vulgares, ni palabras obscenas.
  • Nos reservamos el derecho de no publicar los que incumplan con las normas de este sitio.