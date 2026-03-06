En días recientes, la compañía Anthropic denunció que tres laboratorios chinos habrían ejecutado “ataques de destilación” contra Claude: millones de interacciones vía cuentas falsas para replicar capacidades a menor costo. La empresa lo presentó como una amenaza a la seguridad y a la integridad de sus datasets y su pripio know- how. Más allá de la tensión entre las compañías, y el despliegue mediático, la conversación pública giró de inmediato hacia otra pregunta: ¿de dónde salió la información con la que entrenaron a Claude?

En 2025, Anthropic acordó pagar USD 1.500 millones para conciliar la acción de grupo presentada en su contra por varios autores por presuntamente haber usado millones de libros adquiridos de fuentes ilegítimas en el entrenamiento de sus modelos de IA generativa. El fallo que motivó la conciliación dejó una línea clara: entrenar modelos grandes de lenguaje (LLMs) con obras legalmente adquiridas puede ser fair use y ser una excepción a la protección del derecho de autor; usar copias pirateadas, no.

La tensión entre exigir protección de sus datasets y a su vez haber entrenado sus modelos con información presuntamente adquirida de fuentes ilegítimas generó una reacción viral que inundó redes Jurídicamente, el caso deja tres lecciones. Primera, la fuente de la información con que se entrenan los modelos es tan relevante como el uso que se le da. No basta con decir “la actividad es transformativa”; hay que demostrar origen lícito y trazabilidad. De lo contrario, había podría haber una infracción a derechos de propiedad intelectual.

Segunda, a través de las reclamaciones por “model extraction” y destilación las compañías creadoras de modelos de IA tratarán de reivindicar derechos sobre funcionalidades de sus modelos. En estos casos, si bien la protección existe, debe articularse por otros medios de protección diferentes a los derechos de autor. Por ejemplo, mediante figuras como la del secreto empresaria.

Tercera, los riesgos económicos de entrenar con material ilícito ya son cuantificables: el “precio implícito” del acuerdo de Anthropic con los autores rondó USD 3.000 por libro; cifra que, multiplicada en escala, convierte la adquisición legítima de información y datasets en prioridad estratégica, no en letra menuda.

Para Colombia, el ángulo práctico es inmediato. Empresas privadas, medios de comunicación y agencias están adoptando IA generativa para producción de contenidos, investigación y servicio al cliente. Si un proveedor promete un “LLM de última generación” pero no explica qué licencias compró, qué datasets utilizó y cómo audita el origen de éstos, pueden surgir riesgos legales que deben ponderarse a la hora de elegir un proveedor. Además, el temor a que competidores “destilen” información, datos y outputs, es fundamental implementar medios preventivos de protección: acuerdos de uso claros, contratos robustos, compartimentalización de la información, monitoreo técnico y unas políticas robustas de datos y manejo de información sensible.