Tecnología

El envenenamiento de IA: la dosis es más crítica que el tamaño del modelo

0

Un estudio inquietante sobre la vulnerabilidad de la IA

Un reciente informe de una destacada empresa en el ámbito de la Inteligencia Artificial plantea serias dudas sobre la seguridad de los modelos de IA. Este estudio puede ser interpretado de dos maneras: como un autogol o como una crucial advertencia que merece atención. El foco de la investigación gira en torno a cómo los sistemas de IA se vuelven susceptibles a ataques y la efectividad de las barreras que los desarrolladores instalan para protegerse contra estas amenazas.

El fenómeno del “data poisoning”

La práctica de data poisoning, o envenenamiento de datos, destaca como un método que compromete la integridad de los modelos de lenguaje masivo (LLM). Estos modelos, que sostienen el funcionamiento de las populares IA actuales, dependen de grandes volúmenes de información para su entrenamiento. Pero, ¿qué sucede si esta información se encuentra contaminada? La investigación de Anthropic, la firma detrás del chatbot Claude, revela una alarmante conclusión: “una pequeña cantidad de muestras puede envenenar una IA de cualquier tamaño”.

La gravedad de las dosis mínimas

  • El estudio demuestra que, independientemente de la magnitud del modelo (desde 600 millones hasta 13,000 millones de parámetros), una dosis mínima de veneno es suficiente para comprometer su seguridad.
  • Se afirma que 250 documentos maliciosos pueden habilitar puertas traseras en modelos sanos, permitiendo a atacantes manipular la IA para fines perjudiciales.

Esto implica que crear un número tan reducido de documentos perjudiciales es relativamente sencillo en comparación con generar millones, incrementando así los riesgos de un posible ataque. Según Anthropic, esto desafía la noción de que para vulnerar sistemas de IA se requiere obtener control sobre un alto porcentaje de su conjunto de datos de entrenamiento.

El peligro del envenenamiento de IA

Con esta técnica, los atacantes tienen la capacidad de inducir a una IA a adoptar comportamientos peligrosos, como eludir filtros para acceder a datos confidenciales. Dado que los modelos de IA son alimentados por datos provenientes en gran parte de Internet, cualquier individuo podría crear contenido que termine afectando la base de estas tecnologías. “Los actores maliciosos pueden inyectar texto específico en publicaciones para que un modelo aprenda comportamientos indeseables”, advierten los expertos.

A pesar de que Anthropic se centra en una vulnerabilidad que produciría texto ilógico y que no representa riesgos significativos, sus hallazgos subrayan que los ataques por envenenamiento de datos podrían ser más accesibles de lo que se había supuesto. “Queremos fomentar la investigación sobre envenenamiento de datos y las defensas posibles contra ello”

Para llevar a cabo este estudio, Anthropic utilizó varios modelos, incluyendo el propio Claude Haiku y Mistral 7B, junto con Llama 1 y 2 de Meta, analizando más de 70 modelos en total. Esta investigación se realizó en colaboración con el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing.

Atrocidad contra un carpincho en un country de Canning: el animal se encuentra en estado crítico

Previous article

Ñoquis de papa con salsa de queso azul: La creación de Valentina Cervantes en MasterChef Celebrity

Next article

You may also like

Comments

Comments are closed.

More in Tecnología