Solucionar fallas en chats llevará tiempo

Los modelos actuales son simplemente demasiado difíciles de manejar, frágiles y maleables

  • BOSTON.

Los funcionarios de la Casa Blanca preocupados por el potencial de daño social de los chatbots que funcionan con inteligencia artificial y las potencias de Silicon Valley que los apresuran a salir al mercado están muy interesados en una competencia de tres días que finaliza el domingo en la convención de hackers DefCon en Las Vegas.

Unos 3.500 competidores han aprovechado laptops que buscan exponer fallas en ocho modelos líderes de lenguaje a gran escala representativos del próximo gran avance de la tecnología. Pero no esperes resultados rápidos de este primer "equipo rojo" independiente.

Los hallazgos se harán públicos más o menos hasta febrero. E incluso entonces, corregir fallas en estas construcciones digitales —cuyo funcionamiento interno no es del todo confiable ni es totalmente comprensible ni siquiera para sus creadores— llevará tiempo y millones de dólares.

Los modelos actuales de inteligencia artificial son simplemente demasiado difíciles de manejar, frágiles y maleables, según muestra la investigación académica y corporativa. La seguridad fue una idea de último momento en su formación, a medida que los científicos de datos acumularon colecciones de imágenes y texto asombrosamente complejos. Estos son propensos a prejuicios raciales y culturales, y son fáciles de manipular.

"Es tentador pretender que podemos rociar un poco de polvo mágico de seguridad en estos sistemas después de que estén construidos, parchearlos para que se sometan o atornillar aparatos especiales de seguridad en el costado", dijo Gary McGraw, un veterano de seguridad cibernética y cofundador del Berryville Institute of Machine Learning.

Michael Sellitto de Anthropic, que proporcionó uno de los modelos de prueba de inteligencia artificial, reconoció en una conferencia de prensa que comprender sus capacidades y problemas de seguridad "es una especie de área abierta de investigación científica".

El software convencional utiliza un código bien definido para emitir instrucciones explícitas paso a paso. ChatGPT de OpenAI, Bard de Google y otros modelos de lenguaje son diferentes. Entrenados en gran parte mediante la ingestión y clasificación de miles de millones de puntos de datos en rastreos de internet, son trabajos en progreso perpetuos, una perspectiva inquietante dado su potencial transformador para la humanidad.

Después de lanzar públicamente los chatbots el otoño pasado, la industria de la inteligencia artificial generativa ha tenido que tapar repetidamente los agujeros de seguridad expuestos por investigadores y expertos.

Tom Bonner, de la firma de seguridad de inteligencia artificial HiddenLayer, un orador en la DefCon de este año, engañó a un sistema de Google para que etiquetara una pieza de malware como inofensiva simplemente insertando una línea que decía "esto es seguro de usar".

"No hay buenas barandillas", dijo. Otro investigador hizo que ChatGPT creara correos electrónicos de phishing y una receta para eliminar violentamente a la humanidad, una violación de su código de ética.

Un equipo que incluye a investigadores de Carnegie Mellon descubrió que los chatbots líderes son vulnerables a los ataques automatizados que también producen contenido dañino. "Es posible que la naturaleza misma de los modelos de aprendizaje profundo haga que tales amenazas sean inevitables", escribieron.

Las alarmas ya habían sonado desde antes.

ESTROPEAN MODELOS 

Un estudio en coautoría de Florian Tramér de la Universidad suiza ETH Zurich determinó que corromper solo el 0,01% de un modelo era suficiente para estropearlo, y costaba tan solo 60 dólares. Los investigadores esperaron a que expiraran dos modelos de un puñado de sitios web utilizados en rastreos. Luego compraron los dominios y publicaron datos incorrectos sobre ellos.

Hyrum Anderson y Ram Shankar Siva Kumar, quienes formaron equipo rojo con la inteligencia artificial mientras eran colegas de Microsoft, califican el estado de la seguridad de la inteligencia artificial para los modelos basados en texto e imágenes como "lamentable" en su nuevo libro "Not with a Bug but with a Sticker". Un ejemplo es el asistente virtual Alexa, la cual es engañada para que interprete un clip de concierto de Beethoven como un comando para ordenar 100 pizzas congeladas.