
Armis, compañía de seguridad y gestión de exposición cibernética, advierte que la rápida adopción del desarrollo nativo de IA entre las empresas está superando las medidas de seguridad críticas, dejando a las organizaciones expuestas a vulnerabilidades sistémicas.
Una nueva investigación del informe Trusted Vibing Benchmark de Armis Labs, que evalúa 18 modelos de IA generativa en 31 escenarios de prueba, revela una tasa de fallo del 100% en la generación de código seguro. Estas vulnerabilidades son más frecuentes en áreas de alto riesgo como los excesos de búfer de memoria, las cargas de archivos de diseño y los sistemas de autenticación. Por ello, las organizaciones deberían implementar de inmediato controles de seguridad para aplicaciones nativas de IA con el fin de reducir riesgos.
“La era del vibe coding ya está aquí, pero la velocidad no debe lograrse a costa de la seguridad”, afirma Nadir Izrael, CTO y cofundador de Armis. “Nuestra investigación demuestra que los peores infractores son los mismos que venden soluciones de seguridad para las vulnerabilidades que sus propios modelos crean. Si la industria continúa integrando código autónomo sin supervisión, no sólo estaremos frenando la velocidad, sino que estaremos acelerando la deuda técnica”.
El informe identifica una preocupante variabilidad en la seguridad dentro del ecosistema de IA:
- Puntos ciegos universales: Incluso los modelos más avanzados generan código vulnerable en más del 30% de los escenarios. Esto se ve agravado por una peligrosa brecha de percepción. El Informe de Cyberwarfare 2026 de Armis indica que el 77% de los responsables globales de TI confían en la integridad y la seguridad del código de terceros en sus aplicaciones más críticas, a pesar de que un 16% admite no saber si dicho código ha sido verificado exhaustivamente frente a vulnerabilidades de alta gravedad.
- La brecha de rendimiento: No todos los modelos son iguales. Por ejemplo, Gemini 3.1 Pro se posiciona como líder en seguridad, mientras que modelos propietarios más antiguos presentan un número significativamente mayor de vulnerabilidades y carecen de medidas básicas de protección.
- Coste vs. seguridad: Un mayor coste no implica necesariamente mayor seguridad. Modelos de código abierto de bajo coste, como Qwen 3.5 y Minimax M2.5, ofrecen un rendimiento de seguridad altamente competitivo a una fracción del precio.
“Actualmente, las organizaciones están jugando a una adivinanza con el código generado por IA”, añadió Izrael. “Para avanzar de forma efectiva, la seguridad de las aplicaciones debe evolucionar de la ‘gestión de escáneres’ a una verdadera ‘gestión de riesgos’. Los equipos de seguridad deben dejar de ahogarse en el ruido de las señales y empezar a utilizar controles nativos de IA que prioricen los hallazgos en función del impacto real en el negocio”.
El informe Trusted Vibing Benchmark de Armis Labs mide cómo los principales modelos comerciales y de código abierto generan código seguro y evitan producir vulnerabilidades críticas en distintos escenarios. Se centra en cuatro áreas clave: la evaluación del código generado mediante funciones o características “atómicas”, la elección del prompt, la selección del entorno de pruebas y la elección de la herramienta de seguridad de aplicaciones.
Armis Centrix™ for Application Security ayuda a las organizaciones a proteger toda su cadena de suministro de software mediante detección, contextualización y remediación impulsadas por IA.
Para un análisis más detallado de los resultados del informe y sus conclusiones clave, consulta nuestro blog aquí.