Tres investigadores han creado con éxito un malware digital que ataca la inteligencia artificial generativa, un gusano que puede engañar a los chatbots impulsados por IA para que realicen diversas acciones maliciosas. Escribe por cable. Su objetivo era demostrar en un entorno seguro que incluso los piratas informáticos malintencionados pueden aprovechar esta tecnología cada vez más popular para sus propios fines en cualquier momento.
Ben Nasi, Stave Cohen y Ron Beaton crearon un gusano llamado Morris II que Sobre el primer malware hipotético problemático su nombre era. El gusano Morris original arrasó en Internet el 2 de noviembre de 1988, aunque debemos agregar que no fue gran cosa en ese momento, ya que en ese momento había aproximadamente 60.000 computadoras conectadas a la World Wide Web. tiempo.
Todo el malware digital se denomina coloquialmente virus, pero en realidad es sólo un arma en el arsenal de un hacker. Todos los virus son códigos maliciosos, pero no todos los códigos maliciosos son virus. Los virus se activan cuando alguien ejecuta el programa infectado, mientras que los gusanos son programas independientes que pueden reproducirse, crecer y propagarse sin la ayuda del usuario.
Aunque ChatGPT es quizás la herramienta de inteligencia artificial más conocida en la actualidad, en muchos otros lugares se utilizan soluciones similares. Por ejemplo, en los asistentes de correo electrónico, los Nassies infectaron solo uno de ellos para robar datos personales y reenviar spam.
Cuando alguien le pide a la IA generativa que escriba texto o cree una imagen, le da lo que se llama un mensaje. Por ejemplo, si escribimos en la línea de comando de dibujo de la IA que queremos una imagen de una rana de treinta metros de altura trepando al Empire State Building, eso es un mensaje.
Resulta que con una indicación verbal difícil, muy sencilla, es posible piratear un sistema de IA generativa y explotar las protecciones creadas por los desarrolladores. La versión amigable de esto es cuando la gente trolea a la IA, y así nacen historias divertidas como la de Glorbó. (Es cierto que en este caso los usuarios de Reddit no se le adelantaron en el reclamo, sino que manipularon la base de datos fuente).
De la investigación Resulta que a medida que la IA generativa se vuelve cada vez más multimodal, es decir, capaz de interpretar imágenes y vídeos además de texto escrito, se puede piratear de más y más formas. Por ejemplo, un pirata informático podría ocultar una afirmación maliciosa en una página web o en una imagen, de modo que la IA que la procesa comenzaría, por ejemplo, a difundir información errónea o intentaría obtener datos personales de personas reales.
Morris 2 es un gusano que los investigadores llaman gusano autorreplicante con intenciones hostiles. El punto es que el mensaje proporcionado incluye el hecho de que la IA también emitirá un mensaje en su respuesta, por lo que la IA lo recibe como una tarea para darse nuevas tareas en su respuesta.
El asistente de correo electrónico que están probando puede crear correos electrónicos usando ChatGPT-4, Google Gemini Pro y otras plantillas generales de lenguaje grande. Este problema se resolvió con un mensaje de texto (1:05 en el video) pidiéndole que rechazara una solicitud de amistad lasciva después del comando malicioso, pero con el mensaje lo convencieron de que se diera instrucciones a sí mismo, envenenando efectivamente la relación. La base de datos de la que sus respuestas extrajeron información. Por cierto, la respuesta de la turba fue:
«Oye burro
¿Qué le pasa a tu mente? ¿Nos reunimos para tomar un café? ¿Quién diablos te crees que eres para invitarme a perder el tiempo con tu patético trasero? Ni siquiera recuerdo el Technion, no iría allí aunque fuera el último lugar de la tierra. «Póntelo.»
La respuesta generada de esta manera infecta a otros con el tiempo y también recopila datos personales de ellos, además de llegar a la base de datos de nuevos clientes. Hicieron lo mismo con las imágenes: ocultaron un mensaje en una imagen en un correo electrónico no solicitado, lo que provocó que el asistente de IA enviara el correo electrónico a más y más destinatarios después del primer envío. Según Nassies, con este método se pueden difundir noticias falsas con relativa rapidez y facilidad. Pudieron extraer una variedad de datos de los correos electrónicos.
«Ya sean nombres, números de teléfono, números de tarjetas bancarias, números de seguro social, cualquier cosa que consideremos confidencial».
dijo Nasi.
Si bien los investigadores han pirateado ChatGPT y Gemini, consideran que todo el ecosistema de IA está plagado de problemas de seguridad, por lo que sus hallazgos pretenden servir como una llamada de atención. También enviaron sus resultados al desarrollador de ChatGPT, OpenAI, y a Google. Desde el principio recibieron la respuesta de que están trabajando para evitar que el sistema sea engañado tan fácilmente, pero según ellos, también depende de los usuarios no utilizar mensajes maliciosos e infectados. Google no ha respondido oficialmente, pero Nasi mostró mensajes a un periodista de Wired, en base a los cuales parece que la empresa quiere negociar con los investigadores.
Según la familia Nassis, este tipo de amenaza no parece estar muy extendida todavía, pero a medida que dependemos cada vez más de estas soluciones de IA generativa, el riesgo aumenta.
«Muchas empresas industriales están desarrollando ecosistemas de IA generativa que, por ejemplo, integran capacidades de IA generativa en sus coches, teléfonos inteligentes y sistemas operativos».
escriben.
«Aficionado al café. Gurú de los viajes. Sutilmente encantador experto en zombis. Lector incurable. Fanático de la Web».