Reconocimiento de voz tonto con comandos de voz ocultos

Estamos en 2018, y aunque los hoverboards verdaderos todavía se están escapando de la humanidad, algunas predicciones futuras se han hecho realidad. Ahora es posible hablar con las computadoras y, la mayoría de las veces, es posible que incluso te entiendan. El reconocimiento verbal se suele lograr mediante el uso de redes neuronales para procesar el sonido, por lo que algunos sugieren imitar el funcionamiento del cerebro humano. Sin embargo, resulta que pueden engañarte fácilmente.

El ataque comienza con una prueba de sonido, generalmente de una simple frase hablada, aunque también se puede utilizar música. El texto deseado, que la computadora escucha en su lugar, se ingresa en un algoritmo junto con la muestra de sonido. Esta función devuelve un valor bajo cuando la salida del sistema de reconocimiento de voz coincide con la frase de ataque deseada. El archivo de audio de entrada se modifica gradualmente utilizando las matemáticas del origen del gradiente, creando un resultado que para un humano suena como una cosa, y para una máquina, algo completamente diferente.

Los archivos de audio están disponibles en el sitio web para sus propios fines experimentales. En un entorno ruidoso con una combinación de sonido deficiente entre los altavoces y Google Pixel, los resultados fueron pobres. Bueno, Google solo escuchó la frase humana, no la frase de ataque codificada. Teniendo en cuenta que la calidad del sonido era deficiente y que los archivos fueron generados por otro modelo de voz, eso no es del todo sorprendente. Nos encantaría escuchar los resultados de sus experimentos en los comentarios.

Todo es parte de [Nicholas]Doctorado en las fortalezas y dificultades de las redes neuronales. Destaca el hecho de que las redes neuronales no siempre funcionan como pensamos. El inicio de Google puede ser similar a los ataques de imágenes, como hemos visto últimamente.

  • Internet dice:

    ¿La mayor parte del tiempo? Creo que te refieres a algún tiempo.

  • Ted dice:

    Jugamos con el GPS en el coche: intentando engañarlo obedeciendo frases sin sentido que suenan a órdenes. Por ejemplo: “hombre ostra” y “demanda de caballos” se aceptan como “comando de voz”. Es divertido decirle lo que tiene que hacer en una completa tontería.

    • Tim dice:

      Como alguien que investiga en el mismo laboratorio que las personas que investigan el habla, encuentro esto asombroso. Aunque el reconocimiento de voz es un área de investigación “muerta” para los laboratorios pequeños, estoy seguro de que podemos divertirnos con los sistemas creados por investigadores anteriores.

    • Tago Lewin dice:

      Como australiano, disfruté del hecho de que el Asistente de Google responderá a “Está bien, Googz”.

  • proflt dice:

    si los comerciales de televisión pudieran descubrir cómo hacer eso, ¡sería genial! hacer que google y alexa hagan cosas raras sin que nadie lo sepa.

  • Jim B dice:

    Ve a un bar, encuentra al chico más grande y borracho, levántate y dile “¡Ve tú mismo!”

    Después de recuperar la conciencia, ríase de él porque pirateó su red neuronal. Escuchó mal “vuck” como otra cosa.

    • John M Jahmez dice:

      Eminem y Fack … suena un poco a mierda, ¿verdad?
      Oh, escuché la frase “los ingleses gruñen cuando hablan” en varios sitios web (en su mayoría educativos sobre idiomas) y personas que tienen idiomas que suenan complicados … Pensando en chino, japonés, árabe, hindi, sánscrito, gujarat y demasiados para la lista aquí.

      Entonces, ¿dónde está este “gruñido” que no escuchamos? Bueno, supongo que si las personas que hablan un idioma más avanzado en voz alta pueden escuchar algo que un hablante de un idioma menos hablante no escucha, entonces diría que la red neuronal funciona exactamente como se espera.

      PD: La red neuronal no copia un cerebro humano, al igual que extraer 5 neuronas de un cerebro humano y 5 de un cerebro de gato y entrenarlas no simulará ninguno de los cerebros de los que provienen.

      Necesita el valor de las neuronas de un gato menos las redes de neuronas motoras relativamente excesivas para simular el comportamiento cognitivo del gato.
      Necesita el valor humano de las neuronas menos las redes neuronales motoras excesivas para simular el comportamiento cognitivo humano.

      Una razón detrás de las neuronas motoras más pequeñas es porque los motores electrónicos son más fáciles de operar que los músculos y no hay un sistema digestivo o corazón que rastrear, por lo que esos nervios se pueden omitir de la simulación, sin embargo, la razón para no eliminar nada más es permitir la simulación. para adquirir una experiencia neuromedia similar a la de una persona real. Las redes deben estar estructuradas de manera similar para simular varias cámaras químicas.

      • DainBramage dice:

        Tuve la impresión de que incluso las áreas motoras del cerebro se iluminaban durante algunos procesos de pensamiento mientras eran observadas por FMRI. Esto me llevaría a creer que para imitar la mentalidad de un cerebro humano, sería necesario utilizar el valor de las neuronas de todo un cerebro humano. Podría estar equivocado, por supuesto.

    • Matt Cramer dice:

      Preguntarle a cualquier persona de habla alemana por qué vender jarabe de vicks en Alemania con el mismo nombre que usaban en los países de habla inglesa fue una idea terrible. (Consejo: la F y la V suenan mucho más parecidas en alemán que en inglés).

  • Ostraco dice:

    ¿Qué hay de las ilusiones auditivas y las redes neuronales?

    • RoGeorge dice:

      Si generalmente hablamos de ilusiones, esta banda sonora completamente diferente de la NN es un buen ejemplo de una ilusión para una NN profunda.

      Si hablamos de ilusiones _humanas_ en Deep NN, no creo que sean posibles. Por el contrario, con HTM (Memoria temporal jerárquica) NN uno espera el mismo tipo de ilusiones que los humanos.

  • hackadave dice:

    El contexto es muy importante para que las personas reconozcan el habla. Introducir a un borracho en un bar establece un contexto. La voz también usó cosas. Reír y sonreír diciendo “Vuélvete loco” puede no tener una reacción violenta. El estado actual del reconocimiento de voz generalmente carece de habilidades humanas, ya que se enfocan en el reconocimiento de patrones con una comprensión mínima del contexto y, lo que es más importante, con una comprensión extremadamente limitada de cómo funciona el mundo y el comportamiento humano. En mi humilde opinión, la verdadera IA requiere que los sistemas tengan buenos modelos internos del “mundo real” que describan cómo funcionan las cosas. Esto se podría enseñar en parte y aprender en parte, al igual que nosotros los humanos. Descubrimos que insultar a un gran bebedor generalmente no es una buena idea. Aprendemos que el “requisito de caballos” no tiene sentido para el GPS. Nuestros padres nos enseñan muchas cosas sobre el comportamiento humano, etc. En el futuro, los sistemas de IA se construirán con modelos internos del “mundo real” que pueden evolucionar y expandirse con la experiencia. Hasta entonces, los sistemas de reconocimiento de patrones tendrán fallas. Es de esperar que su uso sea limitado si los resultados pudieran ser peligrosos. Imagine tener una planta de energía nuclear activada por voz sin que el sistema comprenda las posibles consecuencias de sus acciones. Curiosamente, una verdadera IA basada en un modelo del mundo real puede ser mejor en tales sistemas, ya que podrían verse privados de las limitaciones humanas como el aburrimiento, la distracción, el pánico, etc.

    • salec dice:

      Es un defecto definitivo que nuestros subordinados artificiales siempre deben prestarnos atención y siempre obedecernos. Necesitamos relajarlos un poco, permitirles simplemente ser sordos, si una combinación de un contexto de discusión y una entrada ruidosa no los entusiasma lo suficiente.

  • RoGeorge dice:

    La IA principal, como en el reconocimiento de voz NN profundo, se basa en las matemáticas. A veces, estos edificios matemáticos (NN profundo) _ parecen_ hacer lo que hace el cerebro, pero lo hacen de manera muy diferente. Por lo tanto, una oración completamente diferente puede engañar al reconocimiento de voz, pero no puede engañar a una persona. Sin embargo, el hombre también puede ser engañado, pero con una palabra que suene “similar” o con contexto.

    Existe otro enfoque para NN, basado en la ingeniería inversa del cerebro humano y su flujo de datos. Hablando aquí de HTM (Memoria de tiempo jerárquica). HTM se desarrolló observando lo que hace un cerebro real (consulte Jeff Hawkins y su libro “On Intelligence”. Si le gusta, hay un marco de código abierto, Numenta. Pruébelo: https://numenta.com/).

    Otros dijeron que “Deep NN” versus HTM es como matemáticas versus física. El primero se basa en la teoría y cómo podría ser un mundo, el segundo se basa en la observación y cómo es el mundo.

    Mi apuesta es que el reconocimiento de voz basado en HTM no engaña a un sonido completamente diferente.

  • Rackne dice:

    Entonces, ¿podríamos esperar un generador automático de letras Misheard basado en dispositivos?

    • Elliot Williams dice:

      Está aquí y se llama Amazon de Alexa. Para más risas, tampoco le gustan los artículos agregados a su lista de compras.

  • echodelta dice:

    Arruinar una hermosa playa.

  • Dax dice:

    Puedo escuchar los mensajes ocultos. Suenan borrosos como una persona que intenta hablar con un cepillo de dientes eléctrico en la boca.

    Es claramente un discurso, y no lleva mucho tiempo conocer las palabras. Simplemente llega a un grupo desconocido.

    • Ostraco dice:

      Laringe electrónica.

Pedro Molina
Pedro Molina

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *