Enfoque sus oídos con el micrófono visual

Un grupo de investigadores del MIT, Microsoft y Adobe logró reproducir sonido solo a través de video. Los sonidos que producimos rebotan en todos los objetos de la habitación y provocan vibraciones microscópicas. El micrófono visual utiliza una cámara de video de alta velocidad y un procesamiento de señal algo ágil para extraer una señal de audio de estas vibraciones. Usando videos de objetos cotidianos como bolsas de bocadillos, plantas, vasos de poliestireno y agua, el equipo pudo reproducir tonos, música y habla. Capturar el sonido de la luz no es del todo nuevo. Los micrófonos láser existen desde hace años. La diferencia aquí es el hecho de que el micrófono visual es un dispositivo completamente pasivo. No se requiere láser ni iluminación especial.

El secreto está en el procesamiento de la señal, que el equipo explica en su artículo SIGGRAPH (enlace pdf). Utilizaron una pirámide orientable compleja junto con filtros ondulados para obtener valores de movimiento de píxeles locales. Estos valores locales se promedian en valor de movimiento global. A partir de este valor de movimiento global, el equipo puede medir el movimiento hasta 1/1000 de un píxel. Mucha resolución para descifrar datos de audio.

La mayor parte de la investigación se realiza con cámaras de video rápidas que están fuera del presupuesto del hacker promedio. Sin embargo, no se desespere, el equipo ha demostrado que se puede hacer la misma magia con las cámaras de consumo, aunque con resultados de menor calidad. El equipo utilizó el obturador del obturador que se encuentra en la mayoría de las cámaras de consumo basadas en imágenes CMOS actuales. Los sensores CMOS con obturadores de desplazamiento capturan imágenes de una en una. Cada fila se puede procesar de forma similar a los fotogramas de la cámara de alta velocidad. Hay algunos espacios entrelazados cuando la cámara aún graba algo. Incluso con la resolución reducida, es fácil elegir "María tenía un cordero" en el video a continuación.

Esta investigación nos está volviendo loco y estamos seguros de que algunas organizaciones la buscarán para su propio uso. Sin embargo, no se quite los sombreros de hojalata. Las hojas de los contenedores demostraron ser uno de los mejores reflectores de sonido.

Gracias [Zach]!

  • nioga dice:

    Lo vi en niebezpiecznik.pl hace al menos 2 días. Viejas noticias.

    • Arrojar dice:

      Vi a alguien en Fark señalar que ya vieron esto en otro sitio ayer, por lo que su comentario es una noticia vieja.
      En serio, ¿la gente no entiende cómo funciona Internet? ¿Crees que Adam Fabio voló para entrevistar a estos chicos unos días después de que tu cena del alfabeto hiciera lo mismo?
      ¿Qué está tratando de lograr al mostrar esto? ¿Se supone que debemos estar impresionados con tus habilidades en línea? ¿El Sr. Fabio está esperando una disculpa por perder su tiempo? ¿Debería eliminarse la publicación ofensiva? Si las noticias viejas son una pérdida de tiempo, ¿por qué perder más tiempo prestándoles atención? ¿Está enviando mensajes a CBS para quejarse de que el accidente de avión que cubren también se informó en NBC hace 35 segundos? ¿Se cuidó un poco su intención (misión cumplida)? Tiene el equivalente moderno de la Biblioteca de Alejandría al alcance de su mano: encuentre un uso mejor para él que solo para escucharlo.

      • fgdghf dice:

        estas loco hermano

        • FooBarBaz dice:

          2012 terminó, es bueno crecer ahora

  • Max Siegieda dice:

    Honestamente, mi medidor BS sonó como loco al ver ese video, pensando que no hay forma de que el ruido visual no estropee la grabación, pero no, usan una cámara con un sistema de objetivos bastante bueno y un sensor que también funciona 25 veces más lento. que la velocidad recomendada.

  • LK dice:

    La capacidad para hacer esto y el estado actual del procesamiento de películas es asombroso, pero ¿no sería un micrófono láser más fácil y económico que la cámara de alta velocidad y el procesador de imágenes? Micrófono láser de bricolaje: http://www.lucidscience.com/pro-laser%20spy%20device-1.aspx

    Y creo que luego extraer conversaciones de videos (normales, no grabados especialmente) no es factible, lo que sería la principal ventaja sobre los micrófonos láser.

    • Franklyn dice:

      Los micrófonos láser necesitan mucho diseño y alineación.

      • Cierto dice:

        Y la noche es mejor que el día - Vea este enlace:

        http://www.lucidscience.com/pro-laser%20spy%20device-6.aspx
        “Como probablemente habrá adivinado, el sistema Laser Spy no funcionará mucho durante el día debido a que las fuentes de luz ambiental compiten con su rayo láser, ¡pero esto es bueno porque los espías reales generalmente trabajan en la oscuridad! "

    • Hirudinea dice:

      Creo que tienen métodos que hacen vibrar la ventana para enmascarar el sonido, o usan dos ventanas donde el espacio vacío del medio elimina el sonido, este sistema vencería a ambos métodos defensivos, así que supongo que compre algo de tela.

      • Adán dice:

        Creo que el dispositivo en el que estás pensando es un vibrador.

      • twdarkflame dice:

        "Dos ventanas donde el espacio vacío intermedio"

        el doble acristalamiento no es suficiente?

    • rasz_pl dice:

      de alguna manera es difícil hacer brillar un puntero láser en el pasado / en el video de youtube

      esta técnica debería permitir que la NSA y otras organizaciones criminales analicen el material de video en busca de pistas audibles. Dependiendo de cómo se vea, puede obtener algo siempre que se haya registrado con un sensor de persiana enrollable (lo que significa todos los teléfonos celulares)

      • luego dice:

        "Usar videocámara de alta velocidad"

        Esto no ayudará a nadie a extraer el sonido de los videos de YouTube.

        • Angus dice:

          O una cámara normal con un sensor de persiana enrollable.

          • Jim dice:

            Aunque no puedo decirlo con certeza sin leer más, sugeriría que, dado que esto depende de pequeñas variaciones de subpíxeles, la compresión aplicada a un video normal publicado en YouTube, etc., considerará los píxeles del objeto de destino sin cambios. y aparecerá solo en fotogramas clave, destruyendo el sonido. Es menos probable que la cámara en un video de este tipo esté montada en un trípode y se sostenga en la mano; la señal más fuerte, además de balancearla, podría ser el pulso de la persona que la sostiene. Sin embargo, sigue siendo un logro interesante e impresionante.

          • cplamb dice:

            En el video lo muestran trabajando con una cámara normal con persiana enrollable.

    • Que no dice:

      Creo que la maldita gente repugnante de la NSA quiere poder ver tus feeds de video existentes y espiar a la gente de verdad, y eso es todo.

  • ejonesss dice:

    ahora los sitios que no tienen reglas de grabación de sonido tendrán que agregar un video a sus reglas.

    ¿Qué podrías sacar de una película?

    Esa podría ser una nueva forma de que Hollywood filtre la película y sobreviva mejor que otros métodos.

    aunque es posible que la marca de agua no deje de grabar o reproducir, permitirá identificar la fuente, por ejemplo, por ejemplo, cada sala dirá su propio número idéntico.

    así es como funcionaría.

    1. Hollywood haría una película.

    2.Alguien hablaría sobre la identidad de cada sala (tal vez miles de películas únicas personificadas en esa sala (salas de proyección digital) la modulación del objeto se podría hacer con el proyector de la sala (tal vez decir cómo modular la sujeción del marco o el ajuste focal o incluso el brillo))).

    • Aaron Lee Kafton dice:

      La cámara pirata estaría en la misma habitación que la banda sonora fuerte, estando expuesta a sus propias vibraciones, por lo que sería casi imposible elegir microvibraciones ocultas en el video original de las introducidas por la segunda grabación.

    • rasz_pl dice:

      que es el teatro ¿Mi abuelo me contó sobre esto?
      Además, solo las personas sin sentido ven las ediciones de CAM.

    • Jim dice:

      Películas con marcas de agua: busque Cinavia.

  • John dice:

    • twdarkflame dice:

      jeje.
      Debo admitir que también pensé en un clip inteligente hace unas semanas cuando el Comité de Inversiones del Senado fue investigado por el comité de investigación del Senado.

  • a3 dice:

    Supongo que esto es útil cuando descargas pornografía que carece de sonido.

    • Aaron Lee Kafton dice:

      ¿La gente no siempre silencia la pornografía? Tienen que vivir solos.

      • Greenaum dice:

        Por supuesto que viven solos. Por eso tienen tiempo y libertad para el pr0n.

  • Sonar dice:

    ¿Podría ser esta una forma de agregar (el original) sonido a las películas mudas? 🙂

    • Cierto dice:

      La velocidad de fotogramas es demasiado baja. La voz humana probablemente ronda los 80 Hz a 1200 Hz. Por tanto, la velocidad de fotogramas debería ser el doble, y ese no es el caso de las películas mudas. Para una mejor recuperación, utilizaron cámaras de alta velocidad para obtener 38.000 fotos por segundo.

      • justicia099 dice:

        ¿Quizás podría interpolar algunos de los datos faltantes, quizás procesando el desenfoque de movimiento que se produce en los fotogramas individuales?

        La salida probablemente sería pequeña, pero aún sería interesante

        • John dice:

          Las películas más antiguas (ignorando los problemas de baja calidad) tienen una velocidad de fotogramas del 0,00075% de la requerida para un rango de sonido completo (40k fotogramas por segundo).

          • Angus dice:

            Apuntaste al 0.075%.

      • rasz_pl dice:

        ¿Te perdiste la parte de una persiana enrollable?
        básicamente obtienes (velocidad de fotogramas de la cámara * resolución vertical de dicha cámara) de muestras

        • Cierto dice:

          ¿Hay una persiana enrollable cuando se usa analógico? No creo que pueda ser, es químico y no se requiere escaneo para generar el efecto.

          • Cierto dice:

            ¡Vaya, lo hay!
            'El' Rolling Shutter 'puede ser mecánico o electrónico.' - https://en.wikipedia.org/wiki/Rolling_shutter
            Y hay una imagen de ejemplo de un coche de carreras Dixi de la década de 1920 que muestra la distorsión aquí:
            https://en.wikipedia.org/wiki/Focal-plane_shutter#Two-curtain_shutters

    • tekkieneet dice:

      Una película es muy ruidosa. Es por eso que las películas (programas de entrevistas) graban todo en un estudio.
      Ahora bien, si pudieras recuperar el sonido de una película muda, sería captar el ruido de una cámara, un director gritando y saber si los actores incluso leen sus diálogos.

    • justicia099 dice:

      Puede ser más fácil programar algo para leer los labios. lol Bueno, es más probable que funcione un poco, de todos modos

      • echodelta dice:

        Esto se hizo con lápices labiales expertos en cosas filmadas en modo documental con el sujeto hablando a una cámara silenciosa. Transcrito por supuesto.
        Al igual que con todos los errores, simplemente haga aparecer la música y sumérjalos en atascos.

  • fl @ c @ dice:

    Esta sería una forma interesante de autenticar productos o monedas ... Si tuviera que fabricar, digamos, un billete de un dólar para que cuando esté expuesto a un sonido de cierta frecuencia resuene en una frecuencia específica y absorba otras ... Esto podría hacerse agregando cualquier material como goma o algo que atenuaría las frecuencias que desea eliminar ... o se podría hacer al revés cuando solo atenúe una cierta frecuencia. Los productos pueden estar empaquetados en materiales que permitan a los fabricantes identificarlos como auténticos ... O tal vez no. . 🙂
    De cualquier manera, sería interesante ver qué materiales reaccionan de qué manera a diferentes tonos, y así sucesivamente.

    • fl @ c @ dice:

      También podría ser interesante considerar la posibilidad de usar esto para identificación. Imagínese una tarjeta bancaria, o una licencia de conducir, que tuviera un chip o algo que la máquina pone en un examen bajo una combinación de tonos con una pequeña cámara que analiza la respuesta de vibración del chip ... y cada persona tiene una combinación ligeramente diferente que permite un identificador único. Solo pensamientos alejados de la cabeza. 🙂

    • danieljlouw dice:

      ¿Qué tan bien se conservan las características de audio de un objeto después de arrugarlo / doblarlo / rasgarlo? No soy un experto, pero ¿no me afecta hacer resonar un trozo de papel al doblarlo?

      • fl @ c @ dice:

        Ese sería un buen punto ... Sí, supongo que ... 🙂 También el desgaste de la factura, probablemente la humedad y los aceites y otros contaminantes ... Hmm ... Aquí está la realidad otra vez ... destruyendo mis sueños Sin embargo, aún podría funcionar para la tarjeta de identificación si el 'chip' estuviera lo suficientemente protegido ... pero dudo que la ventaja supere el esfuerzo ...: /

    • HC dice:

      ¿Qué les sucede a las personas que publican usos disparatados y sin sentido para esta tecnología? Si controla el entorno de grabación y el objeto, haga lo que pueda hacer con esta tecnología, puede mejorar aún más el tamaño del pedido con un micrófono eficaz. Esto es útil cuando no puede usar un micrófono.

  • Soo-Hyun dice:

    Investigación relacionada de algunos de los mismos autores: http://people.csail.mit.edu/mrub/vidmag/

  • mannanj dice:

    excelente investigación de estos investigadores y una idea que me interesa mucho en hacer un truco para el futuro. Hice un artículo en los foros hace unos días sobre aquí:
    http://forums.la-tecnologia.com/viewtopic.php?f=10&t=4755

    Estoy buscando algunos interesados, investigadores, piratas informáticos, algunos con ideas a quienes les gustaría continuar con esto y crear algún tipo de dispositivo conmigo. si está interesado, publique una publicación allí o envíe pm a mi manera !!

    • Que no dice:

      No seas una herramienta repugnante para los fascistas del mundo. Haz algo un poco útil por el lado mejor del planeta.

  • OneShot Willie dice:

    Mi pensamiento inicial fue ¿qué dos palabras al azar le darían la NSA y la CIA a este en su Kit? Voto por RollingShutter ...

    • exit151 dice:

      Y me pregunto por qué Microsoft y Adobe están involucrados en esto ... Kinect Xbox One no está espiando lo suficiente, ¿quieren más datos?

    • BrilaBluJim dice:

      No creo que esas puedan calificar como palabras al azar en este caso.

  • OneShot Willie dice:

    Últimas Noticias de la Electrónica

  • Marvin dice:

    "Los sensores CMOS de persiana enrollable capturan imágenes de una en una".

    No es una gran descripción. La exposición se controla mediante la restauración de píxeles antes del píxel leído. Si la luz del sensor es lo suficientemente brillante, una persiana enrollable reducirá el retraso al orden de una línea.

    En términos de aplicaciones paleoacústicas, ningún director de fotografía o camarógrafo haría esto a propósito durante el curso normal de filmar algo. Las imágenes de 24 fps, por ejemplo, suelen tener como objetivo una exposición de 1/48 (180 grados según el cine), por lo que las cosas se vuelven borrosas en lugar de borrosas.

    • BrilaBluJim dice:

      Eso es lo que pensé: probablemente usaron una velocidad de exposición muy rápida durante las pruebas de exposición del rollo. Y una plataforma extremadamente estable para la cámara. Dudo que esto funcione solo para secuencias de video al azar.

  • sjamaan dice:

    Podrías usar eso para analizar algunas películas antiguas y videos de películas sin sonido para tratar de recuperar lo que sucedió ... incluso a 60 fps de la réflex digital se podían notar las notas ...

  • ERROR_user_ desconocido dice:

    joder más herramientas para los comedores.

Isabella Ortiz
Isabella Ortiz

Deja una respuesta

Tu dirección de correo electrónico no será publicada.