Pregúntele a La-Tecnologia: ¿Qué son los representantes sin cambios?

Su tarea es crear un circuito que encienda una bombilla cuando escuche la canción "Mary Had a Little Lamb". Así que proporcionas un micrófono, un amplificador operativo, tu microcontrolador favorito (y un ADC si es necesario) y te pones a trabajar. Probará los datos entrantes y los comparará con un patrón conocido. Cuando consigues un fósforo, enciendes la luz. El primer paso es crear la plantilla. Pero, ¿qué pasa con la creación de la plantilla?

"Oye jefe, ¿qué estilo de canción quieres que encienda la luz? ¿Los niños cantan, piano, qué?"

Tu jefe responde:

"Quiero que la luz brille cada vez que aparece cualquier versión de la canción. Puede ser canto, teclado, guitarra, cualquier instrumento musical o voz en cualquier tecla. Y quiero que funcione incluso si el fondo es mucho ruido ambiental. "

UH oh. Tu trabajo se ha vuelto mucho más difícil. ¿Es siquiera posible? ¿Cómo haces plantillas para cada posible versión de la canción? Perplejo, hablas con tu amigo sobre tu dilema durante el almuerzo, que resulta ser [Jeff Hawkins] - un tipo que ya ha pensado mucho en este problema.

"Bueno, el cerebro resuelve tu rompecabezas fácilmente". [Hawkins] dice con frialdad. “Tu cerebro puede recordar la memoria de esa canción sin importar si es vocal, instrumental en cualquier tono o tono. Y puede captarlo con mucho ruido. "

"¡Sí, pero cómo lo hace!" usted pregunta. “Los patrones de señales eléctricas que ingresan al cerebro deben ser completamente diferentes para las diferentes versiones de la canción, así como los patrones de mi ADC. ¿Cómo mantiene el cerebro los innumerables patrones necesarios para identificar la canción? "

"No ..." [Hawkins] se ríe. "El cerebro no mantiene patrones como ese". El cerebro solo recuerda las partes de la canción que no cambian o no cambian. El cerebro forma lo que llamamos representaciones invariantes de datos del mundo real. "

¡Eureka! Tu rompecabezas está resuelto. Necesita crear un algoritmo que mantenga solo las partes de la canción que no cambian. Estas partes serán las mismas en todas las versiones, vocales o instrumentales en cualquier tono. Habrá estas partes inmutables e inmutables de la canción que estarás buscando para encender la luz. Pero, ¿cómo se logra esto en silicio?

Algunas organizaciones tomaron las ideas de Hawkins y trabajaron en secreto con ellas, con planes ya en marcha en empresas como IBM y organizaciones federales como DARPA para implementar sus ideas en silicio ...

De hecho, las empresas ya están trabajando para implementar [Jeff Hawkin’s] teoría de la inteligencia en sus propios sistemas. Es una teoría complicada que se presenta en su libro - On Intelligence. La formación de representaciones invariantes (RI) es solo el comienzo, y discutiremos otras partes de la teoría en artículos posteriores. Pero por ahora, nos centraremos en cómo formar IR de datos del mundo real en silicio. Simplemente no podemos avanzar con la teoría antes de que se comprenda este elemento central. El problema es que nadie parece saber cómo hacer esto. O si es así, no hablan ¡Ahí es donde entras tú!

Considere esta imagen. Supongamos que se trata de señales en serie que provienen de varios ADC. En el otro extremo del circuito habría diferentes versiones de nuestra canción, con AE representando esas diferentes versiones. Debido a que los datos cambian constantemente, tomamos muestras de 4 señales a la vez para cada versión, que están numeradas del 1 al 4.

A continuación, vemos un patrón común en todas las versiones en los momentos T4, T5 y T6. Si de alguna manera podemos configurar nuestro microcontrolador para que escuche estos tiempos, podemos detectar todas las versiones de la canción. Además, podemos ver otro patrón entre las versiones en los momentos T1, T2 y T3. Este tipo de análisis se puede utilizar para distinguir entre las diferentes versiones. Ambos patrones son representaciones invariables de la canción, un patrón común e inmutable oculto en la niebla de un entorno en constante cambio.

Este es, por supuesto, un ejemplo hipotético. En el mundo real, las señales variarían mucho. La clave es encontrar la parte que no lo hace. Puedes hacerlo ¿Cómo crearía una representación invariante de un evento del mundo real?

  • No Arduino dice:

    Umm, esto no es un truco Will.

    • Brian Benchoff dice:

      Es un truco a día. Si recibe menos de uno al día, puede empezar a quejarse.

      • respuesta dice:

        Tocar.

      • Th3Badwolf dice:

        Indicar, organizar y emparejar.

      • cristiano dice:

        jaja, brilla.

      • cadena oxidada dice:

        Siempre me gustaste.

      • No Arduino dice:

        Dado que interpretamos abiertamente lo que significa un día, elijo la duración del día de la ISS, 93 minutos. Hoy no veo trucos.

        • Brian Benchoff dice:

          Continúa esa actitud y la cambiaremos a un día lunar.

        • hizo dice:

          Podría comenzar a usar esa duración del día si realmente estuviera en la ISS. Hasta entonces, cierra tu funda gruesa.

      • Pusalieth dice:

        ja, booom. De todos modos no puedo soportar el culo de ButArduino. Desde sus puestos en otros.

      • pyroavr dice:

        Suave y terso. Me gusta!

      • FredTheRanger dice:

        Técnicamente es "menos de un truco al día". Las cosas con las que puede contar son "menos". Las cosas con las que no puedes contar son "menos". Por ejemplo, no tiene "menos sal", tiene "menos sal". Sin embargo, tiene "menos granos de sal". : PAG

        • FredTheRanger dice:

          uf. Eso no fue divertido para empezar, luego desnudó mi sarcasmo [pedant] [/pedant] etiquetas fuera.

    • Enrico S. dice:

      Chicos, no alimenten al troll.

  • Th3BadWolf dice:

    Supongo que iré con algo como esto:
    1-Identifique un punto de datos claro como una nota / sonido (Hz) o una combinación de ellos (por ejemplo, DTMF)
    2-Identifique un segundo punto de datos y calcule ΔHz (o Δ?)
    3-Haga esto para un número definido de puntos de datos (por ejemplo, The Hungry Game Whistle tiene 4 notas, por lo que obtenemos Δ1, Δ2 y Δ3)
    4-Aplicar una escala relativa de Δ1 a Δ2, Δ2 a Δ3 y Δ1 a Δ3 para obtener algo en forma de Δ1 = A * Δ2, Δ1 = B * Δ3 y Δ2 = C * Δ3
    5-Estos valores representarían una relación de frecuencia entre notas clave y serían siempre iguales entre sí.
    6-Continúe escaneando las notas entrantes hasta que 3 de ellas seguidas estén en tolerancia de la representación Invariante y ¡listo!

    También se podrían agregar algunos valores de tiempo o cualquier número de variables, ya que la complejidad sería relativa al número de puntos de datos * Atributos de un punto de datos en forma de matriz.

    Así que pasas de una pequeña informática a algo bastante grande según las necesidades y todo lo que tienes que programar es en realidad una representación Invariante.

    TL; DR:
    Representación invariante = valores relativos / proporciones de puntos de datos (hasta donde yo entiendo)

    Este enfoque funcionaría para cualquier variante de una canción, en cualquier octava, siempre que las notas estén dentro de sus rangos esperados.

    La relatividad lo resuelve todo. 😉

    Th3Badwolf

    • Jason Doege dice:

      Básicamente, busque un tono relativo y una medida relativa para identificar una canción. Me pregunto cómo lo hace Soundhound. Silbé una canción (una canción que no tenía silbato) y pudo identificar la canción para mí.

      • Maxwell dice:

        Probablemente de manera similar, (probablemente) solo esté buscando un tono medio que con un silbido sería más alto que la canción normal. Por lo tanto, aumenta los tonos que está buscando y luego puede identificarlos, según el tiempo entre notas más probable.

      • Ingenuo de patas azules dice:

        De repente quiero ver cómo estos servicios tratan la música como fugas clásicas que básicamente tienen múltiples melodías independientes. ¿Puedes simplemente silbar una de las voces o tienes que darte un contrapunto a ti mismo?

        • Marcos dice:

          Es un libro blanco escrito por algunos ingenieros de Shazam. http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf

    • hojo dice:

      Asumiría que hacer una FFT del "ruido", encontrar sus "puntos de datos" y luego aplicar su enfoque delta a resultados de magnitud similar ayudaría. (divulgación completa: no tengo idea de cómo implementar FFT)

    • Robar dice:

      Sin embargo, tienes problemas cuando tienes la misma melodía pero con letras diferentes. Su método parece describir una función de reducción para mapear la melodía. Por ejemplo, el himno de la iglesia "Glorious Things of You Spoken" comparte la melodía de una composición clásica de Haydn. Haydn puso esa melodía con letras que se convertirían en "Deutschlandleid" (el himno nacional alemán). En algunos casos, la gente piensa en "Deutschlandleid" con el título bastardo "Deutschland Uber Alles" y lo asocia con los nazis (que lo usaron mucho durante un tiempo). Entonces, en esa situación, tienes una melodía con dos letras con tres asociaciones posibles (y * muy * diferentes). Su método encontrará algunos problemas allí. Un escenario similar con "'O Sole Mio" ... una ópera en un uso de la melodía pero luego Elvis grabó "Is Now or Never" de acuerdo con la misma melodía.

      Debe profundizar varias capas con su método, cada capa más compleja que la anterior, para resolver las diferencias en tal situación que he descrito, y esa es solo una de las posibles variables. Alternativamente, cada melodía podría tratarse como una sola y, después de la revocación, los resultados incluirían una lista de las posibles variantes. Pero eso es bastante insatisfactorio.

      Es un tema interesante a considerar, seguro ...

  • Oliver dice:

    ¿Shazam y los gustos no funcionan teóricamente también? ¿La marca de agua auditiva o algo parecido?

  • atomsoft dice:

    ¿Por qué no calcular / medir los tiempos de inactividad o el tono bajo en comparación con los anteriores si hay ruido?

  • Rusta Shackleford dice:

    Las partes que no han cambiado son las duraciones relativas de las notas y los intervalos de tono relativos entre las notas. Veo muchas transformaciones de Fourier en su futuro ...

  • comer dice:

    Bueno, primero empezaría a leer cómo lo hace Shazam 😉
    http://www.royvanrijn.com/blog/2010/06/creating-shazam-in-java/

    • miserable dice:

      Eso es genial.

    • JIm B dice:

      Shazam no acumula la versión A de una canción con la versión B de una canción. De hecho, Shazam difiere entre, por ejemplo, las versiones en vivo y en estudio de Shazam canción, o la grabación original y la versión del cover. Entonces, aunque estoy seguro de que encuentra tales invariantes, no se trata de ese artículo.

  • Código Rojo dice:

    Tienes que ir más alto. No creo que el problema se resuelva fácilmente, si miras las señales sin procesar, necesitas más abstracción. Piense en cómo lo hace su cerebro. Cambios relativos de tono, tono y volumen en un patrón. Más que simples tonos / notas, reconoce que un conjunto de estos en serie con cualidades de sonido similares representa una canción, por lo que puede separarla del ruido de fondo. O al menos eso crees. Tal vez su cerebro haya escuchado muchas versiones separadas y esté usando todas estas versiones similares para reconocer una nueva versión. Piense en lo difícil que puede ser entender a un compañero de trabajo con acento, pero con el tiempo se vuelve más fácil a medida que aprende nuevas versiones de palabras que ya conoce.

    Creo que podría dedicar todo un marco de programación para resolver este tipo de problemas, y probablemente lo necesitaría.

  • comer dice:

    Por cierto: es posible que también desee leer una actualización de Roys, ya que toca el lado legal de las cosas.
    http://www.royvanrijn.com/blog/2010/07/patent-infringement/

    • Th3Badwolf dice:

      Esta es la mejor censura.

      Desarrollar un código que logre el mismo resultado que Shazam no significa que infrinja una patente. Si es así, podría patentar “ondas sonoras como medio” y atacar cualquier onda sonora que produzca sobre la base de los falsos derechos de autor.

      En segundo lugar, los derechos de autor se crearon para proclamar el progreso tecnológico al dar los recursos a las personas mediante la creación de algo nuevo para sobrevivir mientras impulsan el concepto. Un punto muy importante también es que los derechos de autor se basan en industrias "con fines de lucro" y, como tal, alguien entiende cómo hacer que una computadora reconozca la música por el placer del desafío, no para cometer infracciones de derechos de autor.

      Quiero que la FES tome ese caso y lo lleve a los tribunales.

  • ruben dice:

    Tu problema es muy similar al del reconocimiento de voz, donde intentas reconocer palabras sin importar la velocidad, el tono, etc.
    El reconocimiento oral (y, de hecho, la mayor parte del reconocimiento de patrones en datos consecutivos) generalmente se realiza mediante el uso de modelos ocultos de Markov (HMM).
    Básicamente, el HMM consiste en una Cadena de Markov (MC) que no es directamente observable (oculta) y un conjunto de Observaciones que están vinculadas a un nodo en el MC.
    Lo que está tratando de hacer es determinar el estado en el que es más probable que se encuentre su sistema basándose en las observaciones que ha realizado hasta ahora. Necesitas conjuntos de probabilidades. Una son las probabilidades de transición del MC y la otra son las probabilidades condicionales de las observaciones. Estas probabilidades se aprenden a partir de ejemplos.
    HMM es realmente un tipo especial de Red Bajzia.

    En otras palabras:
    el MC podría ser lo que llamas tu IR, mientras que las Muestras de tu Canción serían la Observación.
    Resumen:
    Los HMM son el estándar real para tal problema y se pueden implementar con bastante eficacia.
    Definitivamente necesitas pensar en eso.

  • freaknik dice:

    Por mucho que me encanta jugar con silicona, creo que te refieres a "silicona". Aunque podría estar equivocado;)

    • furioso dice:

      Eso también me alcanzó

  • Duwogg dice:

    Bueno, tu cerebro solo lo hace con miles de millones de neuronas. Y su teoría hasta ahora. No quiere decir que en realidad no sea así como nuestro cerebro maneja tales cosas. Pero la IA, tan inteligente como es, no está tan cerca como el cerebro humano, o incluso el cerebro de un ratón ... todavía.
    La detección de patrones complejos en el ruido ocurre durante años. Esto simplemente facilita el proceso al ceñirse a los datos sin cambios para que no necesite tanto
    patrones de referencia.

    Ahora encienda señales de video en lugar de sonido y objetos en lugar de patrones ...

    • Duwogg dice:

      almacenar tantas plantillas de referencia ... lo siento

  • mariposa dice:

    Hawkins es conocido en una comunidad de aprendizaje automático como una puta de relaciones públicas: no tiene resultados reales para probar sus teorías.

    Es como si Elon Musk se hubiera pasado la última década hablando de cómo funcionaban los motores eléctricos, pero nunca construyó un automóvil.

  • el gancho dice:

    TERCOM tenía una idea bastante buena al respecto.

    En el mundo real, solo obtenemos aproximaciones. Administro un robot IRC que alguien escribió que solo conoce el algoritmo de la cadena de Markov, pero todos los días aparece algo sorprendentemente astuto. Es bastante extraño y sorprende el fantasma en la máquina.

    Parece que está buscando una meta-solución. - Hay más de una razón para los filósofos hambrientos, por lo que Kurt Gödel murió.

    ¿Quizás cuando el sistema parece fallar, simplemente no descubrió por qué hizo lo correcto?

    La gente apuesta contra ciertas pérdidas y juega a lo seguro por pequeñas ganancias. A menudo no somos conscientes de si nos comportamos de forma racional o irracional.

  • Adam Fabio dice:

    Una cosa que Will no mencionó es que [Jeff’s] El estudio del cerebro fue un truco en sí mismo. Se enamoró del funcionamiento interno del cerebro en 1979. Después de no poder adquirir Intel (su entonces empleador) con su investigación, intentó unirse al laboratorio de medios del MIT. Nuevamente fue rechazado. [Jeff] luego decidió intentar utilizar su carrera en la industria informática para financiar su pasión por la mente. Teniendo en cuenta lo bueno que fue PalmOS en su mejor momento, diría que hizo un buen trabajo.

    • dinre dice:

      ¿Cómo? En ambos puntos.

  • vonskippy dice:

    Puede ser más fácil dejar la luz encendida las 24 horas del día, los 7 días de la semana.

  • Chris C. dice:

    Para hacerlo lo suficientemente fuerte, debe utilizar varios enfoques:

    1) Envíe una muestra a un servicio de auditoría, como Gracenote, Echoprint, etc. Quizás varios a la vez. Busque "Mary Had a Little Lamb" en el título de la canción. Aquí encontrará versiones de la canción conocidas por los servicios de identificación. Aunque puede depender de la calidad de la audición si usa un micrófono abierto para grabar el sonido.

    2) Compatibilidad borrosa de relaciones tonales / temporales relativas. Estoy seguro de que hay algunos servicios y artes anteriores que ya lo están haciendo. Por ejemplo, ¿no existe un sitio web donde puedas silbar una melodía y averiguar qué es? ¿O aplaudir el ritmo? Cosas como esta es posible que encuentres algunas versiones desconocidas de la canción.

    3) Por supuesto, es posible que una banda de rock progresivo le dé a María el tratamiento, despojándose por completo de las relaciones tono / tempo hasta el punto en que ya no puedan ser reconocidas por el # 2. Y si es una canción nueva / inusual, también # 1 no lo atrapará. El último recurso es el reconocimiento de voz. Escuche textos específicos. El filtrado previo de algunos de los contenidos que no son de voz ayudaría primero. En el caso de que solo se puedan seleccionar unas pocas palabras, aún puede examinarlas en busca de relaciones temporales relativas. También pueden resultar útiles enfoques más especiales. Por ejemplo, detectando solo sonidos vocales por análisis cepstral, luego realizando las mismas pruebas en relaciones temporales; en lugar de tratar de reconocer palabras completas.

    4) Y finalmente combinar todos los datos recopilados por algún sistema pesado.

    Por supuesto, todo es más fácil decirlo que hacerlo. Por lo tanto, es importante utilizar los recursos existentes tanto como sea posible, como sugerí anteriormente.

    Una vez tuve un sueño muy detallado y extraño en el que veía un posible futuro de la IA. Relacionando y ampliando lo que he visto al tema en consideración:

    Habrá un repositorio central de módulos de código que comparten una API y un lenguaje comunes (o al menos se compilan en el mismo lenguaje intermedio). La gente escribirá módulos para realizar tareas específicas y los cargará. Algunos serán de código abierto, por lo que otros podrían escribir módulos existentes en un intento por mejorar el rendimiento y cargarlos como una versión diferente.

    Y si desea que su dispositivo reconozca cuándo se está reproduciendo una canción específica, simplemente se comunicará con el repositorio y descargará algunos módulos de "reconocimiento de música". Cada uno de los cuales recibe el sonido y devuelve un resultado y un porcentaje de certeza que será agregado y presentado al usuario. En ocasiones, los usuarios pueden reaccionar al dispositivo indicándole si es correcto o incorrecto; que se carga en el repositorio junto con el resultado de todos los módulos, generando estadísticas confiables para cada módulo y haciendo referencias cruzadas sobre qué módulos generaron resultados similares, recursos (memoria / CPU) necesarios para producir el resultado, etc.

    El dispositivo comprobará periódicamente los módulos y las estadísticas disponibles. Si tiene suficientes recursos, descargará más módulos; normalmente de alta calidad, pero a veces prueba con otros también. Si los recursos se agotan, eliminará los módulos que se malinterpretan con demasiada frecuencia o que producen resultados similares a los de otro módulo en ejecución y, por lo tanto, son redundantes.

    Los módulos deben ser lo más granulares posible. Por ejemplo, un módulo de "reconocimiento de música" puede requerir "detección de voz". En ese caso, puede probar experimentalmente cualquier detector vocal disponible, guardando estadísticas particulares sobre qué tan bien funcionó cada combinación. Tal vez no todo el mundo tenga API compatibles, pero la gente también podría escribir módulos que no hagan nada que se traduzca entre API independientes, aumentando el número de combinaciones utilizables.

    Es similar al concepto de RobotWar, extendido a objetos más útiles. Pero hay más.

    Si un dispositivo puede asignar algunos recursos de respaldo, puede intentar generar sus propios módulos automáticamente, utilizando redes neuronales, algoritmos genéticos u otros métodos aún por inventar. Si, por ejemplo, se crea un "detector de voz" prometedor, automáticamente cargará el módulo en el repositorio. (De hecho, probablemente sería una tarea mucho más pequeña y granulada que es solo parte de la detección de voz). Otros dispositivos pueden usarlo o continuar transformándolo en paralelo masivo, recargando una nueva versión si se realiza una mejora. . A medida que pase el tiempo, las soluciones generadas por máquinas crecerán gradualmente y la verdadera IA comenzará a nacer.

    • el gancho dice:

      "reconocimiento" de búsqueda adecuada

      Github también es bueno, pero la búsqueda no es tan estática y muchos proyectos carecen de herramientas automáticas / cmake / qmake.

      • Chris C. dice:

        ¿Tiene un enlace a Internet? Recuerde que Linux tiene menos del 2% del uso de escritorio. Quizás más arriba aquí, pero todavía no estoy en ese grupo. Me pregunto a qué te refieres, pero no hasta que se cargue el sistema operativo para averiguarlo.

        • el gancho dice:

          Siento haber respondido tan tarde.

          Era una referencia general a la gestión de paquetes. Describiste algo en lo que la gente ha estado trabajando durante mucho tiempo. Tal vez fue una vasta visión original como la tuya ...

  • NBM dice:

    Lamento decir que este tipo está equivocado. Veo un buen martillo, pero no todo es un clavo. Es bueno mirar los problemas de diferentes maneras, pero esta teoría de la mente no es la final / juego completo. Decir que los robots como plataforma para la inteligencia no es práctico es un poco miope. La mejor noticia para mí de este artículo es que mi trabajo permanece sin descubrir ... 🙂 Al menos no afirma que la mente sea un conjunto de patrones como Kurzweil (¡¡ese tipo es LOON !!). Rodney Brooks estaba más cerca, pero no creo que supiera exactamente por qué o cómo estaba tan cerca ...

  • toodlestech dice:

    ¡Buena publicación! Definitivamente compraré el libro.

  • icanhazadd dice:

    Más como esto por favor 🙂

  • Pusalieth dice:

    Esto, creo, es mucho más difícil de lo que incluso esto distingue. El cerebro también almacena información en muchos lugares y secuencias del original. Continuando con el ejemplo musical, cada parte del cerebro se activa cuando se activa una neurona, lógica, imaginología, audición, olfato, etc. Por mucha información que tenga el almacenamiento neuronal original es la información que se realiza, con el mismo nivel de enlace químico. La razón por la que la basura entra y sale es más cierto de lo que mucha gente sabe, porque la mente consciente es una tecnología asombrosa que se implementa de manera increíblemente compleja y no creo que lo entendamos nunca. Siempre me ha gustado la cita: "Si el cerebro fuera lo suficientemente simple de entender, entonces seríamos fáciles de entender". Una cita perfecta, y además de una comparación, la física se ha estudiado desde el principio de los tiempos, solo por arte de magia, pero la gente aún buscaba entenderla, y por eso la física es el campo más avanzado de la ciencia, sin embargo nosotros entendemos solo tanto sobre el universo ahora como cuando empezamos. Considérelo, ya sea que dé un paso hacia el infinito o un millón, está igualmente lejos del final. Para mí, también, esta es la mente, cuanto más nos acercamos a la comprensión, más compleja y avanzada se vuelve, lo que aumenta exponencialmente la cantidad de comprensión necesaria. Aunque cosas buenas

  • Trui dice:

    Nadie dijo que la luz tuviera que apagarse, por lo que mi solución sería dejarla encendida permanentemente.

  • John dice:

    ¡Oh, mira, anuncio por libro! Me pregunto cuánto dinero aporta cada clic de Amazon. Al menos ustedes intentaron crear un artículo ... Alguien se siente culpable por vender. ¿Tienes que hacer crecer esa marca, y realmente quién es una marca más grande en el movimiento de creadores que La-Tecnologia?

    • Brian Benchoff dice:

      Eso es una completa mierda. Nunca comenzaríamos a deslizarnos por la pendiente editorial para monetizar los enlaces de Amazon o revisar libros por una tarifa. Somos La-Tecnologia, no el Washington Post ni el New York Times.

  • Hirudinea dice:

    Creo que Vonskippy y Trui están en el camino correcto, pero necesitamos algo más sutil, como cuando el circuito escucha algo que suena como un discurso / canción humana, dice "¿Fue 'Mary tenía un cordero'?" Seleccionar la respuesta del usuario de "Sí" encendería la luz, y cumple con los parámetros de la tarea. Entonces, ¿cuándo recibiré mi beca?

  • Guerrero de Okian dice:

    He estado trabajando en esto como mi trabajo diario de forma continua durante los últimos 7 años.

    El problema es tremendamente complejo y abstracto, y nada se puede resolver en unos minutos de reflexión sobre representaciones invariantes.

    Para darte una idea de la complejidad, imagina la construcción de un programa de computadora para aprender y jugar cualquier juego de mesa (ajedrez, damas, go-moku o cualquier otra cosa) sin un conocimiento inicial del juego. Hasta donde yo sé, no hay circuitos neuronales en el cerebro que sean específicos del ajedrez, las damas o cualquier otro juego. El algoritmo del cerebro es universal: se aplica a * cualquier * juego.

    Si eso no es suficiente, tenga en cuenta que el juego se puede entregar en cualquier formato. Las descripciones de los tableros de ajedrez podrían transmitirse como un entramado de enteros de 8 × 8, donde cada posición del entramado puede ser un entero 0 = vacío, 1 = peón, 2 = torre, 3 = caballo, etc.

    Debido a que el algoritmo no tiene información incorporada sobre el juego, tampoco tiene información sobre el * formato descriptivo * de la información del juego. En el ejemplo anterior, el programa no sabe si 1 es un peón o 3 es un peón, y cuando se les da la información de la tabla, no sabe en qué orden se enumeran las casillas. Podría ser de izquierda a derecha arriba-abajo, o podría ser de abajo-arriba-de izquierda a derecha, o podría alternarse (de izquierda a derecha para la fila superior, de derecha a izquierda para la siguiente, y así sucesivamente), o hacia afuera en (fila superior, columna derecha, fila inferior, columna izquierda, luego muévase 1 cuadrado).

    Siempre es el * mismo * formato, pero el programa no sabe cuál es ese formato.

    Y de acuerdo con la representación invariante, tenga en cuenta que puede escribir su nombre con un bolígrafo en la mano, o sostenido en los dedos de los pies, o sostenido en la boca, o pegado al codo, o sobresaliendo de su cadera. Puede escribir su nombre en la nieve sin usar las manos.

    Nunca ha practicado * ninguno * de estos modos de salida, sin embargo, puede hacerlo reconociblemente bien en el primer intento. Imagine programar un robot para traducir cualquier acción que aprenda en un modo de entrada a cualquier modo de salida.

    Y podemos reconocer una canción cantada más lentamente, más rápidamente, en un tono diferente o (según la razón) con un tempo cambiante y un tono diferente.

    Podemos reconocer una canción entre 2 canciones reproducidas al mismo tiempo.

    Resolver esto requiere conocimientos de teoría computacional, teoría de la información, [really high-end concepts in] teoría de la probabilidad, y requiere una solución a la [currently unsolved] Problema con la "mezcla de gaussies".

    Y para que conste, Jeff comete algunos errores demostrables. Para tomar un ejemplo concreto, sus simulaciones de columna cortical utilizan una distancia euclidiana mínima para seleccionar la compatibilidad de patrón más probable. No apoya esta elección con evidencia o prueba matemática, y resulta ser una elección incorrecta. La función correcta "distancia compatible" se puede deducir de los primeros principios. Ésta es una de las razones por las que los resultados de su software empresarial son lujosos y ruidosos.

    Se dice que los ingenieros usan sus herramientas para construir algo y los científicos crean nuevas herramientas. Esto es real en el ámbito de la investigación teórica, y ninguna aplicación de herramientas conocidas que alguien sepa lo resolverá.

    • el gancho dice:

      Los cerebros, sin embargo, se optimizan muy bien, debido a cómo las redes neuronales hacen lo suyo. El nuevo chip cerebral de IBM podría cambiar lo que ha asumido durante los últimos 7 años ...

      • NBM dice:

        ... Creo que el chip tiene sus usos, pero recrear la mente en silicio no es uno de ellos. Creo que es una estupidez intentar modelar el cerebro con silicio (neuronal, símbolo, etc.). Los retrasos en la difusión, los cambios químicos, estas cosas y cómo afectan la mente dependen de la mentalidad: aspectos biológicos, electroquímicos y cercanos. Debe captarse la naturaleza de la mente (lo que hace en un nivel apropiado de abstracción, donde un entorno físico se abstrae de la función), no su forma funcional explícita. La vida siliconizada nunca puede ser un clon uno a uno de la vida biológica, simplemente no es posible. En esto, la vida es el atributo común que plantea la pregunta, "¿Qué ES la vida?". Entonces, uno se enfrenta a una pregunta que parece haber atormentado siempre al hombre. Cualquier pensamiento sobre esto será muy teórico, pero no necesariamente erróneo. La parte más difícil pasa de la teoría al ejemplo funcional. En términos de capacidades de hardware, creo que estamos progresando más de lo que muchos piensan. Encuentro que esto no es diferente de lo que ciertamente han sido muchos casos de supervivencia en la raíz antigua de la que evolucionó la vida, con todo el potencial de sus primos, esperando que se revele ese atributo clave, el atributo que permitió la transición de la vida.

        • el gancho dice:

          Siento haber respondido tan tarde.

          Usted escribe bien.

          ¡Buena suerte!

  • NewCommentor1283 dice:

    El silicio y la grasa tienen puntos fuertes y débiles muy diferentes.

    sillicon es muy débil para encontrar patrones, exactamente lo que hacemos aquí
    pero es muy dificil engañar / engañar

    grasa por otro lado,
    MUY bueno reconocer patteros!
    simplemente extremadamente fácil de engañar / engañar.

    PD: "espeso" como en los arándanos,
    células cerebrales que están programadas aleatoriamente para funcionar como una unidad (generalmente)

    • NewCommentor1283 dice:

      "Combinación de los dos"

      alguna pista del pasado / futuro lolz

  • tz2026 dice:

    Piense en OCR. Las letras son formas, curvas, líneas, vértices. Pueden ser anchos o finos, negrita, cursiva ...
    Ahora imagina un espectro de sonido. Eso tendrá algunas formas que seguirán siendo las mismas de bajo a soprano, de largo a presto.

  • Cobarde anónimo dice:

    Un estudio de los diccionarios de temas musicales en forma de libro, de la época en que las computadoras de uso general eran miniaturizadas, económicas, de fácil acceso y fáciles de usar, puede proporcionar pistas para resolver el problema: se publicó el Diccionario de Temas Musicales de Sam Morgenstern y Harold Barlow. en 1950, y The Dictionary of Musical Themes Melodies and Musical Subjects de Denys Parsons se publicó en 1975.

    Ambos diccionarios utilizan métodos que ignoran las firmas de claves, firmas de tiempo y una medida para generar claves de búsqueda. El primero requiere una transposición a C (mayor o menor), y el segundo inventa un método que reemplaza el conocimiento musical necesario para transponer por arriba, abajo y repetición. Al igual que con cualquier función de piratería, es posible que diferentes temas parezcan idénticos después de dicho procesamiento.

  • JAS II dice:

    Acabo de terminar de leer el libro hoy. Estuvo bien. Juego con redes neuronales y bocetos simples de IA y principalmente busco nuevas ideas e inspiración. Realmente no lo encontré aquí. Su gran idea es que la predicción es la esencia de la inteligencia. Él enfatiza la importancia de la recursividad, el tiempo y la similitud del procesamiento de la gestión a través de los sentidos. Sugiere que las redes de memoria autoasociadas están mucho más cerca de la función cerebral real que las redes anteriores. Nada revolucionario ahí. Sentí que comenzó diciendo, "no nos perdamos en los detalles", y luego nos perdamos en los detalles. Sin embargo, aprecio su actitud humilde. Kurzweil siempre me parece un poco arrogante. Estoy de acuerdo con NBM en que la columna cortical como reconocimiento de patrones no parece del todo precisa. El modelo de predicción de Hawkins tiene más sentido para mí.

  • Dan dice:

    Recuerdo haber escuchado que la mayoría de las canciones se pueden identificar simplemente por la secuencia de tonos iguales / arriba / abajo si se les da, veinte 20 notas, ignorando por completo el tiempo y el tamaño de los tonos. Sin embargo, no estoy seguro de a qué conjuntos de canciones se aplica esto; Hace unos 20 años escuché esto.

  • Dan dice:

    Notas cuantitativas (ya sea que se toquen en un instrumento o se canten)
    Ahora puedes elegir períodos.
    1,1,1,1 / 1,1,2 María tenía un cordero.
    Crotchet, crochet crochet crochet crochet crochet crochet semi brief.

    El tono no necesita ser fijo, pero tiene una entonación clara entre notas. -que se puede volver a medir.

    El mayor problema realmente es cuánto probar, p. Ej. ¿Si toco tan lentamente las notas duran un minuto a la vez? Debe haber alguien cortado ...

    Esta es la razón por la que la mayoría de x debe realizar y en cualquier circunstancia, por lo general, es imposible o fácilmente se llama falla. (¿Está destinado a encenderse con esas palabras monótonas y si canto en voz baja junto a un martillo?)

Victoria Prieto
Victoria Prieto

Deja una respuesta

Tu dirección de correo electrónico no será publicada.