Resulta que los robots también necesitan amor fuerte

Mostrar a los robots comportamientos opuestos puede ser la clave para mejorar su rendimiento, según un estudio realizado por la Universidad del Sur de California. Si bien se ha demostrado una red opuesta probada (GAN), donde dos redes neuronales compiten en un juego, esta es la primera vez que se utilizan usuarios humanos opuestos en el aprendizaje.

El informe fue presentado en la Conferencia Internacional sobre Robots y Sistemas Inteligentes, describiendo el experimento en el que se utilizó el aprendizaje reforzado para entrenar sistemas robóticos para crear un sistema de propósito general. Para la mayoría de los robots, se necesita una gran cantidad de datos de entrenamiento para manipular objetos de forma humana.

Una línea de investigación que ha logrado superar este problema tiene “man in the loop”, en el que el hombre retroalimenta al sistema sobre sus habilidades. Se suponía que la mayoría de los algoritmos eran un ayudante humano colaborador, pero al actuar contra el sistema, el robot puede estar más inclinado a desarrollar resistencia a las complejidades del mundo real.

El experimento realizado involucró a un robot que intentaba agarrar un objeto en una simulación por computadora. El observador humano observa el agarre simulado e intenta alejar el objeto del robot si el agarre tiene éxito. Esto ayuda al robot a percibir agarres débiles y firmes, una idea loca de los investigadores que lograron trabajar. El sistema entrenado con el oponente rechazó los agarres inestables, aprendiendo rápidamente agarres resistentes para diferentes objetos.

Experimentos como estos pueden probar las suposiciones hechas en el aprendizaje de aplicaciones robóticas, lo que lleva a mejores sistemas sometidos a pruebas de estrés y más propensos a funcionar en situaciones del mundo real. Mire la entrevista en el video debajo de la pausa.

[Thanks Qes for the tip!]

  • TM32 dice:

    Esto puede explicar por qué los futuros robots quieren destruir toda la vida humana ... Doy la bienvenida a nuestros nuevos robots gobernantes.

    • Lufo dice:

      "¿Lo harán?"
      Todavía no he estado en el futuro y las predicciones fueron en su mayoría incorrectas ... todavía estoy esperando mi auto volador ...

  • Chris dice:

    Mmm. me recuerda algo. : D

  • ninguno dice:

    Me parece muy obvio y sencillo, aunque siempre es agradable verlo funcionar en la práctica.

    Cada programador probará un sistema en casos de esquina y situaciones posiblemente desactualizadas para ver qué tan robusto es un sistema.

    Primero da una descripción idealmente breve de una solución general, luego trata de desglosarla. La única diferencia es que un sistema de aprendizaje utilizará esa información negativa directamente y un programador tendrá que revisar el modelo manualmente.

    Es muy probable que la clave esté en el momento de una reacción negativa y la elección correcta, qué regalar.

    Una reacción negativa constante impedirá el aprendizaje del sistema, ya que el "ruido negativo" sofocará cualquier señal positiva. En otras palabras: necesitas un maestro inteligente, no un amor duro.

    • RW versión 0.0.1 dice:

      Bien, Yolandi tuvo la idea correcta, Ninja no tanto.

Joel Carrasco
Joel Carrasco

Deja una respuesta

Tu dirección de correo electrónico no será publicada.