Project PID2023-147392NB-I00 TYRELL
Tiempo de acción variable en el aprendizaje por refuerzo para robots.
Funder: MINISTERIO DE CIENCIA E INNOVACION
Call: (MINISTERIO DE CIENCIA E INNOVACION)
Of National scope.
Esta propuesta está orientada a generar nuevo conocimiento científico en un aspecto fundamental del aprendizaje por refuerzo (RL) que es habitualmente ignorado: el tiempo empleado en cada paso de aprendizaje, y, más concretamente, los efectos que produce la variación de dicho tiempo cuando el método de RL se aplica a un robot para aprender una tarea o habilidad. La inmensa mayoría de algoritmos de RL usan un tiempo de acción predeterminado de forma heurística dentro del formalismo de los procesos de decisión de Markov (MDP), o bien consideran un formalismo de tiempo continuo; sin embargo, un robot implementa este tipo de aprendizaje mediante dispositivos computacionales, los cuales no pueden tratar de manera natural con tiempo continuo; nuestra hipótesis es que, tratando el paso de tiempo como discreto pero de naturaleza variable, y permitiendo que sea modelado, estimado, predicho y controlado, se pueden conseguir mejores resultados en el aprendizaje de una diversidad de tareas robóticas. Además, casi todas las aplicaciones actuales del RL a robots recogidas en la literatura científica se concentran en aprender una sola tarea/habilidad para una clase determinada de robot y usando un algoritmo de RL concreto. En esta propuesta pretendemos ampliar la perspectiva en esos tres ejes: estudiaremos tanto robots manipuladores como móviles, varias tareas/habilidades simples pero representativas de las operaciones que éstos pueden realizar, y un número también representativo de métodos de RL que cubra los ejes taxonómicos más importantes. Para garantizar la viabilidad del proyecto, utilizaremos metodologías como la paralelización de código, la simulación físicamente realista de robots y entornos, la computación de alta prestaciones (provista por el Instituto Universitario de Investigación en Ingeniería Mecatrónica y Sistemas Ciberfísicos al que pertenecemos) y el diseño de experimentos. Por lo que sabemos los miembros del equipo, la hipótesis que proponemos, desde esta perspectiva multidimensional, no ha sido aún estudiada por la comunidad científica de forma consistente y clara, particularmente cuando se aplica en el ámbito de la Robótica. El equipo de investigación tiene larga experiencia en todos los asuntos involucrados en la propuesta: toma de decisiones para robots, modelado del tiempo en sistemas robóticos, robótica probabilística, RL aplicado al aprendizaje de tareas y habilidades robóticas, análisis estadísticos multifactoriales, paralelización de algoritmos de toma de decisiones e ingeniería del software robótico. Además, trabajan de forma continua y activa con una diversidad de robots, han desarrollado previamente software robótico y de simulación, en particular para RL, y disponen de varios entornos reales donde llevar a cabo los experimentos. Los miembros del equipo de investigación colaboran en otros proyectos y publicaciones científicas de forma habitual desde principios de los 2000 y tienen capacidad contrastada de formación de nuevos doctores, que posteriormente han continuado sus carreras en centros de investigación de prestigio internacional o en compañías privadas líderes en sus sectores. Asimismo, los equipos de esta propuesta pertenecen a 3 instituciones diferentes de la Unión Europea (Francia, Suecia, España), por lo que su trabajo contribuirá al fortalecimiento de esas colaboraciones con grupos de otros países y creará nuevas oportunidades de internacionalizar su investigación.