La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Least Absolute Policy Iteration--A Robust Approach to Value Function Approximation Itération de politique la moins absolue - Une approche robuste de l'approximation de la fonction de valeur

Masashi SUGIYAMA, Hirotaka HACHIYA, Hisashi KASHIMA, Tetsuro MORIMURA

  • Vues en texte intégral

    3

  • Citer

Résumé:

L'itération de la politique des moindres carrés est une méthode d'apprentissage par renforcement utile en robotique en raison de son efficacité informatique. Cependant, il tend à être sensible aux valeurs aberrantes des récompenses observées. Dans cet article, nous proposons une méthode alternative qui utilise la perte absolue pour améliorer la robustesse et la fiabilité. La méthode proposée est formulée comme un problème de programmation linéaire qui peut être résolu efficacement par un logiciel d'optimisation standard, de sorte que l'avantage informatique n'est pas sacrifié au profit d'un gain de robustesse et de fiabilité. Nous démontrons l'utilité de l'approche proposée à travers une tâche de contrôle de robot simulée.

Publication
IEICE TRANSACTIONS on Information Vol.E93-D No.9 pp.2555-2565
Date de publication
2010/09/01
Publicisé
ISSN en ligne
1745-1361
DOI
10.1587/transinf.E93.D.2555
Type de manuscrit
PAPER
Catégories
Intelligence artificielle, exploration de données

Auteurs

Mots-clés

Table des matières