Apprentissage par renforcement

Maîtriser la prise de décision intelligente pour les machines autonomes

Fouad Sabry

EPUB
ca. 4,99
Amazon iTunes Thalia.de Hugendubel Bücher.de ebook.de kobo Osiander Google Books Barnes&Noble bol.com Legimi yourbook.shop Kulturkaufhaus ebooks-center.de
* Affiliatelinks/Werbelinks
Hinweis: Affiliatelinks/Werbelinks
Links auf reinlesen.de sind sogenannte Affiliate-Links. Wenn du auf so einen Affiliate-Link klickst und über diesen Link einkaufst, bekommt reinlesen.de von dem betreffenden Online-Shop oder Anbieter eine Provision. Für dich verändert sich der Preis nicht.

Un Milliard De Personnes Informées [French] img Link Publisher

Naturwissenschaften, Medizin, Informatik, Technik / Technik

Beschreibung

Dans le domaine en évolution rapide de la robotique, l'apprentissage par renforcement est l'une des méthodes les plus prometteuses pour construire des systèmes autonomes. Ce livre, Reinforcement Learning, propose une exploration approfondie de cette technique puissante, guidant les lecteurs à travers ses principes fondamentaux jusqu'à ses dernières avancées. Parfait pour les professionnels, les étudiants diplômés et les passionnés, ce livre offre une approche détaillée mais accessible pour comprendre l'apprentissage par renforcement dans le contexte de la robotique


Apprentissage par renforcement-présente le concept de base de l'apprentissage par renforcement, en soulignant son rôle dans les systèmes autonomes


Processus de décision de Markov-explique le cadre mathématique de la prise de décision dans l'incertitude, un fondement essentiel de l'apprentissage par renforcement


Apprentissage par différence temporelle-explore les méthodes d'apprentissage par l'expérience sans avoir besoin d'un modèle de l'environnement


Équation de Bellman-discute de la relation récursive critique qui sous-tend de nombreux algorithmes d'apprentissage par renforcement


Qlearning-se concentre sur un algorithme d'apprentissage par renforcement hors politique qui apprend des actions optimales sans modèle d'environnement


Bandit multi-bras-couvre un problème d'apprentissage par renforcement plus simple qui modélise la prise de décision dans des environnements incertains


Processus de décision de Markov partiellement observable-développe les processus de décision de Markov traditionnels en incorporant des états cachés


Indice de Gittins-présente une stratégie pour équilibrer l'exploration et l'exploitation dans les problèmes de bandit multi-bras


État–action–récompense–état–action-explore les modèles temporels de l'apprentissage par renforcement qui éclairent les stratégies de prise de décision


Fonction proto-valeur-explore les méthodes d'approximation des fonctions de valeur, contribuant à l'efficacité de l'apprentissage


Construction automatique de fonctions de base-se concentre sur les méthodes automatiques de construction de fonctionnalités pour améliorer l'efficacité de l'apprentissage


Théorie des jeux Meanfield-discute d'un cadre de modélisation des interactions dans les systèmes multi-agents à grande échelle


Recherche de chemin multi-agents-présente des algorithmes permettant de coordonner plusieurs agents pour atteindre efficacement leurs destinations


Sans modèle (apprentissage par renforcement)-présente des méthodes qui ne reposent pas sur un modèle de l'environnement pour l'apprentissage


Apprentissage par renforcement profond-combine l'apprentissage profond et l'apprentissage par renforcement pour gérer des environnements complexes et à haute dimension


Apprentissage par renforcement multi-agents-se concentre sur les stratégies d'apprentissage dans des environnements avec plusieurs agents en interaction


Jeu en soi-explore le concept d'agents apprenant par compétition avec eux-mêmes, un élément essentiel des stratégies d'apprentissage avancées


Optimisation de la politique proximale-présente un algorithme permettant d'optimiser les politiques dans l'apprentissage par renforcement avec une stabilité et des performances améliorées


Dilemme exploration-exploitation-discute du défi fondamental consistant à équilibrer l'exploration de nouvelles stratégies avec l'exploitation de stratégies connues


Apprentissage par renforcement à partir de commentaires humains-examine les méthodes permettant d'améliorer l'apprentissage par renforcement à l'aide de l'apport humain


Apprentissage par imitation-se concentre sur les techniques où les agents apprennent en imitant les actions d'experts humains

Kundenbewertungen

Schlagwörter

Bandit à plusieurs bras, Équation de Bellman, Processus de décision de Markov partiellement obse, Apprentissage des différences temporelles, Apprentissage Q, Processus de décision de Markov, Apprentissage par renforcement