编程知识 cdmana.com

Principes fondamentaux de l'apprentissage automatique (deuxième édition) Traduction chapitre 17 apprentissage intensif

Introduction

Ce chapitre présente l'apprentissage intensif , C'est un domaine riche en apprentissage automatique , Et la théorie du contrôle 、 L'optimisation est liée aux sciences cognitives . L'apprentissage intensif fait référence à la recherche sur la planification et l'apprentissage lorsque les apprenants interagissent activement avec l'environnement pour atteindre des objectifs précis. . Cette interaction active démontre la terminologie utilisée pour désigner les agents de l'apprenant. . L'atteinte des objectifs de l'Agence est habituellement mesurée par les récompenses qu'elle reçoit de son environnement et cherche à maximiser les récompenses. .

Nous commençons par un scénario général d'apprentissage intensif , Ensuite, le processus décisionnel de Markov est introduit. ( M D P s ) (MDPs) Modèle, Largement utilisé dans ce domaine , Et des concepts de base comme les politiques ou les valeurs politiques associées au modèle . Le reste de ce chapitre présente plusieurs algorithmes de programmation , Il correspond au cas d'un modèle d'environnement connu Proxy , Puis une série d'algorithmes d'apprentissage pour des cas plus généraux de modèles inconnus

17.1 Scénarios d'apprentissage

Les scénarios généraux d'apprentissage intensif sont présentés dans la figure ci - dessous. 17.1Comme indiqué. Contrairement aux scénarios d'apprentissage supervisé examinés dans les chapitres précédents , Les apprenants ici ne reçoivent pas passivement un ensemble de données marqué .Au contraire., Il interagit avec l'environnement , Collecte d'informations par le biais d'un processus d'action . En réponse à une action , L'apprenant ou l'agent reçoit deux types d'information : Son état actuel dans l'environnement , Et des récompenses de valeur réelle spécifiques à la tâche et à ses objectifs correspondants .

L'objectif de l'agent est de maximiser ses récompenses , Afin de déterminer la meilleure ligne de conduite ou stratégie pour atteindre cet objectif . Et pourtant, L'information qu'il reçoit de son environnement n'est qu'une récompense immédiate pour l'action qu'il vient de prendre. . L'environnement ne fournit pas de rétroaction incitative future ou à long terme . Un aspect important de l'apprentissage intensif consiste à envisager des récompenses ou des pénalités pour retard. . Les agents sont confrontés à un dilemme entre explorer des situations et des actions inconnues pour obtenir plus d'information sur l'environnement et les récompenses et utiliser l'information recueillie pour optimiser leurs récompenses. . Il s'agit d'un compromis inhérent à l'apprentissage intensif entre l'exploration et le développement. .

Photos1.png

Fig. 17.1  Représentation d'un scénario général d'apprentissage intensif .

Votre attention, s'il vous plaît., Il existe certaines différences entre les scénarios d'apprentissage de l'apprentissage intensif et ceux de l'apprentissage supervisé examinés dans les chapitres précédents. . Contrairement à l'apprentissage supervisé , Dans l'apprentissage intensif , Il n'y a pas de distribution fixe basée sur l'Instance dessinée ; C'est le choix de la stratégie qui définit la distribution de l'observation . En fait, Des changements mineurs dans les politiques peuvent avoir un impact considérable sur les récompenses reçues . En outre,En général, L'environnement peut ne pas être fixe , Et peut varier en fonction de l'action sélectionnée par l'agent . Pour certains problèmes d'apprentissage , Il peut s'agir d'un modèle plus réaliste que l'apprentissage supervisé standard. . Enfin,Votre attention, s'il vous plaît., Contrairement à l'apprentissage supervisé , Dans l'apprentissage intensif , Les phases d'entraînement et d'essai sont mixtes .

Deux paramètres principaux peuvent être distingués ici : L'un est un modèle d'environnement connu par procuration ,Dans ce cas,, Son objectif de maximiser les récompenses reçues a été réduit aux questions de planification. ; Et l'inconnu du modèle d'environnement ,Dans ce cas,, L'agent est confronté à des problèmes d'apprentissage . Dans ce dernier cas,, L'agent doit apprendre du Statut et récompenser l'information recueillie. , Pour obtenir de l'information sur l'environnement et déterminer la meilleure stratégie d'action . Ce chapitre présente les solutions algorithmiques de ces deux paramètres

17.2 Modèle de processus décisionnel de Markov

Nous commençons par le processus décisionnel de Markov ( M D P ) (MDP) Modèle, Il s'agit d'un environnement largement utilisé dans l'apprentissage intensif et d'un modèle d'interaction avec l'environnement. . M D P MDP Est un processus de Markov ,Les définitions sont les suivantes:.

Définition 17.1 ( M D P ) (MDP) Processus décisionnel de Markov ( M D P ) (MDP) Défini comme suit::

• Un ensemble de statuts S,Peut - être infini..

Photos2.png

Fig. 17.2

MDP Représentation graphique de l'état et de la transition à différents moments .
  1. • Un ensemble de statuts S S ,Peut - être infini..
  2. • État de départ ou état initial s 0 S s{_0}\in S .
  3. • Un ensemble d'actions A,Peut - être infini..
  4. • Probabilité de transfert P [ s s , a ] P[s'\mid s,a] :État cible s = δ ( s , a ) s'=\delta(s, a) Distribution sur.
  5. • Probabilité de récompense P [ r P[r' \mid s , a ] s,a] : Répartition des récompenses retournées r = r ( s , a ) r'= r(s, a) .

Le modèle est le modèle Markov , Parce que la probabilité de transfert et de récompense dépend uniquement de l'état actuel , Sans dépendre de l'état et de l'histoire de l'action . MDP Cette définition peut être étendue au cas des états non discrets et des ensembles d'actions .

Dans un modèle temporel discret , Dans un ensemble de périodes de décision 0 , . . . , T {0, . . . , T} , C'est le modèle que nous utiliserons ci - dessous. . Le modèle peut également être étendu directement au modèle de temps continu , Où des mesures sont prises à tout moment .

Quand T T C'est fini. ,MDP Est appelé avoir une portée limitée . Finitude indépendante du temps ,Quand S Et A S Et A Sont des ensembles finis ,MDP Appelé un ensemble fini .Ici, Nous considérons la situation générale , Lorsque des mesures sont prises a a Heure,Statut s s Prix r ( s , a ) r(s, a) Est une variable aléatoire.Et pourtant,Dans de nombreux cas, Les récompenses sont supposées être des paires d'état et d'action ( s , a ) (s, a) Fonction déterministe de .

Fig. 17.2 Décrit la correspondance M D P MDP Modèle.À l'heure t 0 , . . . , T t ∈ {0, . . . , T} L'état observé par l'agent est s t s_t Et il est a t A a{_t}\in A Mesures prises par le Service . L'état atteint est s t + 1 s_{t+1} (La probabilité est [ s t + 1 s t , a t ] ) [s _{t+1}\mid s _t , a _t ]) Les récompenses reçues sont: r t + 1 R r _{t+1}\in R La probabilité est P [ r t + 1 s t , a t ] ) . P[r _{t+1}\mid s _t , a _t ]).

De nombreuses tâches du monde réel peuvent être utilisées M D P MDP Pour représenter.Fig. 17.3 Le robot ramasse la balle sur le terrain de tennis. M D P MDP Exemple.

17.3 Stratégie

M D P MDP Le principal problème avec les agents dans l'environnement est de déterminer les mesures à prendre dans chaque état. , Stratégie d'action .

17.3.1 Définition

Définition 17.2(Stratégie) La politique est la cartographie π \pi :S Δ \to\Delta (A),Parmi eux Δ ( A ) - Oui. A \Delta (A) - Oui. A Un ensemble de distributions de probabilité sur . Si, pour s s , Dans le seul a A a\in A , Stratégie π \pi C'est certain. De faire π ( s ) ( a ) = 1 \pi(s)(a)= 1 .Dans ce cas,,Nous pouvons le faire en S À A Pour identifier π \pi ,Et utiliser π(s) Pour représenter l'action .

Pour être plus précis, C'est la définition d'une politique fixe , Parce que le choix de la distribution des actions ne dépend pas du temps . Plus généralement, Nous pouvons définir une stratégie non stationnaire comme t t Une série de cartes d'index π t : S Δ ( A ) . \pi t :S \to\Delta (A). En particulier, Dans des cas limités , Les stratégies non stationnaires sont souvent nécessaires pour optimiser les récompenses .

L'objectif de l'agent est de trouver des moyens de maximiser ses attentes. (Récompenses) Stratégie de retour . Il suit une séquence d'états spécifiques s 0 _0 ,... Suivre une stratégie déterministe π Retour reçu . . . . , s T . . . , s_T Les définitions sont les suivantes::

  1. Pour une portée limitée ( T < ) : t = 0 T r s t , π ( s t ) (T< \infty ) : \sum^{T}_{t=0} r(s _t,\pi(s{_t} )
  2. Pour une gamme infinie T = : t = 0 + γ t r ( s t , π ( s t ) ) (T= \infty ): \sum^{+\infty}_{t=0}\gamma^tr(s_t,\pi(s_t)) ,Parmi eux γ [ 0 , 1 ) \gamma\in [0, 1) Est un facteur constant inférieur à celui utilisé pour escompter les récompenses futures .

Votre attention, s'il vous plaît., La récompense est un scalaire unique , Résume une séquence de récompenses instantanées potentiellement infinies . En cas de réduction , Les récompenses précoces sont considérées comme plus précieuses que les récompenses ultérieures .

17.3.2 Valeur de la politique

Cela a donné lieu à la définition suivante de la valeur de la politique pour chaque Statut: .

Définition 17.3( Valeur de la politique ) Stratégie π \pi Dans l'état= s S Valeur de V π ( s ) s \in S Valeur de V \pi (s) Défini comme suit: s s Démarrer et suivre la politique π \pi Récompenses attendues retournées à : 1. Portée limitée : V π ( s ) = E a t π ( S t ) [ t = 0 T r s t , a t ) s 0 = s ] ; V _{\pi}(s) = E_{at\sim\pi(S{_t})} [ \sum^{T}_{t=0}r(s_t,{a_t)\mid}s_0=s ];
2. Gamme infinie : V π ( s ) = E a t π ( S t ) [ t = 0 T γ t r s t , a t ) s 0 = s ] , V _{\pi}(s) = E_{at\sim\pi(S{_t})} [ \sum^{T}_{t=0}\gamma^tr(s_t, a_t)\mid s_0=s], Où les attentes sont basées sur la distribution π ( s t ) π(s _t ) Sélectionner un comportement au hasard a t a_t , On considère aussi souvent qu'une gamme illimitée d'escomptes non remboursables est fondée sur les limites de l'existence d'une prime moyenne. .

17.3.3 Stratégie optimale

De l'état s \in S C'est parti., Pour maximiser ses récompenses , L'agent cherchera naturellement le maximum V π ( s ) V_π (s) Stratégie π . π. Dans cette section,Nous allons montrer,Ce qui est remarquable, c'est que, Pour toute limite dans une plage infinie M D P MDP , Il existe une stratégie qui est optimale pour tout état de départ , C'est - à - dire une politique qui a les définitions suivantes: .

Définition17.4(La meilleure stratégie) Une stratégie π {\pi^∗} C'est le meilleur., Si sa valeur pour chaque état s S s \in S Tous les plus grands,C'est - à - dire, Pour toute stratégie π π Et n'importe quel état s S , V π ( s ) V π ( s ) . s \in S,V{_{\pi^*}} (s) \ge V_\pi (s). Photos3.png

Fig. 17.3
La simplicité avec laquelle un robot ramasse une balle sur un terrain de tennis MDP Exemple. L'action set est A = {search, Carry, pick} Et l'ensemble d'état est réduit à S = {start, other}. Chaque transition est marquée d'une action , Puis il y a la probabilité de convertir la probabilité et la récompense reçue après l'action . R 1 R 2 Et R 3 R_1、R_2 Et R_3 Nombre réel, Représente les récompenses associées à chaque transition ( Cas d'attribution déterministe ).

En outre, Nous prouverons que MDP Il existe des stratégies déterministes optimales . À cette fin,, État d'introduction - Le concept de fonction de valeur d'action est pratique .

Définition 17.5(Statut-Fonction de valeur de l'action) Stratégies π \pi État pertinent -Fonction de valeur de l'action Q Q Est défini comme tout ( s , a ) S × A (s, a) \in S × A Comme dans l'état s A s \in A Prendre des mesures a A a ∈ A Rendement attendu S S , Puis suivez la Stratégie π \pi:

Q π ( s , a ) = [ r ( s , a ) ] + a t π ( s t [ t = 1 + γ t ( s t , a t ) s 0 = s , a 0 = a ] ( 17.1 ) = [ r ( s , a ) + γ V π ( s 1 ) s 0 = s , a 0 = a ] . \begin{aligned} Q_\pi(s,a)&=\sum[r(s,a)]+\sum\limits_{a_t\sim\pi(s{_t}}[\sum\limits_{t=1}^{+\infty}\gamma^t(s_t,a_t)\mid{s_0=s,a_0=a}] &&&&&(17.1) \\ & =\sum[r(s,a)+\gamma{V_\pi(s_1)}\mid s_0=s,a_0=a]. \\ \end{aligned}

Votre attention, s'il vous plaît., a π ( s ) [ Q π ( s , a ) ] = V π ( s ) \sum_{a\sim\pi(s)}[Q_\pi(s,a)]=V_\pi(s) ( Voir proposition 17.9)

Théorème17.6( Théorème d'amélioration des politiques ) Pour les deux stratégies π π Et π π' , S'applique comme suit:

( s S , a π ( s ) ( s , a ) ] a π ( s ) [ Q π ( s , a ) ] ) ( s S , V π ( s ) V π ( s ) ) (\forall_s\in S,\sum\limits_{a\sim\pi'(s)}(s,a)]\ge\sum\limits_{a\sim\pi(s)}[Q_\pi(s,a)])\Rightarrow(\forall_s\in S,V_{\pi'}(s)\ge V_\pi(s)) .

En outre, Au moins un état à gauche L'inégalité stricte de signifie au moins un état à droite s Une inégalité stricte de

Preuve:Hypothèses π \pi Vérifier à gauche . Pour tout s S s\in S ,Nous avons

V π ( s ) = a π ( s ) [ Q π ( s , a ) ] a π ( s ) [ Q π ( s , a ) ] = a π ( s ) [ r ( s , a ) + γ V π ( s 1 ) s 0 = s ] = a π ( s ) [ r ( s , a ) + γ a π ( s 1 ) [ Q π ( s 1 , a 1 ) ] s 0 = s ] a π ( s ) [ r ( s , a ) + γ a π ( s 1 ) [ Q π ( s 1 , a 1 ) ] s 0 = s ] = a π ( s ) a 1 π ( s 1 ) [ r ( s , a ) + γ r ( s 1 , a 1 ) + γ 2 V ( s 2 ) s 0 = s ] \begin{aligned} V_{\pi}(s)&=\sum\limits_{a\sim\pi(s)}[Q_{\pi}(s,a)]\\ &\le \sum\limits_{a\sim\pi'(s)}[Q_{\pi}(s,a)]\\ &= \sum\limits_{a\sim\pi'(s)}[r(s,a)+\gamma V_{\pi}(s_1)\mid s_0=s]\\ &=\sum\limits_{a\sim\pi'(s)}[r(s,a)+\gamma\sum\limits_{a\sim\pi'(s_1)}[Q_{\pi}(s_1,a_1)]\mid s_0=s]\\ &\le \sum\limits_{a\sim\pi'(s)}[r(s,a)+\gamma\sum\limits_{a\sim\pi'(s_1)}[Q_{\pi}(s_1,a_1)]\mid s_0=s]\\ &=\sum\limits_{\substack{ a\sim\pi'(s)\\a_1\sim\pi'(s_1)}}[r(s,a)+\gamma r(s_1,a_1)+\gamma^2V_(s_2)\mid s_0=s] \end{aligned}

Montrer de cette façon ,Pour tout T 1 T ≥ 1:

V π ( s ) a t π ( s t ) [ T = 0 T γ t ] [ r ( s t , a t ) ] + γ T + 1 V π ( s T + 1 ) s 0 = s ] V_\pi(s)\le\sum\limits_{a_t\sim\pi'(s_t)}[\sum\limits^T_{T=0}\gamma^t\footnotesize\sum][r(s_t,a_t)]+\gamma^{T+1}V_\pi(s_{T+1})\mid s_0=s]

Parce que V π ( s T + 1 ) V_\pi(s_{T +1}) Est de portée, Prendre la limite T T\to\infty Donner

V π ( s ) a t π ( s t ) [ t = 0 + γ t [ r ( s t , a t ) ] s 0 = s ] = V π ( s ) . V_\pi(s)\le\footnotesize\sum\limits_{a_t\sim\pi'(s_t)}[\Large\sum\limits^{+\infty}_{t=0}\gamma^t\footnotesize\sum[r(s_t,a_t)]\mid s_0=s]=V_\pi'(s).

Enfin, Toute inégalité stricte dans la propriété de gauche conduit à une équation stricte dans la chaîne d'inégalités ci - dessus .

Théorème 17.7(Bellman Conditions d'optimalité pour ) Stratégie π \pi C'est le meilleur., Quand la condition est n'importe quelle paire ( s , a ) S × A (s, a) \in S × A Et π ( s ) ( a ) > 0 \pi(s)(a) > 0 Les conditions suivantes sont remplies::

a a r g m a x a A Q π ( s , a ) \qquad a \in \mathop{argmax}\limits_{a'\in A} Q_\pi(s,a')

Preuve:Selon le théorème 17.6 17.6 ,Si les conditions ( 17.2 ) (17.2) Pour certains ( s , a ) (s, a) Non valable et π ( s ) ( a ) > 0 π(s)(a) > 0 , Stratégie π π Pas optimal .C'est parce que π \pi Peut être défini par π \pi' Amélioration ,De faire π ( s ) = π ( s ) f o r s s \pi' (s' ) = \pi(s) for s' \not= s Et ( s ) Concentrez - vous sur ' (s) Concentrez - vous sur argmax_{a'\in A} Q π ( s , a ). Q_{\pi}( s,a'). Donc,,Selon le théorème 17.6 17.6 , Pour au moins un s s Et π , V π ( s ) > V π ( s ) {\pi},V\pi'(s) > V\pi(s) Pas optimal .
Au contraire.,Jean π \pi' Est une stratégie non optimale . Il y a donc une stratégie π \pi Et au moins un état s,Parmi eux V π ( s ) < V π ( s ) V\pi'(s) < V\pi(s) . Selon le théorème 17.6 17.6 , Cela signifie qu'il y a des états s S s \in S ,Parmi eux a π ( s ) < a π ( s ) [ Q π ( s , a ) ] \sum_{a\sim\pi'(s)} <\sum_{a\simπ(s)}[Q_\pi(s, a)] . Donc,, π \pi' Satisfait aux conditions 17.2 (17.2) .]

Théorème 17.8( Existence d'une stratégie déterministe optimale )

Toute limitation MDP Reconnaître la stratégie déterministe optimale .

Preuve:Ordre π \pi^* Maximiser s S V π ( s ) \sum_{s\in S}V_{\pi}(s) Stratégie déterministe pour . π \pi^* Existe parce qu'il n'y a qu'un nombre limité de stratégies déterministes . Si π \pi^* Pas optimal ,Selon le théorème 17.7 17.7 , Il y aura un état s s ,Parmi eux π ( s ) a r g m a x a A Q π ( s , a ) \pi(s) \in argmax_{a'\in A} Q_{\pi}(s, a' ) . Selon le théorème 17.6 17.6 , Vous pouvez sélectionner une politique π \pi Pour améliorer π \pi ∗,Parmi eux π ( s ) a r g m a x a x a A Q π ( s , a ) \pi (s) \in argmaxax a\in A Q_{\pi}(s, a' ) Et π \pi Avec tous les autres états π \pi ∗ Coïncidence. Mais ensuite, π \pi Valider V π ( s ) V π ( s ) V\pi∗(s) ≤ V\pi(s) A une inégalité stricte pour au moins un état . Ceci est lié à π \pi∗ Maximiser s S V π ( s ) \sum_{s\in S}V_\pi(s) Les faits sont contradictoires. .

Compte tenu de l'existence d'une stratégie optimale déterministe ,Ci - dessous, Pour simplifier les discussions , Nous ne considérerons que les stratégies déterministes . Jean π \pi^* Représente un(Déterministe) Stratégie optimale ,Jean Q Q∗ Et V V∗ Représente la fonction de valeur et la fonction de valeur de l'action d'état correspondante . Par le théorème 17.7 17.7 , Nous pouvons écrire .

s S , π ( s ) = a r g m a r a A Q ( s , a ) \forall s \in S, \pi^*(s)=\mathop{argmar}\limits_{a\in A} Q^*(s,a)

Donc,,Statut-Fonction de valeur de l'action Q Q^∗ Les connaissances sont suffisantes pour permettre à l'agent de déterminer la stratégie optimale , Sans avoir à connaître directement les probabilités de récompense ou de transfert . Remplacer par définition Q Q^∗ Les valeurs optimales suivantes sont données: V ( s ) = Q ( s , π ( s ) ) V^∗(s) = Q^∗(s, \pi^∗(s)) Système d'équations pour :

s S , V ( s ) = m a x a A [ r ( s , a ) ] + γ s S P [ s s , a ] V ( S ) \forall s \in S ,V^*(s)=\mathop{max}\limits_{a\in A}{\sum}[r(s,a)]+\gamma\sum\limits_{s'\in S}P[s'\mid s,a]V^*(S') ,

Aussi connu sous le nom d'équation de Bellman . Votre attention, s'il vous plaît.,Parce que m a x max Présence de l'opérateur , Le système d'équations n'est pas linéaire .

17.3.4 Évaluation des politiques

Une politique en cours s Sa valeur peut être exprimée dans d'autres états Statut, Former un système d'équations linéaires .

Proposition 17.9(Équation de belmann)

Pour une gamme infinie M D P MDP ,Stratégie π \pi Dans l'état s s Valeur de V π \pi (s) Suivre les équations linéaires suivantes s \in s

s S , V π ( s ) = a 1 π ( s ) [ r ( s , a 1 ) ] + γ s P [ s s , π ( s ) ] V π ( s ) \forall s \in S,V_{\pi}(s)=\sum\limits_{a_1\sim\pi(s)}[r(s,a_1)]+\gamma\sum\limits_{s'}P[s'\mid s,\pi(s)]V_\pi(s')

Preuve: Nous pouvons décomposer l'expression de la valeur de la politique en somme du premier terme et du reste , Qui reconnaît γ En tant que multiplicateur:

V π ( s ) = E [ t = 0 + γ t r ( s t , π s t ) ) s 0 = s ] . = E [ r ( s , π ( s ) ) ] + γ E t = 0 + γ t r ( s t + 1 , π ( s t + 1 ) ) s 0 = s ] = E [ r ( s , π ( s ) ) ] + γ E t = 0 + γ t r ( s t + 1 , π ( s t + 1 ) ) s 1 = δ s , π ( s ) ) ] = E [ r ( s , π ( s ) ] + γ E [ V π ( δ ( s , π ( s ) ) ) ] \begin{aligned} V_\pi(s)&=E[\sum\limits_{t=0}^{+\infty}\gamma^tr(s_t,\pi(s_t))\mid s_0=s].\\ &=E[r(s,\pi(s))]+\gamma E\sum\limits_{t=0}^{+\infty}\gamma^tr(s_{t+1},\pi(s_{t+1}))\mid s_0=s]\\ &=E[r(s,\pi(s))]+\gamma E\sum\limits_{t=0}^{+\infty}\gamma^tr(s_{t+1},\pi(s_{t+1}))\mid s_1=\delta(s,\pi(s))]\\ &=E[r(s,\pi(s)]+\gamma E[V\pi(\delta(s,\pi(s)))]\\ \end{aligned}

Jusqu'ici., Terminé. . C'est un système d'équations linéaires , Aussi connu sous le nom d'équation de Bellman , Contrairement aux systèmes non linéaires ( 17.4 ) . (17.4). Le système peut être réécrit comme suit:
V = R + γ P V V=R+\gamma PV
Utiliser les symboles suivants : P P Indique par P s , s = P [ s s , π ( s ) ] P_{s,s'}=P[s'\mid s,\pi(s)] Matrice de probabilité de transfert définie ,Pour tous s , s S s,s'\in S ; V V Oui. s s Les composants sont: V S = V π ( s ) V_S= V_\pi(s) Matrice des colonnes de valeur pour ; Et R R Est la matrice des colonnes de récompense ,Son s s Le composant est R s = E [ r ( s , π ( s ) ] . R_s=E[r(s,\pi(s)]. V V Est généralement une variable inconnue dans l'équation de Bellman , En le résolvant, .

Le théorème suivant montre , Pour un nombre limité M D P MDP , Ce système d'équations linéaires permet des solutions uniques .

Théorème 17.10 17.10 Pour un nombre limité M D P MDP , B e l l m a n Bellman La solution unique admissible de l'équation est donnée par

V 0 = ( I γ P ) 1 R . V_0=(I-\gamma P)^{-1}R.

Preuve:Équation de belmann 17.6 (17.6) Peut être équivalent à
( I γ P ) V = R . (I-\gamma P)V=R.

Donc,, Pour prouver le théorème , Il suffit de prouver ( I γ P ) (I-\gamma P) C'est réversible.. À cette fin,,Votre attention, s'il vous plaît. P P L'infini de :
P = m a x s s P s s = m a x s s P [ s s , π ( s ) ] = 1 \vert \vert P \vert \vert _\infty=\mathop{max}\limits_s\sum\limits_{s'}\vert P_{ss'}\vert=\mathop{max}\limits_s\sum\limits_{s'}P[s'\vert s,\pi(s)]=1

Cela signifie γ P = γ < 1 . γ P \vert\vert\gamma P \vert\vert_\infty=\gamma<1.\gamma P Les valeurs propres sont donc inférieures à 1 1 ,Et ( I γ P ) (I-\gamma P) C'est réversible.

版权声明
本文为[Le monde est magnifique.]所创,转载请带上原文链接,感谢
https://cdmana.com/2021/10/20211007173001929L.html

Scroll to Top