En l'aprenentatge de reforç, l'agent o el que pren les decisions genera les seves dades d'entrenament interactuant amb el món. L'agent ha d'aprendre les conseqüències de les seves accions a través d'assaig i error, en lloc de dir-li explícitament l'acció correcta.
Problema de bandolers multiarmats
A l'aprenentatge de reforç, utilitzem el problema de bandolers multiarmats per formalitzar la noció de presa de decisions sota incertesa mitjançant bandits amb armes k. Un responsable o un agent està present a Multi-Armed Bandit Problem per triar entre k-diferents accions i rep una recompensa en funció de l'acció que tria. El problema del bandit s'utilitza per descriure conceptes fonamentals en l'aprenentatge de reforç, com ara recompenses, passos temporals i valors.

La imatge de dalt representa una màquina escurabutxaques també coneguda com a bandit amb dues palanques. Suposem que cada palanca té una distribució independent de recompenses i hi ha almenys una palanca que genera la màxima recompensa.
La distribució de probabilitats per a la recompensa corresponent a cada palanca és diferent i és desconeguda pel jugador (presora de decisions). Per tant, l'objectiu aquí és identificar quina palanca tirar per obtenir la màxima recompensa després d'un determinat conjunt de proves.
Per exemple:
Imagineu una prova de publicitat en línia en què un anunciant vol mesurar el percentatge de clics de tres anuncis diferents per al mateix producte. Sempre que un usuari visita el lloc web, l'anunciant mostra un anunci a l'atzar. Aleshores, l'anunciant supervisa si l'usuari fa clic a l'anunci o no. Després d'un temps, l'anunciant s'adona que un anunci sembla funcionar millor que els altres. Ara l'anunciant ha de decidir entre quedar-se amb l'anunci amb el millor rendiment o continuar amb l'estudi aleatori.
Si l'anunciant només mostra un anunci, ja no podrà recollir dades dels altres dos. Potser un dels altres anuncis és millor, només sembla pitjor per casualitat. Si els altres dos anuncis són pitjors, continuar l'estudi pot afectar negativament el percentatge de clics. Aquest assaig publicitari exemplifica la presa de decisions sota incertesa.
A l'exemple anterior, el paper de l'agent el fa un anunciant. L'anunciant ha de triar entre tres accions diferents, per mostrar el primer, el segon o el tercer anunci. Cada anunci és una acció. Escollir aquest anunci genera una recompensa desconeguda. Finalment, el benefici de l'anunciant després de l'anunci és la recompensa que rep l'anunciant.
Valors d'acció:
Perquè l'anunciant decideixi quina acció és la millor, hem de definir el valor de fer cada acció. Definim aquests valors mitjançant la funció acció-valor utilitzant el llenguatge de probabilitat. El valor de seleccionar una acció q*(a) es defineix com la recompensa esperada Rt rebem quan fem una acció a del conjunt d'accions possibles.
L'objectiu de l'agent és maximitzar la recompensa esperada seleccionant l'acció que té el valor d'acció més alt.
Estimació del valor de l'acció:
preguntes d'entrevista de llenguatge java
Atès que el valor de seleccionar una acció és a dir. Q*(a) no és conegut per l'agent, de manera que utilitzarem el mitjana mostral mètode per estimar-lo.

Exploració vs explotació:
- Acció cobdiciosa: quan un agent tria una acció que actualment té el valor estimat més gran. L'agent explota els seus coneixements actuals escollint l'acció cobdiciosa. Acció no cobdiciosa: quan l'agent no tria el valor estimat més gran i sacrifica la recompensa immediata amb l'esperança d'obtenir més informació sobre les altres accions. Exploració : Permet a l'agent millorar el seu coneixement sobre cada acció. Tant de bo, condueixi a un benefici a llarg termini. Explotació: permet a l'agent triar l'acció cobdiciosa per intentar obtenir la màxima recompensa per un benefici a curt termini. Una selecció pura d'acció cobdiciosa pot conduir a un comportament subòptim.
Es produeix un dilema entre l'exploració i l'explotació perquè un agent no pot triar explorar i explotar alhora. Per tant, fem servir el Límit superior de confiança algorisme per resoldre el dilema exploració-explotació
Selecció d'acció amb límit de confiança superior:
La selecció d'accions amb límit de confiança superior utilitza la incertesa en les estimacions del valor de l'acció per equilibrar l'exploració i l'explotació. Com que hi ha incertesa inherent en la precisió de les estimacions del valor d'acció quan utilitzem un conjunt de mostres de recompenses, UCB utilitza la incertesa en les estimacions per impulsar l'exploració.

Qt(a) aquí representa l'estimació actual de l'acció a en el moment t . Seleccionem l'acció que té el valor d'acció estimat més alt més el terme d'exploració del límit de confiança superior.
java obrint un fitxer

Q(A) a la imatge de dalt representa l'estimació actual del valor de l'acció per a l'acció A . Els claudàtors representen un interval de confiança al voltant Q*(A) que diu que estem segurs que l'acció-valor real de l'acció A es troba en algun lloc d'aquesta regió.
El claudàtor inferior s'anomena límit inferior, i el claudàtor superior és el límit superior. La regió entre parèntesis és l'interval de confiança que representa la incertesa de les estimacions. Si la regió és molt petita, llavors estem molt segurs que el valor real de l'acció A és a prop del nostre valor estimat. D'altra banda, si la regió és gran, llavors ens tornem incerts que el valor de l'acció A està a prop del nostre valor estimat.
El Límit superior de confiança segueix el principi d'optimisme davant la incertesa que implica que si no estem segurs d'una acció, hauríem d'assumir amb optimisme que és l'acció correcta.
Per exemple, suposem que tenim aquestes quatre accions amb incerteses associades a la imatge següent, el nostre agent no té ni idea de quina és la millor acció. Així, segons l'algorisme UCB, escollirà de manera optimista l'acció que tingui el límit superior més alt, és a dir. A . Fent això, o bé tindrà el valor més alt i obtindrà la recompensa més alta, o bé, en prendre's això, coneixerem una acció que menys coneixem.

Suposem que després de seleccionar l'acció A acabem en un estat que es mostra a la imatge següent. Aquesta vegada UCB seleccionarà l'acció B des que Q(B) té el límit de confiança superior més alt perquè la seva estimació del valor d'acció és la més alta, tot i que l'interval de confiança és petit.

Inicialment, UCB explora més per reduir sistemàticament la incertesa, però la seva exploració es redueix amb el temps. Així, podem dir que UCB obté major recompensa de mitjana que altres algorismes com Epsilon-greedy, Optimistic Initial Values, etc.