LSTM destaca en tasques de predicció de seqüències, capturant dependències a llarg termini. Ideal per a sèries temporals, traducció automàtica i reconeixement de veu a causa de la dependència de l'ordre. L'article ofereix una introducció en profunditat a LSTM, que cobreix el model LSTM, l'arquitectura, els principis de funcionament i el paper crític que tenen en diverses aplicacions.
Què és LSTM?
Memòria a curt termini és una versió millorada de la xarxa neuronal recurrent dissenyada per Hochreiter & Schmidhuber.
Un tradicional RNN té un únic estat ocult que passa en el temps, cosa que pot dificultar que la xarxa aprengui dependències a llarg termini. Model LSTM resoldre aquest problema introduint una cel·la de memòria, que és un contenidor que pot contenir informació durant un període prolongat.
Les arquitectures LSTM són capaços d'aprendre dependències a llarg termini en dades seqüencials, cosa que les fa molt adequades per a tasques com ara traducció lingüística , reconeixement de veu i previsió de sèries temporals .
Els LSTM també es poden utilitzar en combinació amb altres arquitectures de xarxes neuronals, com ara Xarxes neuronals convolucionals (CNN) per a l'anàlisi d'imatges i vídeos.
Arquitectura LSTM
Les arquitectures LSTM inclouen la cèl·lula de memòria que està controlada per tres portes: la porta d'entrada, la porta d'oblit i la porta de sortida. Aquestes portes decideixen quina informació afegir, eliminar i sortir de la cel·la de memòria.
- La porta d'entrada controla quina informació s'afegeix a la cel·la de memòria.
- La porta oblida controla quina informació s'elimina de la cel·la de memòria.
- La porta de sortida controla quina informació surt de la cel·la de memòria.
Això permet que les xarxes LSTM retinguin o descartin de manera selectiva la informació a mesura que flueix per la xarxa, cosa que els permet aprendre dependències a llarg termini.
El LSTM manté un estat ocult, que actua com a memòria a curt termini de la xarxa. L'estat ocult s'actualitza en funció de l'entrada, l'estat ocult anterior i l'estat actual de la cel·la de memòria.
Model LSTM bidireccional
LSTM bidireccional (Bi LSTM/BLSTM) és una xarxa neuronal recurrent (RNN) que és capaç de processar dades seqüencials tant en direccions cap endavant com enrere. Això permet que Bi LSTM aprengui dependències d'abast més llarg en dades seqüencials que els LSTM tradicionals, que només poden processar dades seqüencials en una direcció.
- Els Bi LSTM estan formats per dues xarxes LSTM, una que processa la seqüència d'entrada en direcció cap endavant i una altra que processa la seqüència d'entrada en sentit cap enrere.
- A continuació, les sortides de les dues xarxes LSTM es combinen per produir la sortida final.
Els models LSTM, inclosos els Bi LSTM, han demostrat un rendiment d'última generació en diverses tasques com ara la traducció automàtica, el reconeixement de veu i el resum de text.
Les xarxes en arquitectures LSTM es poden apilar per crear arquitectures profundes, permetent l'aprenentatge de patrons i jerarquies encara més complexes en dades seqüencials. Cada capa LSTM en una configuració apilada captura diferents nivells d'abstracció i dependències temporals dins de les dades d'entrada.
LSTM en funcionament
L'arquitectura LSTM té una estructura en cadena que conté quatre xarxes neuronals i diferents blocs de memòria anomenats cèl · lules .
caràcter java a cadena
La informació és retinguda per les cèl·lules i les manipulacions de memòria les fan portes. Hi ha tres portes -
Oblida la porta
La informació que ja no és útil a l'estat de la cel·la s'elimina amb la porta oblida. Dues entrades x t (entrada en el moment concret) i h t-1 (sortida de cèl·lules anteriors) s'alimenten a la porta i es multipliquen amb matrius de pes seguides de l'addició de biaix. La resultant passa per una funció d'activació que dóna una sortida binària. Si per a un estat de cel·la particular la sortida és 0, la informació s'oblida i per a la sortida 1, la informació es conserva per a un ús futur. L'equació de la porta oblida és:
on:
- W_f representa la matriu de pes associada a la porta oblida.
- [h_t-1, x_t] denota la concatenació de l'entrada actual i l'estat ocult anterior.
- b_f és el biaix amb la porta oblida.
- σ és la funció d'activació del sigmoide.

Porta d'entrada
L'addició d'informació útil a l'estat de la cel·la es fa per la porta d'entrada. En primer lloc, la informació es regula mitjançant la funció sigmoide i es filtren els valors a recordar de manera similar a la porta oblida mitjançant entrades. h t-1 i x t .. Aleshores, es crea un vector utilitzant peix funció que dóna una sortida de -1 a +1, que conté tots els valors possibles de ht-1i x t . Finalment, es multipliquen els valors del vector i els valors regulats per obtenir la informació útil. L'equació de la porta d'entrada és:
compara cadenes java
Multipliquem l'estat anterior per ft, sense tenir en compte la informació que abans havíem triat ignorar. A continuació, incloem it∗Ct. Això representa els valors candidats actualitzats, ajustats per la quantitat que hem escollit per actualitzar cada valor d'estat.
on
- ⊙ denota la multiplicació per elements
- tanh és la funció d'activació de tanh
Porta de sortida
La tasca d'extreure informació útil de l'estat actual de la cel·la per presentar-la com a sortida la fa la porta de sortida. En primer lloc, es genera un vector aplicant la funció tanh a la cel·la. Aleshores, la informació es regula mitjançant la funció sigmoide i es filtra pels valors a recordar mitjançant les entrades.
Aplicacions de LSTM
Algunes de les famoses aplicacions de LSTM inclouen:
- Modelatge lingüístic: Els LSTM s'han utilitzat per a tasques de processament del llenguatge natural com ara el modelatge del llenguatge, la traducció automàtica i el resum de text. Es poden entrenar per generar frases coherents i gramaticalment correctes aprenent les dependències entre paraules d'una frase.
- Reconeixement de veu: Els LSTM s'han utilitzat per a tasques de reconeixement de veu, com ara la transcripció de la parla a text i el reconeixement d'ordres parlades. Es poden entrenar per reconèixer patrons en la parla i relacionar-los amb el text corresponent.
- Previsió de sèries temporals: Els LSTM s'han utilitzat per a tasques de previsió de sèries temporals, com ara predir els preus de les accions, el clima i el consum d'energia. Poden aprendre patrons en dades de sèries temporals i utilitzar-los per fer prediccions sobre esdeveniments futurs.
- Detecció d'anomalies: Els LSTM s'han utilitzat per a tasques de detecció d'anomalies, com ara la detecció de fraus i intrusions a la xarxa. Es poden entrenar per identificar patrons en dades que es desvien de la norma i marcar-los com a possibles anomalies.
- Sistemes de recomanació: Els LSTM s'han utilitzat per a tasques de recomanació, com ara recomanar pel·lícules, música i llibres. Poden aprendre patrons de comportament dels usuaris i utilitzar-los per fer recomanacions personalitzades.
- Anàlisi de vídeo: Els LSTM s'han utilitzat per a tasques d'anàlisi de vídeo com ara la detecció d'objectes, el reconeixement d'activitats i la classificació d'accions. Es poden utilitzar en combinació amb altres arquitectures de xarxes neuronals, com les xarxes neuronals convolucionals (CNN), per analitzar dades de vídeo i extreure informació útil.
LTSM vs RNN
Característica | LSTM (Memòria a llarg termini) algorisme per a rsa | RNN (Xarxa Neural Recurrent) |
|---|---|---|
Memòria | Té una unitat de memòria especial que li permet aprendre dependències a llarg termini en dades seqüencials | No té unitat de memòria |
Direccionalitat | Es pot entrenar per processar dades seqüencials en direccions cap endavant i cap enrere | Només es pot entrenar per processar dades seqüencials en una direcció |
Formació | Més difícil d'entrenar que RNN a causa de la complexitat de les portes i la unitat de memòria js conjunt | Més fàcil d'entrenar que LSTM |
Aprenentatge de dependència a llarg termini | Sí | Limitat |
Capacitat per aprendre dades seqüencials | Sí | Sí |
Aplicacions | Traducció automàtica, reconeixement de veu, resum de textos, processament del llenguatge natural, previsió de sèries temporals | Processament del llenguatge natural, traducció automàtica, reconeixement de veu, processament d'imatges, processament de vídeo |
Problema amb les dependències a llarg termini a RNN
Les xarxes neuronals recurrents (RNN) estan dissenyades per gestionar dades seqüencials mantenint un estat ocult que captura informació dels passos de temps anteriors. Tanmateix, sovint s'enfronten a reptes per aprendre dependències a llarg termini, on la informació de passos de temps llunyans esdevé crucial per fer prediccions precises. Aquest problema es coneix com el problema del gradient en desaparició o el problema del gradient explosiu.
A continuació s'enumeren alguns problemes comuns:
Gradient de desaparició
Durant la retropropagació a través del temps, els gradients poden arribar a ser extremadament petits a mesura que es multipliquen a través de la cadena de connexions recurrents, fent que el model tingui dificultats per aprendre dependències que estan separades per molts passos de temps.
Gradient explosiu
Per contra, els gradients poden explotar durant la retropropagació, provocant inestabilitat numèrica i dificultant la convergència del model.
Diferents variants de la memòria a curt termini
Amb el temps, s'han proposat diverses variants i millores a l'arquitectura LSTM original.
Vainilla LSTM
Aquesta és l'arquitectura LSTM original proposada per Hochreiter i Schmidhuber. Inclou cel·les de memòria amb portes d'entrada, oblit i sortida per controlar el flux d'informació. La idea clau és permetre que la xarxa actualitzi selectivament i oblidi la informació de la cèl·lula de memòria.
Connexions amb mirilla
A la mirilla LSTM, les portes poden mirar l'estat de la cel·la a més de l'estat ocult. Això permet que les portes tinguin en compte l'estat de la cel·la a l'hora de prendre decisions, proporcionant més informació de context.
Unitat recurrent tancada (GRU)
GRU és una alternativa a LSTM, dissenyada per ser més senzilla i computacionalment més eficient. Combina les portes d'entrada i oblit en una única porta d'actualització i fusiona l'estat de la cel·la i l'estat ocult. Tot i que els GRU tenen menys paràmetres que els LSTM, s'ha demostrat que funcionen de manera similar a la pràctica.
trobar números bloquejats a Android
Conclusió
La memòria a llarg termini (LSTM) és un tipus potent de xarxa neuronal recurrent (RNN) que s'adapta molt bé per manejar dades seqüencials amb dependències a llarg termini. Aborda el problema del gradient de desaparició, una limitació comuna de les RNN, mitjançant la introducció d'un mecanisme de gating que controla el flux d'informació a través de la xarxa. Això permet als LSTM aprendre i retenir informació del passat, fent-los efectius per a tasques com la traducció automàtica, el reconeixement de veu i el processament del llenguatge natural.
Comproveu també:
- Memòria a llarg termini (LSTM) RNN a Tensorflow
- Generació de text mitjançant una xarxa de memòria a curt termini recurrent
- Explicació de xarxes de memòria a curt termini
Preguntes freqüents (FAQ)
1. Què és LSTM i per què s'utilitza?
LSTM, o memòria a llarg termini, és un tipus de xarxa neuronal recurrent dissenyada per a tasques de seqüència, que destaca per capturar i utilitzar dependències a llarg termini de les dades.
2. Com funciona LSTM?
Els LSTM utilitzen un estat de cel·la per emmagatzemar informació sobre entrades anteriors. Aquest estat de la cel·la s'actualitza a cada pas de la xarxa i la xarxa l'utilitza per fer prediccions sobre l'entrada actual. L'estat de la cel·la s'actualitza mitjançant una sèrie de portes que controlen quanta informació es permet que flueixi dins i fora de la cel·la.
3. Quins són els exemples de LSTM?
Els exemples de LSTM (Long Short-Term Memory) inclouen el reconeixement de veu, la traducció automàtica i la predicció de sèries temporals, aprofitant la seva capacitat per capturar dependències a llarg termini en dades seqüencials.
4. Quina diferència hi ha entre LSTM i Gated Recurrent Unit (GRU)?
LSTM té un estat cel·lular i un mecanisme de gating que controla el flux d'informació, mentre que GRU té un mecanisme d'actualització de porta única més senzill. LSTM és més potent però més lent d'entrenar, mentre que GRU és més senzill i ràpid.
5. Quina diferència hi ha entre LSTM i RNN?
- RNN tenen una estructura recurrent senzilla amb un flux d'informació unidireccional.
- LSTM tenen un mecanisme de gating que controla el flux d'informació i un estat cel·lular per a la memòria a llarg termini.
- LSTM generalment superen els RNN en tasques que requereixen aprendre dependències a llarg termini.
6. És LSTM més ràpid que CNN?
No, els LSTM i les CNN tenen propòsits diferents. Els LSTM són per a dades seqüencials; Les CNN són per a dades espacials.
7. És LSTM més ràpid que GRU?
En general, sí. Els GRU tenen menys paràmetres, cosa que pot conduir a un entrenament més ràpid en comparació amb els LSTM.