LLE (Incrustació lineal local) és un enfocament no supervisat dissenyat per transformar les dades del seu espai original d'alta dimensió en una representació de dimensions inferiors, tot alhora que s'esforça per conservar les característiques geomètriques essencials de l'estructura de les característiques no lineals subjacents. LLE opera en diversos passos clau:
- En primer lloc, construeix un gràfic de veïns més propers per capturar aquestes relacions locals. Aleshores, optimitza els valors de pes per a cada punt de dades, amb l'objectiu de minimitzar l'error de reconstrucció en expressar un punt com una combinació lineal dels seus veïns. Aquesta matriu de pes reflecteix la força de les connexions entre punts.
- A continuació, LLE calcula una representació dimensional inferior de les dades mitjançant la recerca vectors propis d'una matriu derivada de la matriu de pes. Aquests vectors propis representen les direccions més rellevants en l'espai reduït. Els usuaris poden especificar la dimensionalitat desitjada per a l'espai de sortida i LLE selecciona els vectors propis superiors en conseqüència.
Com a il·lustració, considereu a Conjunt de dades de roll suís , que és inherentment no lineal en el seu espai d'alta dimensió. LLE, en aquest cas, treballa per projectar aquesta estructura complexa sobre un pla de dimensions inferiors, conservant les seves propietats geomètriques distintives durant tot el procés de transformació.
Taula de contingut
- Implementació Matemàtica de l'Algoritme LLE
- Algoritme d'inserció lineal local
- Paràmetres en l'algoritme LLE
- Implementació d'Incrustació Localment Lineal
- Avantatges de LLE
- Inconvenients de LLE
Implementació Matemàtica de l'Algoritme LLE
La idea clau de LLE és que localment, a les proximitats de cada punt de dades, les dades es troben aproximadament en un subespai lineal. LLE intenta desplegar o desplegar les dades tot conservant aquestes relacions lineals locals.
Aquí teniu una visió general matemàtica de l'algorisme LLE:
comentari javascript
Minimitzar: 
Agafat a : 
On:
- xirepresenta l'i-è punt de dades.
- Enijsón els pesos que minimitzen l'error de reconstrucció per al punt de dades xiutilitzant els seus veïns.
Pretén trobar una representació de dimensions inferiors de les dades tot preservant les relacions locals. L'expressió matemàtica de LLE implica minimitzar l'error de reconstrucció de cada punt de dades expressant-lo com una suma ponderada dels seus k veïns més propers 'aportacions. Aquesta optimització està subjecta a restriccions que garanteixen que els pesos sumen 1 per a cada punt de dades. La incorporació lineal local (LLE) és una tècnica de reducció de la dimensionalitat utilitzada en l'aprenentatge automàtic i l'anàlisi de dades. Se centra a preservar les relacions locals entre els punts de dades quan es mapegen dades d'alta dimensió a un espai de dimensions inferiors. Aquí, explicarem l'algorisme LLE i els seus paràmetres.
Algoritme d'inserció lineal local
L'algorisme LLE es pot dividir en diversos passos:
- Selecció del barri: Per a cada punt de dades de l'espai d'alta dimensió, LLE identifica els seus k veïns més propers. Aquest pas és crucial perquè LLE suposa que cada punt de dades es pot aproximar bé mitjançant una combinació lineal dels seus veïns.
- Construcció de la matriu de pes: LLE calcula un conjunt de pesos per a cada punt de dades per expressar-lo com una combinació lineal dels seus veïns. Aquests pesos es determinen de manera que es minimitzi l'error de reconstrucció. La regressió lineal s'utilitza sovint per trobar aquests pesos.
- Preservació de l'estructura global: Després de construir la matriu de pes, LLE pretén trobar una representació de dimensions inferiors de les dades que millor preservi les relacions lineals locals. Ho fa buscant un conjunt de coordenades a l'espai de dimensions inferiors per a cada punt de dades que minimitzi una funció de cost. Això funció de cost avalua com de bé cada punt de dades pot ser representat pels seus veïns.
- Incrustació de la sortida: Un cop finalitzat el procés d'optimització, LLE proporciona la representació final de dimensions inferiors de les dades. Aquesta representació captura l'estructura essencial de les dades alhora que redueix la seva dimensionalitat.
Paràmetres en l'algoritme LLE
LLE té uns quants paràmetres que influeixen en el seu comportament:
- k (Nombre de veïns): Aquest paràmetre determina quants veïns més propers es tenen en compte a l'hora de construir la matriu de pes. Una k més gran captura relacions més globals, però pot introduir soroll. Una k més petita se centra en les relacions locals, però pot ser sensible als valors atípics. La selecció d'un valor adequat per a k és essencial per a l'èxit de l'algorisme.
- Dimensió de l'espai de sortida: Podeu especificar la dimensionalitat de l'espai de dimensions inferiors al qual s'assignaran les dades. Sovint s'escull en funció dels requisits del problema i el compromís entre la complexitat computacional i la preservació de la informació.
- Mètrica de distància: LLE es basa en una mètrica de distància per definir la proximitat entre els punts de dades. Les opcions habituals inclouen la distància euclidiana, la distància de Manhattan o les funcions de distància definides a mida. L'elecció de la mètrica de distància pot afectar els resultats.
- Regularització (opcional): En alguns casos, s'afegeixen termes de regularització a la funció de cost per evitar un sobreajust. La regularització pot ser útil quan es tracta de dades sorolloses o quan el nombre de veïns és elevat.
- Algoritme d'optimització (opcional): LLE sovint utilitza tècniques d'optimització com Descomposició de valors singulars (SVD) o mètodes de vectors propis per trobar la representació de dimensions inferiors. Aquests mètodes d'optimització poden tenir els seus propis paràmetres que es poden ajustar.
LLE (Incrustació lineal local) representa un avenç significatiu en l'anàlisi estructural, superant les tècniques tradicionals de modelització de densitat com la local PCA o mescles d'analitzadors factorials. La limitació dels models de densitat rau en la seva incapacitat per establir de manera consistent un conjunt de coordenades globals capaços d'incorporar observacions a tota la varietat estructural. En conseqüència, resulten inadequades per a tasques com ara generar projeccions de dimensions baixes del conjunt de dades original. Aquests models només destaquen per identificar característiques lineals, tal com es mostra a la imatge següent. Tanmateix, es queden curts a l'hora de capturar patrons corbats complexos, una capacitat inherent a LLE.
Eficiència computacional millorada amb LLE. LLE ofereix una eficiència computacional superior a causa del seu maneig de matrius escassa, superant altres algorismes.
Implementació d'Incrustació Localment Lineal
Importació de biblioteques
Python 3
#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding> |
>
>
El codi comença important les biblioteques necessàries, inclòs numpy, matplotlib.pyplot , make_swiss_roll de sklearn.datasets i LocallyLinearEmbedding de sklearn.varietat .
Generació d'un conjunt de dades sintètics (Swiss Roll)
Python 3
# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)> |
>
>
Genera un conjunt de dades sintètics semblant a un Swiss Roll mitjançant la funció make_swiss_roll de scikit-learn.
n_samples especifica el nombre de punts de dades a generar.
n_neighbors defineix el nombre de veïns utilitzats en l'algorisme LLE.
Aplicació d'inserció lineal local (LLE)
Python 3
# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)> |
>
>
Es crea una instància de l'algorisme LLE amb LocallyLinearEmbedding. El paràmetre n_neighbors determina el nombre de veïns a tenir en compte durant el procés d'inserció.
A continuació, l'algorisme LLE s'ajusta a les dades originals X mitjançant el encaixar_transformar mètode. Aquest pas redueix el conjunt de dades a dues dimensions (n_components=2).
Visualització de les dades originals i reduïdes
Python 3
# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()> |
>
>
Sortida:
Incrustació lineal local
A la segona subtrama, les dades reduïdes obtingudes de LLE (X_reduced) es visualitzen de manera similar a les dades originals. El color dels punts de dades encara està determinat per la tercera característica de les dades originals (X[:, 2]). plt.tight_layout() La funció s'utilitza per garantir l'espaiat adequat entre subtrama.
burak ozcivit
Avantatges de LLE
El mètode de reducció de la dimensionalitat conegut com a incrustació lineal local (LLE) té molts avantatges per al processament i la visualització de dades. Els següents són els principals avantatges de LLE:
- Preservació de les estructures locals : LLE és excel·lent per mantenir les relacions o estructures locals a les dades. Captura amb èxit la geometria inherent de varietats no lineals mantenint distàncies per parells entre punts de dades propers.
- Tractament de la no linealitat : LLE té la capacitat de capturar patrons i estructures no lineals a les dades, en contrast amb tècniques lineals com ara Anàlisi de components principals (PCA). Quan es treballa amb conjunts de dades complicats, corbats o retorçats, és especialment útil.
- Reducció de la dimensionalitat : LLE redueix la dimensionalitat de les dades tot conservant les seves propietats fonamentals. Particularment quan es treballa amb conjunts de dades d'alta dimensió, aquesta reducció fa que la presentació, l'exploració i l'anàlisi de dades siguin més senzilles.
Inconvenients de LLE
- Maledicció de la dimensionalitat : LLE pot experimentar el maledicció de la dimensionalitat quan s'utilitza amb dades de dimensions extremadament altes, igual que molts altres enfocaments de reducció de la dimensionalitat. El nombre de veïns necessaris per capturar les interaccions locals augmenta a mesura que augmenta la dimensionalitat, augmentant potencialment el cost computacional de l'enfocament.
- Requisits de memòria i computació : Per a grans conjunts de dades, la creació d'una matriu d'adjacència ponderada com a part de LLE pot requerir molta memòria. L'etapa de descomposició de valors propis també pot suposar un impost computacional per a grans conjunts de dades.
- Dades atípiques i sorolloses : LLE és susceptible a anomalies i punts de dades inquietants. La qualitat de la incrustació es pot veure afectada i les relacions lineals locals poden veure's distorsionades per valors atípics.