REGRESSIÓ LOGÍSTICA EN APRENENTATGE AUTOMÀTIC

Regressió logística és un algorisme d'aprenentatge automàtic supervisat usat per tasques de classificació on l'objectiu és predir la probabilitat que una instància pertanyi o no a una classe determinada. La regressió logística és un algorisme estadístic que analitza la relació entre dos factors de dades. L'article explora els fonaments de la regressió logística, els seus tipus i implementacions.

Taula de contingut

Què és la regressió logística?
Funció logística – Funció sigmoide
Tipus de regressió logística
Supòsits de regressió logística
Com funciona la regressió logística?
Implementació de codi per a la regressió logística
Compartiment de precisió i recordatori en la configuració del llindar de regressió logística
Com avaluar el model de regressió logística?
Diferències entre regressió lineal i logística

Què és la regressió logística?

La regressió logística s'utilitza per al binari classificació on fem servir funció sigmoide , que pren l'entrada com a variables independents i produeix un valor de probabilitat entre 0 i 1.

cadena java de la matriu

Per exemple, tenim dues classes Classe 0 i Classe 1 si el valor de la funció logística d'una entrada és superior a 0,5 (valor llindar), aleshores pertany a la Classe 1, en cas contrari, pertany a la Classe 0. Es coneix com a regressió perquè és l'extensió de regressió lineal però s'utilitza principalment per a problemes de classificació.

Punts clau:

La regressió logística prediu la sortida d'una variable dependent categòrica. Per tant, el resultat ha de ser un valor categòric o discret.
Pot ser Sí o No, 0 o 1, vertader o fals, etc., però en lloc de donar el valor exacte com a 0 i 1, dóna els valors probabilístics que es troben entre 0 i 1.
A la regressió logística, en lloc d'ajustar una línia de regressió, ajustem una funció logística en forma de S, que prediu dos valors màxims (0 o 1).

Funció logística – Funció sigmoide

La funció sigmoide és una funció matemàtica utilitzada per mapejar els valors predits amb probabilitats.
Mapeja qualsevol valor real en un altre valor dins d'un rang de 0 i 1. El valor de la regressió logística ha d'estar entre 0 i 1, que no pot anar més enllà d'aquest límit, de manera que forma una corba com la forma S.
La corba de forma S s'anomena funció sigmoide o funció logística.
En la regressió logística, utilitzem el concepte de valor llindar, que defineix la probabilitat de 0 o 1. Com ara els valors per sobre del valor de llindar tendeixen a 1, i un valor per sota dels valors de llindar tendeix a 0.

Tipus de regressió logística

A partir de les categories, la regressió logística es pot classificar en tres tipus:

Binomi: En la regressió logística binomial, només hi pot haver dos tipus possibles de variables dependents, com ara 0 o 1, Aprovat o No, etc.
Multinomial: En regressió logística multinomial, hi pot haver 3 o més tipus possibles no ordenats de la variable dependent, com ara gats, gossos o ovelles.
Ordinal: En la regressió logística ordinal, hi pot haver 3 o més tipus possibles ordenats de variables dependents, com ara baixa, mitjana o alta.

Supòsits de regressió logística

Explorarem els supòsits de regressió logística, ja que la comprensió d'aquestes hipòtesis és important per assegurar-nos que estem utilitzant l'aplicació adequada del model. La hipòtesi inclou:

Observacions independents: cada observació és independent de l'altra. és a dir, no hi ha correlació entre cap variable d'entrada.
Variables dependents binàries: es suposa que la variable dependent ha de ser binària o dicotòmica, és a dir, només pot prendre dos valors. Per a més de dues categories s'utilitzen funcions SoftMax.
Relació de linealitat entre variables independents i probabilitats logarítmiques: la relació entre les variables independents i les probabilitats logarítmiques de la variable dependent hauria de ser lineal.
Sense valors atípics: no hi hauria d'haver cap valor atípic al conjunt de dades.
Gran mida de la mostra: la mida de la mostra és prou gran

Terminologies implicades en la regressió logística

Aquests són alguns termes comuns implicats en la regressió logística:

Variables independents: Les característiques d'entrada o factors predictors aplicats a les prediccions de la variable dependent.
Variable dependent: La variable objectiu en un model de regressió logística, que estem intentant predir.
Funció logística: La fórmula utilitzada per representar com es relacionen les variables independents i dependents entre si. La funció logística transforma les variables d'entrada en un valor de probabilitat entre 0 i 1, que representa la probabilitat que la variable dependent sigui 1 o 0.
Possibilitats: És la proporció entre quelcom que passa i quelcom que no passa. és diferent de la probabilitat, ja que la probabilitat és la proporció d'alguna cosa que passa amb tot el que podria passar.
Probabilitats de registre: El log-odds, també conegut com a funció logit, és el logaritme natural de les probabilitats. En la regressió logística, les probabilitats logarítmiques de la variable dependent es modelen com una combinació lineal de les variables independents i la intercepció.
Coeficient: Els paràmetres estimats del model de regressió logística mostren com es relacionen les variables independents i dependents entre si.
Intercepció: Un terme constant en el model de regressió logística, que representa la probabilitat logarítmica quan totes les variables independents són iguals a zero.
Estimació de la màxima versemblança : El mètode utilitzat per estimar els coeficients del model de regressió logística, que maximitza la probabilitat d'observar les dades donades el model.

Com funciona la regressió logística?

El model de regressió logística transforma el regressió lineal funció de sortida de valor continu en una sortida de valor categòric mitjançant una funció sigmoide, que mapeja qualsevol conjunt de variables independents amb valors reals d'entrada en un valor entre 0 i 1. Aquesta funció es coneix com a funció logística.

Siguin les característiques d'entrada independents:

X = egin{bmatrix} x_{11} & … & x_{1m} x_{21} & … & x_{2m} vdots & ddots & vdots x_{n1} & … & x_{nm} end{bmatrix}

i la variable dependent és Y que només té un valor binari, és a dir, 0 o 1.

Y = egin{cases} 0 & ext{ if } Class;1 1 & ext{ if } Class;2 end{cases}

després, apliqueu la funció multilineal a les variables d'entrada X.

z = left(sum_{i=1}^{n} w_{i}x_{i} ight) + b

Aquíx_i és la i-ésima observació de X,w_i = [w_1, w_2, w_3, cdots,w_m] és els pesos o coeficient, i b és el terme de biaix també conegut com a intercepció. simplement això es pot representar com el producte escalat del pes i el biaix.

z = wcdot X +b

tot el que hem comentat anteriorment és el regressió lineal .

Funció sigmoide

Ara fem servir el funció sigmoide on l'entrada serà z i trobem la probabilitat entre 0 i 1. és a dir, y predit.

sigma(z) = frac{1}{1-e^{-z}}

Funció sigmoide

Com es mostra a dalt, la funció sigmoide de la figura converteix les dades de la variable contínua en el probabilitat és a dir, entre 0 i 1.

sigma(z) tendeix cap a 1 comz ightarrowinfty
sigma(z) tendeix cap a 0 comz ightarrow-infty
sigma(z) sempre està acotat entre 0 i 1

on la probabilitat de ser una classe es pot mesurar com:

P(y=1) = sigma(z) P(y=0) = 1-sigma(z)

Equació de regressió logística

L'estrany és la proporció entre quelcom que passa i quelcom que no passa. és diferent de la probabilitat, ja que la probabilitat és la proporció d'alguna cosa que passa amb tot el que podria passar. tan estrany serà:

frac{p(x)}{1-p(x)} = e^z

Aplicació de registre natural en senar. llavors el registre senar serà:

egin{aligned} log left[frac{p(x)}{1-p(x)} ight] &= z log left[frac{p(x)}{1-p(x)} ight] &= wcdot X +b frac{p(x)}{1-p(x)}&= e^{wcdot X +b} ;;cdots ext{Exponentiate both sides} p(x) &=e^{wcdot X +b}cdot (1-p(x)) p(x) &=e^{wcdot X +b}-e^{wcdot X +b}cdot p(x)) p(x)+e^{wcdot X +b}cdot p(x))&=e^{wcdot X +b} p(x)(1+e^{wcdot X +b}) &=e^{wcdot X +b} p(x)&= frac{e^{wcdot X +b}}{1+e^{wcdot X +b}} end{aligned}

aleshores l'equació final de regressió logística serà:

p(X;b,w) = frac{e^{wcdot X +b}}{1+e^{wcdot X +b}} = frac{1}{1+e^{-wcdot X +b}}

Funció de probabilitat per a la regressió logística

Les probabilitats previstes seran:

per a y=1 Les probabilitats previstes seran: p(X;b,w) = p(x)
per a y = 0 Les probabilitats previstes seran: 1-p(X;b,w) = 1-p(x)

L(b,w) = prod_{i=1}^{n}p(x_i)^{y_i}(1-p(x_i))^{1-y_i}

Prenent troncs naturals a banda i banda

egin{aligned}log(L(b,w)) &= sum_{i=1}^{n} y_ilog p(x_i);+; (1-y_i)log(1-p(x_i)) &=sum_{i=1}^{n} y_ilog p(x_i)+log(1-p(x_i))-y_ilog(1-p(x_i)) &=sum_{i=1}^{n} log(1-p(x_i)) +sum_{i=1}^{n}y_ilog frac{p(x_i)}{1-p(x_i} &=sum_{i=1}^{n} -log1-e^{-(wcdot x_i+b)} +sum_{i=1}^{n}y_i (wcdot x_i +b) &=sum_{i=1}^{n} -log1+e^{wcdot x_i+b} +sum_{i=1}^{n}y_i (wcdot x_i +b) end{aligned}

Gradient de la funció de logaritme de verosimilitud

Per trobar les estimacions de màxima versemblança, diferenciem w.r.t w,

egin{aligned} frac{partial J(l(b,w)}{partial w_j}&=-sum_{i=n}^{n}frac{1}{1+e^{wcdot x_i+b}}e^{wcdot x_i+b} x_{ij} +sum_{i=1}^{n}y_{i}x_{ij} &=-sum_{i=n}^{n}p(x_i;b,w)x_{ij}+sum_{i=1}^{n}y_{i}x_{ij} &=sum_{i=n}^{n}(y_i -p(x_i;b,w))x_{ij} end{aligned}

Implementació de codi per a la regressió logística

Regresió logística binomial:

La variable objectiu només pot tenir 2 tipus possibles: 0 o 1 que pot representar victòria contra pèrdua, passada vs fallada, morta vs viva, etc., en aquest cas, s'utilitzen funcions sigmoides, que ja s'han comentat anteriorment.

Importació de les biblioteques necessàries en funció del requisit del model. Aquest codi de Python mostra com utilitzar el conjunt de dades de càncer de mama per implementar un model de regressió logística per a la classificació.

cadena i subcadena

Python 3

 # import the necessary libraries from sklearn.datasets import load_breast_cancer from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # load the breast cancer dataset X, y = load_breast_cancer(return_X_y=True) # split the train and test dataset X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=23) # LogisticRegression clf = LogisticRegression(random_state=0) clf.fit(X_train, y_train) # Prediction y_pred = clf.predict(X_test) acc = accuracy_score(y_test, y_pred) print('Logistic Regression model accuracy (in %):', acc*100)>

Sortida :

Precisió del model de regressió logística (en %): 95,6140350877193

Regresió logística multinomial:

La variable objectiu pot tenir 3 o més tipus possibles que no estan ordenats (és a dir, els tipus no tenen significació quantitativa) com la malaltia A vs la malaltia B vs la malaltia C.

En aquest cas, s'utilitza la funció softmax en lloc de la funció sigmoide. Funció Softmax per a les classes de K serà:

ext{softmax}(z_i) =frac{ e^{z_i}}{sum_{j=1}^{K}e^{z_{j}}}

Aquí, K representa el nombre d'elements del vector z, i i, j itera sobre tots els elements del vector.

Aleshores la probabilitat per a la classe c serà:

P(Y=c | overrightarrow{X}=x) = frac{e^{w_c cdot x + b_c}}{sum_{k=1}^{K}e^{w_k cdot x + b_k}}

En regressió logística multinomial, la variable de sortida pot tenir més de dues possibles sortides discretes . Considereu el conjunt de dades de dígits.

Python 3

 from sklearn.model_selection import train_test_split from sklearn import datasets, linear_model, metrics # load the digit dataset digits = datasets.load_digits() # defining feature matrix(X) and response vector(y) X = digits.data y = digits.target # splitting X and y into training and testing sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=1) # create logistic regression object reg = linear_model.LogisticRegression() # train the model using the training sets reg.fit(X_train, y_train) # making predictions on the testing set y_pred = reg.predict(X_test) # comparing actual response values (y_test) # with predicted response values (y_pred) print('Logistic Regression model accuracy(in %):', metrics.accuracy_score(y_test, y_pred)*100)>

Sortida:

Precisió del model de regressió logística (en %): 96,52294853963839

Com avaluar el model de regressió logística?

Podem avaluar el model de regressió logística mitjançant les mètriques següents:

Precisió: Precisió proporciona la proporció d'instàncies classificades correctament.
Accuracy = frac{True , Positives + True , Negatives}{Total}

Precisió: Precisió se centra en la precisió de les prediccions positives.
Precision = frac{True , Positives }{True, Positives + False , Positives}

Recordatori (sensibilitat o taxa de veritable positiu): Recorda mesura la proporció de casos positius predits correctament entre tots els casos positius reals.
Recall = frac{ True , Positives}{True, Positives + False , Negatives}

Puntuació F1: Puntuació F1 és la mitjana harmònica de precisió i record.
F1 , Score = 2 * frac{Precision * Recall}{Precision + Recall}

Àrea sota la corba característica de funcionament del receptor (AUC-ROC): La corba ROC representa la taxa de veritable positiu contra la taxa de fals positiu en diversos llindars. AUC-ROC mesura l'àrea sota aquesta corba, proporcionant una mesura agregada del rendiment d'un model a través de diferents llindars de classificació.
Àrea sota la corba de record de precisió (AUC-PR): Similar a AUC-ROC, AUC-PR mesura l'àrea sota la corba de record de precisió, proporcionant un resum del rendiment d'un model a través de diferents compensacions de record de precisió.

Compartiment de precisió i recordatori en la configuració del llindar de regressió logística

La regressió logística es converteix en una tècnica de classificació només quan es posa en escena un llindar de decisió. L'establiment del valor llindar és un aspecte molt important de la regressió logística i depèn del propi problema de classificació.

La decisió sobre el valor del valor llindar es veu principalment afectada pels valors de precisió i record. L'ideal és que tant la precisió com la memòria siguin 1, però rarament és així.

En el cas d'a Compartiment precisió-record , fem servir els arguments següents per decidir sobre el llindar:

Baixa precisió/Alta memòria: En aplicacions on volem reduir el nombre de falsos negatius sense reduir necessàriament el nombre de falsos positius, escollim un valor de decisió que tingui un valor baix de Precisió o un valor elevat de Recuperació. Per exemple, en una aplicació de diagnòstic de càncer, no volem que cap pacient afectat es classifiqui com a no afectat sense prestar molta atenció a si el pacient està sent diagnosticat injustament de càncer. Això es deu al fet que l'absència de càncer es pot detectar per altres malalties mèdiques, però la presència de la malaltia no es pot detectar en un candidat ja rebutjat.
Alta precisió/Baixa memòria: En aplicacions on volem reduir el nombre de falsos positius sense reduir necessàriament el nombre de falsos negatius, escollim un valor de decisió que tingui un valor elevat de Precisió o un valor baix de Recuperació. Per exemple, si estem classificant els clients si reaccionaran positivament o negativament a un anunci personalitzat, volem estar absolutament segurs que el client reaccionarà positivament a l'anunci perquè, en cas contrari, una reacció negativa pot provocar una pèrdua de vendes potencials de l'anunci. client.

Diferències entre regressió lineal i logística

La diferència entre la regressió lineal i la regressió logística és que la sortida de la regressió lineal és el valor continu que pot ser qualsevol cosa, mentre que la regressió logística prediu la probabilitat que una instància pertanyi o no a una classe determinada.

sql per ordre aleatori

Regressió lineal	Regressió logística
La regressió lineal s'utilitza per predir la variable dependent contínua utilitzant un conjunt determinat de variables independents.	La regressió logística s'utilitza per predir la variable dependent categòrica utilitzant un conjunt determinat de variables independents.
La regressió lineal s'utilitza per resoldre problemes de regressió.	S'utilitza per resoldre problemes de classificació.
En això predim el valor de les variables contínues	En això predim valors de variables categòriques
En això trobem la millor línia d'ajust.	En aquest trobem la corba S.
Per a l'estimació de la precisió s'utilitza el mètode d'estimació de mínims quadrats.	S'utilitza el mètode d'estimació de la màxima versemblança per a l'estimació de la precisió.
La sortida ha de ser un valor continu, com ara el preu, l'edat, etc.	La sortida ha de ser un valor categòric com ara 0 o 1, Sí o no, etc.
Requereix una relació lineal entre variables dependents i independents.	No requeria una relació lineal.
Pot haver-hi colinealitat entre les variables independents.	No hi hauria d'haver colinealitat entre variables independents.

Regression logística: preguntes freqüents (FAQ)

Què és la regressió logística en l'aprenentatge automàtic?

La regressió logística és un mètode estadístic per desenvolupar models d'aprenentatge automàtic amb variables dependents binàries, és a dir, binàries. La regressió logística és una tècnica estadística utilitzada per descriure dades i la relació entre una variable dependent i una o més variables independents.

Quins són els tres tipus de regressió logística?

La regressió logística es classifica en tres tipus: binària, multinomial i ordinal. Es diferencien tant en l'execució com en la teoria. La regressió binària es refereix a dos possibles resultats: sí o no. La regressió logística multinomial s'utilitza quan hi ha tres o més valors.

Per què s'utilitza la regressió logística per als problemes de classificació?

La regressió logística és més fàcil d'implementar, interpretar i entrenar. Classifica els registres desconeguts molt ràpidament. Quan el conjunt de dades és linealment separable, funciona bé. Els coeficients del model es poden interpretar com a indicadors d'importància de les característiques.

Què distingeix la regressió logística de la regressió lineal?

Mentre que la regressió lineal s'utilitza per predir resultats continus, la regressió logística s'utilitza per predir la probabilitat que una observació caigui en una categoria específica. La regressió logística utilitza una funció logística en forma de S per mapejar els valors previstos entre 0 i 1.

Quin paper juga la funció logística en la regressió logística?

La regressió logística es basa en la funció logística per convertir la sortida en una puntuació de probabilitat. Aquesta puntuació representa la probabilitat que una observació pertanyi a una classe determinada. La corba en forma de S ajuda a llindar i categoritzar les dades en resultats binaris.

TechCodeview

Què és la regressió logística?

Punts clau:

Funció logística – Funció sigmoide

Tipus de regressió logística

Supòsits de regressió logística

Terminologies implicades en la regressió logística

Com funciona la regressió logística?

Funció sigmoide

Equació de regressió logística

Funció de probabilitat per a la regressió logística

Gradient de la funció de logaritme de verosimilitud

Implementació de codi per a la regressió logística

Regresió logística binomial:

Regresió logística multinomial:

Com avaluar el model de regressió logística?

Compartiment de precisió i recordatori en la configuració del llindar de regressió logística

Diferències entre regressió lineal i logística

Regression logística: preguntes freqüents (FAQ)

Què és la regressió logística en l'aprenentatge automàtic?

Quins són els tres tipus de regressió logística?

Per què s'utilitza la regressió logística per als problemes de classificació?

Què distingeix la regressió logística de la regressió lineal?

Quin paper juga la funció logística en la regressió logística?