Aprenentatge automàtic és una branca de la intel·ligència artificial que se centra en el desenvolupament d'algorismes i models estadístics que poden aprendre i fer prediccions sobre les dades. Regressió lineal també és un tipus d'algorisme d'aprenentatge automàtic, més concretament a algorisme d'aprenentatge automàtic supervisat que aprèn dels conjunts de dades etiquetats i mapeja els punts de dades amb les funcions lineals més optimitzades. que es pot utilitzar per a la predicció de nous conjunts de dades.
En primer lloc, hauríem de saber què són els algorismes d'aprenentatge automàtic supervisat. És un tipus d'aprenentatge automàtic on l'algoritme aprèn a partir de dades etiquetades. Dades etiquetades significa el conjunt de dades el valor objectiu respectiu del qual ja es coneix. L'aprenentatge supervisat té dos tipus:
- Classificació : prediu la classe del conjunt de dades en funció de la variable d'entrada independent. La classe són els valors categòrics o discrets. com la imatge d'un animal és un gat o un gos?
- Regressió : prediu les variables de sortida contínues a partir de la variable d'entrada independent. com la predicció dels preus de l'habitatge en funció de diferents paràmetres com l'edat de la casa, la distància de la carretera principal, la ubicació, l'àrea, etc.
Aquí, parlarem d'un dels tipus més senzills de regressió, és a dir. Regressió lineal.
Taula de contingut
- Què és la regressió lineal?
- Tipus de regressió lineal
- Quina és la millor Fit Line?
- Funció de cost per a la regressió lineal
- Supòsits de regressió lineal simple
- Supòsits de regressió lineal múltiple
- Mètriques d'avaluació per a la regressió lineal
- Implementació Python de regressió lineal
- Tècniques de regularització per a models lineals
- Aplicacions de la regressió lineal
- Avantatges i desavantatges de la regressió lineal
- Regression lineal: preguntes més freqüents (FAQ)
Què és la regressió lineal?
La regressió lineal és un tipus de aprenentatge automàtic supervisat algorisme que calcula la relació lineal entre la variable dependent i una o més característiques independents ajustant una equació lineal a les dades observades.
Quan només hi ha una característica independent, es coneix com Regresió lineal simple , i quan hi ha més d'una característica, es coneix com Regressió lineal múltiple .
De la mateixa manera, quan només hi ha una variable dependent, es considera Regressió lineal univariada , mentre que quan hi ha més d'una variable dependent, es coneix com Regressió multivariant .
Per què és important la regressió lineal?
La interpretabilitat de la regressió lineal és una fortalesa notable. L'equació del model proporciona coeficients clars que diluciden l'impacte de cada variable independent sobre la variable dependent, facilitant una comprensió més profunda de la dinàmica subjacent. La seva senzillesa és una virtut, ja que la regressió lineal és transparent, fàcil d'implementar i serveix com a concepte fonamental per a algorismes més complexos.
La regressió lineal no és només una eina predictiva; constitueix la base de diversos models avançats. Tècniques com la regularització i les màquines vectorials de suport s'inspiren en la regressió lineal, ampliant la seva utilitat. A més, la regressió lineal és una pedra angular en les proves d'hipòtesis, que permet als investigadors validar les hipòtesis clau sobre les dades.
Tipus de regressió lineal
Hi ha dos tipus principals de regressió lineal:
Regresió lineal simple
Aquesta és la forma més senzilla de regressió lineal, i només implica una variable independent i una variable dependent. L'equació de regressió lineal simple és:
on:
- Y és la variable dependent
- X és la variable independent
- β0 és la intercepció
- β1 és el pendent
Regressió lineal múltiple
Això implica més d'una variable independent i una variable dependent. L'equació per a la regressió lineal múltiple és:
on:
com actualitzar java
- Y és la variable dependent
- X1, X2, …, Xp són les variables independents
- β0 és la intercepció
- β1, β2, …, βn són els pendents
L'objectiu de l'algorisme és trobar el millor Fit Line equació que pot predir els valors a partir de les variables independents.
A la regressió, hi ha un conjunt de registres amb valors X i Y i aquests valors s'utilitzen per aprendre una funció, de manera que si voleu predir Y a partir d'un X desconegut es pot utilitzar aquesta funció apresa. En regressió hem de trobar el valor de Y, per tant, es requereix una funció que predigui Y contínua en el cas de la regressió donada X com a característiques independents.
Quina és la millor Fit Line?
El nostre objectiu principal quan utilitzem la regressió lineal és localitzar la línia que millor s'ajusta, la qual cosa implica que l'error entre els valors predits i reals s'ha de mantenir al mínim. Hi haurà el menor error a la línia de millor ajust.
La millor equació de la línia d'ajust proporciona una línia recta que representa la relació entre les variables dependents i independents. El pendent de la recta indica quant canvia la variable dependent per a un canvi d'unitat en la o les variables independents.

Regressió lineal
Aquí Y s'anomena variable dependent o objectiu i X s'anomena variable independent també coneguda com a predictor de Y. Hi ha molts tipus de funcions o mòduls que es poden utilitzar per a la regressió. Una funció lineal és el tipus de funció més senzill. Aquí, X pot ser una característica única o múltiples funcions que representen el problema.
La regressió lineal realitza la tasca de predir un valor de variable dependent (y) a partir d'una variable independent determinada (x)). Per tant, el nom és regressió lineal. A la figura anterior, X (input) és l'experiència laboral i Y (output) és el sou d'una persona. La línia de regressió és la que millor s'adapta al nostre model.
cadena per xerrar
Utilitzem la funció de cost per calcular els millors valors per tal d'obtenir la millor línia d'ajust, ja que diferents valors de pesos o el coeficient de línies donen lloc a diferents línies de regressió.
Funció d'hipòtesi en regressió lineal
Com hem suposat anteriorment que la nostra característica independent és l'experiència, és a dir, X i el salari respectiu Y és la variable dependent. Suposem que hi ha una relació lineal entre X i Y, llavors el salari es pot predir mitjançant:
O
Aquí,
y_i epsilon Y ;; (i= 1,2, cdots , n) són etiquetes de dades (aprenentatge supervisat)x_i epsilon X ;; (i= 1,2, cdots , n) són les dades d'entrenament independents d'entrada (univariable - una variable d'entrada (paràmetre))hat{y_i} epsilon hat{Y} ;; (i= 1,2, cdots , n) són els valors previstos.
El model obté la millor línia d'ajust de regressió trobant el millor θ1i θ2valors.
- i 1 : interceptar
- i 2 : coeficient de x
Un cop trobem el millor θ1i θ2valors, obtenim la línia més adequada. Així, quan finalment utilitzem el nostre model per a la predicció, predirà el valor de y per al valor d'entrada de x.
Com actualitzar θ 1 i θ 2 valors per obtenir la línia més adequada?
Per aconseguir la línia de regressió que millor s'ajusta, el model pretén predir el valor objectiu
Funció de cost per a la regressió lineal
El funció de cost o el funció de pèrdua no és més que l'error o la diferència entre el valor previst
En regressió lineal, el Error quadrat mitjà (MSE) s'utilitza la funció de cost, que calcula la mitjana dels errors quadrats entre els valors predits
La funció MSE es pot calcular com:
Utilitzant la funció MSE, s'aplica el procés iteratiu de descens del gradient per actualitzar els valors de
Aquest procés implica ajustar contínuament els paràmetres ( heta_1) i ( heta_2) en funció dels gradients calculats a partir del MSE. El resultat final és una línia de regressió lineal que minimitza les diferències quadrades globals entre els valors predits i reals, proporcionant una representació òptima de la relació subjacent a les dades.
Descens del gradient per a la regressió lineal
Es pot entrenar un model de regressió lineal mitjançant l'algorisme d'optimització descens en gradient modificant iterativament els paràmetres del model per reduir la error quadrat mitjà (MSE) del model en un conjunt de dades d'entrenament. Per actualitzar θ1i θ2valors per tal de reduir la funció de cost (minimitzar el valor RMSE) i aconseguir la línia que millor s'ajusta al model que utilitza Gradient Descent. La idea és començar amb θ aleatori1i θ2valors i després actualitzar iterativament els valors, assolint el cost mínim.
Un gradient no és més que una derivada que defineix els efectes sobre les sortides de la funció amb una mica de variació en les entrades.
Diferenciarem la funció de cost (J) respecte a
Diferenciarem la funció de cost (J) respecte a
Trobar els coeficients d'una equació lineal que s'ajusti millor a les dades d'entrenament és l'objectiu de la regressió lineal. En moure's en la direcció del gradient negatiu de l'error quadrat mitjà respecte als coeficients, es poden canviar els coeficients. I la intercepció i el coeficient respectius de X seran si
Descens Gradient
Supòsits de regressió lineal simple
La regressió lineal és una eina poderosa per entendre i predir el comportament d'una variable, però, ha de complir algunes condicions per tal de ser solucions precises i fiables.
- Linealitat : Les variables independents i dependents tenen una relació lineal entre si. Això implica que els canvis en la variable dependent segueixen els de la variable o variables independents de manera lineal. Això vol dir que hi hauria d'haver una línia recta que es pugui traçar a través dels punts de dades. Si la relació no és lineal, aleshores la regressió lineal no serà un model precís.

- Independència : Les observacions del conjunt de dades són independents les unes de les altres. Això vol dir que el valor de la variable dependent d'una observació no depèn del valor de la variable dependent d'una altra observació. Si les observacions no són independents, aleshores la regressió lineal no serà un model precís.
- Homoscedasticitat : a tots els nivells de les variables independents, la variància dels errors és constant. Això indica que la quantitat de les variables independents no té cap impacte en la variància dels errors. Si la variància dels residus no és constant, aleshores la regressió lineal no serà un model precís.

Homoscedasticitat en regressió lineal
- Normalitat : Els residus s'han de distribuir normalment. Això vol dir que els residus han de seguir una corba en forma de campana. Si els residus no es distribueixen normalment, aleshores la regressió lineal no serà un model precís.
Supòsits de regressió lineal múltiple
Per a la regressió lineal múltiple, s'apliquen els quatre supòsits de la regressió lineal simple. A més d'això, a continuació hi ha alguns més:
- Sense multicolinearitat : No hi ha una alta correlació entre les variables independents. Això indica que hi ha poca o cap correlació entre les variables independents. La multicolinearitat es produeix quan dues o més variables independents estan altament correlacionades entre si, cosa que pot dificultar la determinació de l'efecte individual de cada variable sobre la variable dependent. Si hi ha multicolinealitat, aleshores la regressió lineal múltiple no serà un model precís.
- Addibilitat: El model assumeix que l'efecte dels canvis en una variable predictora sobre la variable resposta és coherent independentment dels valors de les altres variables. Aquesta hipòtesi implica que no hi ha interacció entre variables en els seus efectes sobre la variable dependent.
- Selecció de funcions: En la regressió lineal múltiple, és essencial seleccionar acuradament les variables independents que s'inclouran al model. La inclusió de variables irrellevants o redundants pot comportar un sobreajustament i complicar la interpretació del model.
- Sobreajustament: El sobreajust es produeix quan el model s'ajusta massa a les dades d'entrenament, capturant sorolls o fluctuacions aleatòries que no representen la veritable relació subjacent entre les variables. Això pot provocar un rendiment de generalització deficient en dades noves i no vistes.
Multicolinealitat
Multicolinealitat és un fenomen estadístic que es produeix quan dues o més variables independents en un model de regressió múltiple estan altament correlacionades, cosa que dificulta l'avaluació dels efectes individuals de cada variable sobre la variable dependent.
La detecció de la multicolinealitat inclou dues tècniques:
- Matriu de correlació: L'examen de la matriu de correlació entre les variables independents és una manera habitual de detectar la multicolinealitat. Les correlacions altes (prop de 1 o -1) indiquen una possible multicolinearitat.
- VIF (Factor d'inflació de la variació): VIF és una mesura que quantifica quant augmenta la variància d'un coeficient de regressió estimat si els vostres predictors estan correlacionats. Un VIF alt (normalment per sobre de 10) suggereix multicolinearitat.
Mètriques d'avaluació per a la regressió lineal
Una varietat de mesures d'avaluació es pot utilitzar per determinar la força de qualsevol model de regressió lineal. Aquestes mètriques d'avaluació sovint donen una indicació de com de bé el model està produint els resultats observats.
Les mesures més habituals són:
Error quadrat mitjà (MSE)
Error quadrat mitjà (MSE) és una mètrica d'avaluació que calcula la mitjana de les diferències al quadrat entre els valors reals i predits per a tots els punts de dades. La diferència es quadra per garantir que les diferències negatives i positives no s'anul·lin mútuament.
algorisme kmp
Aquí,
- n és el nombre de punts de dades.
- iiés el valor real o observat de la ithpunt de dades.
widehat{y_{i}} és el valor previst per a la ithpunt de dades.
MSE és una manera de quantificar la precisió de les prediccions d'un model. MSE és sensible als valors atípics, ja que els grans errors contribueixen significativament a la puntuació global.
Error mitjà absolut (MAE)
Error absolut mitjà és una mètrica d'avaluació que s'utilitza per calcular la precisió d'un model de regressió. MAE mesura la diferència absoluta mitjana entre els valors predits i els valors reals.
Matemàticament, MAE s'expressa com:
Aquí,
- n és el nombre d'observacions
- Iirepresenta els valors reals.
widehat{Y_i} representa els valors previstos
Un valor MAE més baix indica un millor rendiment del model. No és sensible als valors atípics, ja que considerem diferències absolutes.
directori a les ordres de Linux
Error quadrat mitjà arrel (RMSE)
L'arrel quadrada de la variància dels residus és la Error quadrat mitjà de l'arrel . Descriu fins a quin punt els punts de dades observats coincideixen amb els valors esperats o l'ajust absolut del model a les dades.
En notació matemàtica, es pot expressar com:
En lloc de dividir el nombre sencer de punts de dades del model pel nombre de graus de llibertat, cal dividir la suma dels residus al quadrat per obtenir una estimació imparcial. Aleshores, aquesta xifra es coneix com a error estàndard residual (RSE).
En notació matemàtica, es pot expressar com:
RSME no és una mètrica tan bona com R-quadrat. L'error quadrat mitjà de l'arrel pot fluctuar quan les unitats de les variables varien, ja que el seu valor depèn de les unitats de les variables (no és una mesura normalitzada).
Coeficient de determinació (R-quadrat)
R-quadrat és una estadística que indica quanta variació pot explicar o captar el model desenvolupat. Sempre està en el rang de 0 a 1. En general, com millor coincideix el model amb les dades, més gran serà el nombre R quadrat.
En notació matemàtica, es pot expressar com:
- Suma residual de quadrats (RSS): The la suma de quadrats del residu per a cada punt de dades de la trama o dades es coneix com a suma de quadrats residuals o RSS. És una mesura de la diferència entre la sortida que es va observar i la que es preveia.
RSS=sum_{i=2}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2} - Suma total de quadrats (TSS): La suma dels errors dels punts de dades a partir de la mitjana de la variable de resposta es coneix com a suma total de quadrats o TSS.
TSS= sum_{}^{}(y-overline{y_{i}})^2
La mètrica R quadrat és una mesura de la proporció de variància en la variable dependent que s'explica a les variables independents del model.
Error R-quadrat ajustat
R ajustat2mesura la proporció de variància de la variable dependent que s'explica per variables independents en un model de regressió. R-quadrat ajustat compta amb el nombre de predictors del model i penalitza el model per incloure predictors irrellevants que no contribueixen significativament a explicar la variància de les variables dependents.
Matemàticament, R ajustat2s'expressa com:
Aquí,
- n és el nombre d'observacions
- k és el nombre de predictors del model
- R2és el coeficient de determinació
El quadrat R ajustat ajuda a evitar un sobreajustament. Penaliza el model amb predictors addicionals que no contribueixen significativament a explicar la variància de la variable dependent.
Implementació Python de regressió lineal
Importa les biblioteques necessàries:
Python 3 import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.axes as ax from matplotlib.animation import FuncAnimation> Carregueu el conjunt de dades i separeu les variables d'entrada i de destinació
Aquí teniu l'enllaç per al conjunt de dades: Enllaç al conjunt de dades
Python 3 url = 'https://media.techcodeview.com data = pd.read_csv(url) data # Drop the missing values data = data.dropna() # training dataset and labels train_input = np.array(data.x[0:500]).reshape(500, 1) train_output = np.array(data.y[0:500]).reshape(500, 1) # valid dataset and labels test_input = np.array(data.x[500:700]).reshape(199, 1) test_output = np.array(data.y[500:700]).reshape(199, 1)> Construeix el model de regressió lineal i traça la recta de regressió
Passos:
- En la propagació directa, la funció de regressió lineal Y=mx+c s'aplica assignant inicialment un valor aleatori del paràmetre (m & c).
- Hem escrit la funció per trobar la funció de cost, és a dir, la mitjana

