logo

La regressió lineal en l'aprenentatge automàtic

Aprenentatge automàtic és una branca de la intel·ligència artificial que se centra en el desenvolupament d'algorismes i models estadístics que poden aprendre i fer prediccions sobre les dades. Regressió lineal també és un tipus d'algorisme d'aprenentatge automàtic, més concretament a algorisme d'aprenentatge automàtic supervisat que aprèn dels conjunts de dades etiquetats i mapeja els punts de dades amb les funcions lineals més optimitzades. que es pot utilitzar per a la predicció de nous conjunts de dades.

En primer lloc, hauríem de saber què són els algorismes d'aprenentatge automàtic supervisat. És un tipus d'aprenentatge automàtic on l'algoritme aprèn a partir de dades etiquetades. Dades etiquetades significa el conjunt de dades el valor objectiu respectiu del qual ja es coneix. L'aprenentatge supervisat té dos tipus:

  • Classificació : prediu la classe del conjunt de dades en funció de la variable d'entrada independent. La classe són els valors categòrics o discrets. com la imatge d'un animal és un gat o un gos?
  • Regressió : prediu les variables de sortida contínues a partir de la variable d'entrada independent. com la predicció dels preus de l'habitatge en funció de diferents paràmetres com l'edat de la casa, la distància de la carretera principal, la ubicació, l'àrea, etc.

Aquí, parlarem d'un dels tipus més senzills de regressió, és a dir. Regressió lineal.



Taula de contingut

Què és la regressió lineal?

La regressió lineal és un tipus de aprenentatge automàtic supervisat algorisme que calcula la relació lineal entre la variable dependent i una o més característiques independents ajustant una equació lineal a les dades observades.

Quan només hi ha una característica independent, es coneix com Regresió lineal simple , i quan hi ha més d'una característica, es coneix com Regressió lineal múltiple .

De la mateixa manera, quan només hi ha una variable dependent, es considera Regressió lineal univariada , mentre que quan hi ha més d'una variable dependent, es coneix com Regressió multivariant .

Per què és important la regressió lineal?

La interpretabilitat de la regressió lineal és una fortalesa notable. L'equació del model proporciona coeficients clars que diluciden l'impacte de cada variable independent sobre la variable dependent, facilitant una comprensió més profunda de la dinàmica subjacent. La seva senzillesa és una virtut, ja que la regressió lineal és transparent, fàcil d'implementar i serveix com a concepte fonamental per a algorismes més complexos.

La regressió lineal no és només una eina predictiva; constitueix la base de diversos models avançats. Tècniques com la regularització i les màquines vectorials de suport s'inspiren en la regressió lineal, ampliant la seva utilitat. A més, la regressió lineal és una pedra angular en les proves d'hipòtesis, que permet als investigadors validar les hipòtesis clau sobre les dades.

Tipus de regressió lineal

Hi ha dos tipus principals de regressió lineal:

Regresió lineal simple

Aquesta és la forma més senzilla de regressió lineal, i només implica una variable independent i una variable dependent. L'equació de regressió lineal simple és:
y=eta_{0}+eta_{1}X
on:

  • Y és la variable dependent
  • X és la variable independent
  • β0 és la intercepció
  • β1 és el pendent

Regressió lineal múltiple

Això implica més d'una variable independent i una variable dependent. L'equació per a la regressió lineal múltiple és:
y=eta_{0}+eta_{1}X+eta_{2}X+………eta_{n}X
on:

com actualitzar java
  • Y és la variable dependent
  • X1, X2, …, Xp són les variables independents
  • β0 és la intercepció
  • β1, β2, …, βn són els pendents

L'objectiu de l'algorisme és trobar el millor Fit Line equació que pot predir els valors a partir de les variables independents.

A la regressió, hi ha un conjunt de registres amb valors X i Y i aquests valors s'utilitzen per aprendre una funció, de manera que si voleu predir Y a partir d'un X desconegut es pot utilitzar aquesta funció apresa. En regressió hem de trobar el valor de Y, per tant, es requereix una funció que predigui Y contínua en el cas de la regressió donada X com a característiques independents.

Quina és la millor Fit Line?

El nostre objectiu principal quan utilitzem la regressió lineal és localitzar la línia que millor s'ajusta, la qual cosa implica que l'error entre els valors predits i reals s'ha de mantenir al mínim. Hi haurà el menor error a la línia de millor ajust.

La millor equació de la línia d'ajust proporciona una línia recta que representa la relació entre les variables dependents i independents. El pendent de la recta indica quant canvia la variable dependent per a un canvi d'unitat en la o les variables independents.

La regressió lineal en l'aprenentatge automàtic

Regressió lineal


Aquí Y s'anomena variable dependent o objectiu i X s'anomena variable independent també coneguda com a predictor de Y. Hi ha molts tipus de funcions o mòduls que es poden utilitzar per a la regressió. Una funció lineal és el tipus de funció més senzill. Aquí, X pot ser una característica única o múltiples funcions que representen el problema.

La regressió lineal realitza la tasca de predir un valor de variable dependent (y) a partir d'una variable independent determinada (x)). Per tant, el nom és regressió lineal. A la figura anterior, X (input) és l'experiència laboral i Y (output) és el sou d'una persona. La línia de regressió és la que millor s'adapta al nostre model.

cadena per xerrar

Utilitzem la funció de cost per calcular els millors valors per tal d'obtenir la millor línia d'ajust, ja que diferents valors de pesos o el coeficient de línies donen lloc a diferents línies de regressió.

Funció d'hipòtesi en regressió lineal

Com hem suposat anteriorment que la nostra característica independent és l'experiència, és a dir, X i el salari respectiu Y és la variable dependent. Suposem que hi ha una relació lineal entre X i Y, llavors el salari es pot predir mitjançant:

hat{Y} = heta_1 + heta_2X

O

hat{y}_i = heta_1 + heta_2x_i

Aquí,

  • y_i epsilon Y ;; (i= 1,2, cdots , n) són etiquetes de dades (aprenentatge supervisat)
  • x_i epsilon X ;; (i= 1,2, cdots , n) són les dades d'entrenament independents d'entrada (univariable - una variable d'entrada (paràmetre))
  • hat{y_i} epsilon hat{Y} ;; (i= 1,2, cdots , n) són els valors previstos.

El model obté la millor línia d'ajust de regressió trobant el millor θ1i θ2valors.

  • i 1 : interceptar
  • i 2 : coeficient de x

Un cop trobem el millor θ1i θ2valors, obtenim la línia més adequada. Així, quan finalment utilitzem el nostre model per a la predicció, predirà el valor de y per al valor d'entrada de x.

Com actualitzar θ 1 i θ 2 valors per obtenir la línia més adequada?

Per aconseguir la línia de regressió que millor s'ajusta, el model pretén predir el valor objectiuhat{Y} tal que la diferència d'error entre el valor previsthat{Y} i el valor real Y és mínim. Per tant, és molt important actualitzar el θ1i θ2valors, per assolir el millor valor que minimitzi l'error entre el valor y predit (pred) i el valor y real (y).

minimizefrac{1}{n}sum_{i=1}^{n}(hat{y_i}-y_i)^2

Funció de cost per a la regressió lineal

El funció de cost o el funció de pèrdua no és més que l'error o la diferència entre el valor previsthat{Y} i el valor real Y.

En regressió lineal, el Error quadrat mitjà (MSE) s'utilitza la funció de cost, que calcula la mitjana dels errors quadrats entre els valors preditshat{y}_i i els valors reals{y}_i . El propòsit és determinar els valors òptims per a la intercepció heta_1 i el coeficient de la característica d'entrada heta_2 proporcionant la línia més adequada per als punts de dades donats. L'equació lineal que expressa aquesta relació éshat{y}_i = heta_1 + heta_2x_i .

La funció MSE es pot calcular com:

ext{Cost function}(J) = frac{1}{n}sum_{n}^{i}(hat{y_i}-y_i)^2

Utilitzant la funció MSE, s'aplica el procés iteratiu de descens del gradient per actualitzar els valors de heta_1 & heta_2 . Això garanteix que el valor MSE convergeixi als mínims globals, cosa que significa l'ajust més precís de la línia de regressió lineal al conjunt de dades.

Aquest procés implica ajustar contínuament els paràmetres ( heta_1) i ( heta_2) en funció dels gradients calculats a partir del MSE. El resultat final és una línia de regressió lineal que minimitza les diferències quadrades globals entre els valors predits i reals, proporcionant una representació òptima de la relació subjacent a les dades.

Descens del gradient per a la regressió lineal

Es pot entrenar un model de regressió lineal mitjançant l'algorisme d'optimització descens en gradient modificant iterativament els paràmetres del model per reduir la error quadrat mitjà (MSE) del model en un conjunt de dades d'entrenament. Per actualitzar θ1i θ2valors per tal de reduir la funció de cost (minimitzar el valor RMSE) i aconseguir la línia que millor s'ajusta al model que utilitza Gradient Descent. La idea és començar amb θ aleatori1i θ2valors i després actualitzar iterativament els valors, assolint el cost mínim.

Un gradient no és més que una derivada que defineix els efectes sobre les sortides de la funció amb una mica de variació en les entrades.

Diferenciarem la funció de cost (J) respecte a heta_1

egin {aligned} {J}’_{ heta_1} &=frac{partial J( heta_1, heta_2)}{partial heta_1} &= frac{partial}{partial heta_1} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(1+0-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2 ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) end {aligned}

Diferenciarem la funció de cost (J) respecte a heta_2

egin {aligned} {J}’_{ heta_2} &=frac{partial J( heta_1, heta_2)}{partial heta_2} &= frac{partial}{partial heta_2} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(0+x_i-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2x_i ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i end {aligned}

Trobar els coeficients d'una equació lineal que s'ajusti millor a les dades d'entrenament és l'objectiu de la regressió lineal. En moure's en la direcció del gradient negatiu de l'error quadrat mitjà respecte als coeficients, es poden canviar els coeficients. I la intercepció i el coeficient respectius de X seran sialpha és la taxa d'aprenentatge.

Descens Gradient

egin{aligned} heta_1 &= heta_1 – alpha left( {J}’_{ heta_1} ight) &= heta_1 -alpha left( frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) ight) end{aligned} egin{aligned} heta_2 &= heta_2 – alpha left({J}’_{ heta_2} ight) &= heta_2 – alpha left(frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i ight) end{aligned}

Supòsits de regressió lineal simple

La regressió lineal és una eina poderosa per entendre i predir el comportament d'una variable, però, ha de complir algunes condicions per tal de ser solucions precises i fiables.

  1. Linealitat : Les variables independents i dependents tenen una relació lineal entre si. Això implica que els canvis en la variable dependent segueixen els de la variable o variables independents de manera lineal. Això vol dir que hi hauria d'haver una línia recta que es pugui traçar a través dels punts de dades. Si la relació no és lineal, aleshores la regressió lineal no serà un model precís.
  2. Independència : Les observacions del conjunt de dades són independents les unes de les altres. Això vol dir que el valor de la variable dependent d'una observació no depèn del valor de la variable dependent d'una altra observació. Si les observacions no són independents, aleshores la regressió lineal no serà un model precís.
  3. Homoscedasticitat : a tots els nivells de les variables independents, la variància dels errors és constant. Això indica que la quantitat de les variables independents no té cap impacte en la variància dels errors. Si la variància dels residus no és constant, aleshores la regressió lineal no serà un model precís.

    Homoscedasticitat en regressió lineal

  4. Normalitat : Els residus s'han de distribuir normalment. Això vol dir que els residus han de seguir una corba en forma de campana. Si els residus no es distribueixen normalment, aleshores la regressió lineal no serà un model precís.

Supòsits de regressió lineal múltiple

Per a la regressió lineal múltiple, s'apliquen els quatre supòsits de la regressió lineal simple. A més d'això, a continuació hi ha alguns més:

  1. Sense multicolinearitat : No hi ha una alta correlació entre les variables independents. Això indica que hi ha poca o cap correlació entre les variables independents. La multicolinearitat es produeix quan dues o més variables independents estan altament correlacionades entre si, cosa que pot dificultar la determinació de l'efecte individual de cada variable sobre la variable dependent. Si hi ha multicolinealitat, aleshores la regressió lineal múltiple no serà un model precís.
  2. Addibilitat: El model assumeix que l'efecte dels canvis en una variable predictora sobre la variable resposta és coherent independentment dels valors de les altres variables. Aquesta hipòtesi implica que no hi ha interacció entre variables en els seus efectes sobre la variable dependent.
  3. Selecció de funcions: En la regressió lineal múltiple, és essencial seleccionar acuradament les variables independents que s'inclouran al model. La inclusió de variables irrellevants o redundants pot comportar un sobreajustament i complicar la interpretació del model.
  4. Sobreajustament: El sobreajust es produeix quan el model s'ajusta massa a les dades d'entrenament, capturant sorolls o fluctuacions aleatòries que no representen la veritable relació subjacent entre les variables. Això pot provocar un rendiment de generalització deficient en dades noves i no vistes.

Multicolinealitat

Multicolinealitat és un fenomen estadístic que es produeix quan dues o més variables independents en un model de regressió múltiple estan altament correlacionades, cosa que dificulta l'avaluació dels efectes individuals de cada variable sobre la variable dependent.

La detecció de la multicolinealitat inclou dues tècniques:

  • Matriu de correlació: L'examen de la matriu de correlació entre les variables independents és una manera habitual de detectar la multicolinealitat. Les correlacions altes (prop de 1 o -1) indiquen una possible multicolinearitat.
  • VIF (Factor d'inflació de la variació): VIF és una mesura que quantifica quant augmenta la variància d'un coeficient de regressió estimat si els vostres predictors estan correlacionats. Un VIF alt (normalment per sobre de 10) suggereix multicolinearitat.

Mètriques d'avaluació per a la regressió lineal

Una varietat de mesures d'avaluació es pot utilitzar per determinar la força de qualsevol model de regressió lineal. Aquestes mètriques d'avaluació sovint donen una indicació de com de bé el model està produint els resultats observats.

Les mesures més habituals són:

Error quadrat mitjà (MSE)

Error quadrat mitjà (MSE) és una mètrica d'avaluació que calcula la mitjana de les diferències al quadrat entre els valors reals i predits per a tots els punts de dades. La diferència es quadra per garantir que les diferències negatives i positives no s'anul·lin mútuament.

algorisme kmp

MSE = frac{1}{n}sum_{i=1}^{n}left ( y_i – widehat{y_{i}} ight )^2

Aquí,

  • n és el nombre de punts de dades.
  • iiés el valor real o observat de la ithpunt de dades.
  • widehat{y_{i}} és el valor previst per a la ithpunt de dades.

MSE és una manera de quantificar la precisió de les prediccions d'un model. MSE és sensible als valors atípics, ja que els grans errors contribueixen significativament a la puntuació global.

Error mitjà absolut (MAE)

Error absolut mitjà és una mètrica d'avaluació que s'utilitza per calcular la precisió d'un model de regressió. MAE mesura la diferència absoluta mitjana entre els valors predits i els valors reals.

Matemàticament, MAE s'expressa com:

MAE =frac{1}{n} sum_{i=1}^{n}|Y_i – widehat{Y_i}|

Aquí,

  • n és el nombre d'observacions
  • Iirepresenta els valors reals.
  • widehat{Y_i} representa els valors previstos

Un valor MAE més baix indica un millor rendiment del model. No és sensible als valors atípics, ja que considerem diferències absolutes.

directori a les ordres de Linux

Error quadrat mitjà arrel (RMSE)

L'arrel quadrada de la variància dels residus és la Error quadrat mitjà de l'arrel . Descriu fins a quin punt els punts de dades observats coincideixen amb els valors esperats o l'ajust absolut del model a les dades.


En notació matemàtica, es pot expressar com:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{n}
En lloc de dividir el nombre sencer de punts de dades del model pel nombre de graus de llibertat, cal dividir la suma dels residus al quadrat per obtenir una estimació imparcial. Aleshores, aquesta xifra es coneix com a error estàndard residual (RSE).

En notació matemàtica, es pot expressar com:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{(n-2)}

RSME no és una mètrica tan bona com R-quadrat. L'error quadrat mitjà de l'arrel pot fluctuar quan les unitats de les variables varien, ja que el seu valor depèn de les unitats de les variables (no és una mesura normalitzada).

Coeficient de determinació (R-quadrat)

R-quadrat és una estadística que indica quanta variació pot explicar o captar el model desenvolupat. Sempre està en el rang de 0 a 1. En general, com millor coincideix el model amb les dades, més gran serà el nombre R quadrat.
En notació matemàtica, es pot expressar com:
R^{2}=1-(^{frac{RSS}{TSS}})

  • Suma residual de quadrats (RSS): The la suma de quadrats del residu per a cada punt de dades de la trama o dades es coneix com a suma de quadrats residuals o RSS. És una mesura de la diferència entre la sortida que es va observar i la que es preveia.
    RSS=sum_{i=2}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2}
  • Suma total de quadrats (TSS): La suma dels errors dels punts de dades a partir de la mitjana de la variable de resposta es coneix com a suma total de quadrats o TSS.
    TSS= sum_{}^{}(y-overline{y_{i}})^2

La mètrica R quadrat és una mesura de la proporció de variància en la variable dependent que s'explica a les variables independents del model.

Error R-quadrat ajustat

R ajustat2mesura la proporció de variància de la variable dependent que s'explica per variables independents en un model de regressió. R-quadrat ajustat compta amb el nombre de predictors del model i penalitza el model per incloure predictors irrellevants que no contribueixen significativament a explicar la variància de les variables dependents.

Matemàticament, R ajustat2s'expressa com:

Adjusted , R^2 = 1 – (frac{(1-R^2).(n-1)}{n-k-1})

Aquí,

  • n és el nombre d'observacions
  • k és el nombre de predictors del model
  • R2és el coeficient de determinació

El quadrat R ajustat ajuda a evitar un sobreajustament. Penaliza el model amb predictors addicionals que no contribueixen significativament a explicar la variància de la variable dependent.

Implementació Python de regressió lineal

Importa les biblioteques necessàries:

Python 3 import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.axes as ax from matplotlib.animation import FuncAnimation>

Carregueu el conjunt de dades i separeu les variables d'entrada i de destinació

Aquí teniu l'enllaç per al conjunt de dades: Enllaç al conjunt de dades

Python 3 url = 'https://media.techcodeview.com data = pd.read_csv(url) data # Drop the missing values data = data.dropna() # training dataset and labels train_input = np.array(data.x[0:500]).reshape(500, 1) train_output = np.array(data.y[0:500]).reshape(500, 1) # valid dataset and labels test_input = np.array(data.x[500:700]).reshape(199, 1) test_output = np.array(data.y[500:700]).reshape(199, 1)>

Construeix el model de regressió lineal i traça la recta de regressió

Passos:

  • En la propagació directa, la funció de regressió lineal Y=mx+c s'aplica assignant inicialment un valor aleatori del paràmetre (m & c).
  • Hem escrit la funció per trobar la funció de cost, és a dir, la mitjana
Python 3Python3 #Exemple d'ús linear_reg = LinearRegression() paràmetres, loss = linear_reg.train(train_input, train_output, 0,0001, 20) Sortida: Iteració = 1, Pèrdua = 9130,407560462196, Iteració = 1910.190 iteració = 1, pèrdua = 140,31580932842422 iteració = 1, Pèrdua = 23,795780526084116 Iteració = 2, Pèrdua = 9,753848205147605 Iteració = 3, Pèrdua = 8,061641745006835 Iteració = 4, Pèrdua = 7,84914 = 7,849. 8331350515579015 Iteració = 6, Pèrdua = 7,830172502503967 Iteració = 7, Pèrdua = 7,829814681591015 Iteració = 8 , Pèrdua = 7,829770758846183 Iteració = 9, Pèrdua = 7,829764664327399 Iteració = 10, Pèrdua = 7,829763128602258 Iteració = 11, Pèrdua = 7,829 = 7,829 = 62. 829761222379141 Iteració = 13, Pèrdua = 7,829760310486438 Iteració = 14, Pèrdua = 7,829759399646989 Iteració = 15, Pèrdua = 7,829758489015161 Iteració = 16, Pèrdua = 7,829757578489033 Iteració = 17, Pèrdua = 7,829756668056319 Iteració = 18, Pèrdua = 7,825,975 = 7,829 29754847466484 Iteració = 20, Pèrdua = 7,829753937309139 Línia de regressió linealLa línia de regressió lineal proporciona informació valuosa sobre la relació entre les dues variables. Representa la línia més adequada que captura la tendència general de com canvia una variable dependent (Y) en resposta a les variacions d'una variable independent (X). Línia de regressió lineal positiva: una línia de regressió lineal positiva indica una relació directa entre la variable independent (X) i la variable dependent (Y). Això vol dir que a mesura que augmenta el valor de X, també augmenta el valor de Y. El pendent d'una línia de regressió lineal positiva és positiu, el que significa que la línia s'inclina cap amunt d'esquerra a dreta. Línia de regressió lineal negativa: una línia de regressió lineal negativa indica una relació inversa entre la variable independent (X) i la variable dependent (Y). Això vol dir que a mesura que augmenta el valor de X, el valor de Y disminueix. El pendent d'una línia de regressió lineal negativa és negatiu, el que significa que la línia s'inclina cap avall d'esquerra a dreta. Tècniques de regularització per a models lineals Regresió de lazo (regularització L1) La regressió de lazo és una tècnica utilitzada per regularitzar un model de regressió lineal, afegeix una penalització terme a la funció objectiu de regressió lineal per evitar el sobreajustament. La funció objectiu després d'aplicar la regressió al lazo és: el primer terme és la pèrdua de mínims quadrats, que representa la diferència al quadrat entre els valors predits i reals. el segon terme és el terme de regularització L1, penalitza la suma de valors absoluts del coeficient de regressió θj. Regression de cresta (regularització L2) La regressió de cresta és una tècnica de regressió lineal que afegeix un terme de regularització a l'objectiu lineal estàndard. De nou, l'objectiu és evitar el sobreajust penalitzant el gran coeficient en l'equació de regressió lineal. És útil quan el conjunt de dades té multicolinealitat on les variables predictores estan altament correlacionades. La funció objectiu després d'aplicar la regressió de cresta és: el primer terme és la pèrdua de mínims quadrats, que representa la diferència al quadrat entre els valors predits i reals. el segon terme és el terme de regularització L1, penalitza la suma de quadrats de valors del coeficient de regressió θj. Elastic Net Regression Elastic Net Regression és una tècnica de regularització híbrida que combina el poder de la regularització L1 i L2 en l'objectiu de regressió lineal. el primer terme és la pèrdua de mínims quadrats. el segon terme és la regularització de L1 i el tercer és la regressió de cresta.???? és la força de regularització global. α controla la barreja entre la regularització L1 i L2. Aplicacions de la regressió lineal La regressió lineal s'utilitza en molts camps diferents, inclosos les finances, l'economia i la psicologia, per entendre i predir el comportament d'una variable concreta. Per exemple, en finances, la regressió lineal es pot utilitzar per entendre la relació entre el preu de les accions d'una empresa i els seus guanys o per predir el valor futur d'una moneda en funció del seu rendiment passat. Avantatges i desavantatges de la regressió linealAvantatges de la regressió lineal La regressió lineal és un algorisme relativament senzill, que fa que sigui fàcil d'entendre i implementar. Els coeficients del model de regressió lineal es poden interpretar com el canvi en la variable dependent per a un canvi d'una unitat en la variable independent, proporcionant informació sobre les relacions entre variables. La regressió lineal és computacionalment eficient i pot gestionar grans conjunts de dades de manera eficaç. Es pot entrenar ràpidament en grans conjunts de dades, cosa que el fa adequat per a aplicacions en temps real. La regressió lineal és relativament robusta per als valors atípics en comparació amb altres algorismes d'aprenentatge automàtic. Els valors atípics poden tenir un impacte menor en el rendiment global del model. La regressió lineal sovint serveix com a bon model de referència per comparar amb algorismes d'aprenentatge automàtic més complexos. La regressió lineal és un algorisme ben establert amb un ric historial i està àmpliament disponible en diversos aprenentatge automàtic. biblioteques i paquets de programari.Inconvenients de la regressió linealLa regressió lineal suposa una relació lineal entre les variables dependents i independents. Si la relació no és lineal, el model pot no funcionar bé. La regressió lineal és sensible a la multicolinealitat, que es produeix quan hi ha una alta correlació entre variables independents. La multicolinearitat pot inflar la variància dels coeficients i conduir a prediccions del model inestables. La regressió lineal suposa que les característiques ja estan en una forma adequada per al model. Es pot requerir l'enginyeria de característiques per transformar les característiques en un format que el model pugui utilitzar de manera efectiva. La regressió lineal és susceptible tant d'ajustament excessiu com insuficient. El sobreajust es produeix quan el model aprèn massa bé les dades d'entrenament i no es pot generalitzar a dades no vistes. L'ajustament insuficient es produeix quan el model és massa senzill per capturar les relacions subjacents a les dades. La regressió lineal proporciona un poder explicatiu limitat per a les relacions complexes entre variables. Pot ser que siguin necessàries tècniques d'aprenentatge automàtic més avançades per obtenir una informació més profunda. Conclusió La regressió lineal és un algorisme fonamental d'aprenentatge automàtic que s'ha utilitzat àmpliament durant molts anys per la seva senzillesa, interpretabilitat i eficiència. És una eina valuosa per entendre les relacions entre variables i fer prediccions en una varietat d'aplicacions. Tanmateix, és important ser conscient de les seves limitacions, com ara la seva assumpció de linealitat i sensibilitat a la multicolinearitat. Quan es tenen en compte aquestes limitacions, la regressió lineal pot ser una eina poderosa per a l'anàlisi i predicció de dades. Regression lineal: preguntes més freqüents (FAQ) Què significa la regressió lineal en simple? La regressió lineal és un algorisme d'aprenentatge automàtic supervisat que prediu una variable objectiu contínua basada en una o més variables independents. Assumeix una relació lineal entre les variables dependents i independents i utilitza una equació lineal per modelar aquesta relació. Per què fem servir la regressió lineal? La regressió lineal s'utilitza habitualment per: Predicció de valors numèrics basats en característiques d'entrada Previsió de tendències futures basades en dades històriques Identificació de correlacions entre variables Entendre l'impacte de diferents factors en un resultat determinat Com utilitzar la regressió lineal? Utilitzar la regressió lineal ajustant una línia per predir la relació entre variables , comprendre els coeficients i fer prediccions basades en valors d'entrada per a la presa de decisions informada. Per què s'anomena regressió lineal? La regressió lineal s'anomena així pel seu ús d'una equació lineal per modelar la relació entre variables, que representa una línia recta que s'ajusta als punts de dades. Què són els exemples de regressió lineal? La predicció dels preus de l'habitatge basant-se en metres quadrats, l'estimació de les puntuacions dels exàmens a partir de les hores d'estudi i la previsió de vendes mitjançant la despesa publicitària són exemples d'aplicacions de regressió lineal.>>>