Régression linéaire

Gelose | Tous les portails | Portail Medecine | Portail Biologie | Portail Biochimie | Portail Microbiologie | Portail Ecologie | Portail Botanique | Biologie cellulaire | Portail Zoologie | Science de la terre | Portail Eau |


 Inscrivez votre site en haut de cette page Soumission direct par Allopass, obtenez 1 lien de qualite en haut de cette page Regression lineaire ainsi que sur la page des nouveaux sites inscrits pour seulement 20 euros!


En statistiques, il arrive que deux grandeurs apparaissent liées par relation affine  : Y = a X + b. La régression linéaire consiste à déterminer une estimation des valeurs a et b et à quantifier la validité de cette relation grâce au coefficient de corrélation linéaire. La généralisation à p variables Y = a0 + a1X1 + a2X2 + ... + apXp s'appelle la régression linéaire multiple.

Sommaire

[] Situation

À partir de mesures de couples de valeurs (xi,yi), on a représenté dans un graphe, un ensemble de points Mi(xi,yi) | i = [1..n] représentant des mesures d'une grandeur y en fonction d'une autre x, par exemple la taille yi des enfants en fonction de leur âge xi.

Les points Mi paraissent alignés. On peut alors tenter une régression linéaire, c'est-à-dire chercher la droite D dont l'équation est y = ax + b et qui passe au plus près des points Mi.

Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme :

\sum_{i=1}^n (y_i-ax_i-b)^2(y_i - ax_i - b)^2\, représente le carré de la distance verticale du point expérimental Mi à la droite considérée comme la meilleure.

Cela revient donc à déterminer les valeurs des paramètres a et b (respectivement le coefficient directeur de la droite et son ordonnée à l'origine) qui minimisent la somme ci-dessus.

[] Formules à connaître

  • La moyenne des x_i : \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i
  • La moyenne des y_i : \overline{y}=\frac{1}{n}\sum_{i=1}^n y_i
  • Le point moyen G a pour coordonnées (\overline{x},\overline{y})
  • La variance des x_i : V(x) =\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2 = \overline{x^2}-{\overline{x}}^2 <mnémonique : la moyenne des carrés moins le carré de la moyenne>
  • l'écart type des x_i :\sigma_x= \sqrt{V(x)}
  • La variance des y_i : V(y) =\frac{1}{n}\sum_{i=1}^n (y_i-\overline{y})^2 = \overline{y^2}-{\overline{y}}^2 <mnémonique : la moyenne des carrés moins le carré de la moyenne>
  • l'écart type des y_i :\sigma_y= \sqrt{V(y)}
  • La covariance des x_i ,y_i: cov(x,y) =\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}) = \overline{x.y}-\overline{x}.\overline{y} <mnémonique : la moyenne des produits moins le produit des moyennes>

[] Résultat de la régression

La droite rendant minimale la somme précédente passe par le point G et a pour coefficient directeur \frac{cov(x,y)}{V(x)}. Son équation est donc:

y=\frac{cov(x,y)}{V(x)}(x-\overline{x})+\overline{y}

[] Coefficient de corrélation linéaire

On peut aussi chercher la droite D' : x=a'y + b' qui rende minimale la somme :

\sum_{i=1}^n (x_i-a'y_i-b')^2

On trouve alors une droite qui passe aussi par le point moyen G et telle que a' = \frac{cov(x,y)}{V(y)}. On souhaite évidemment tomber sur la même droite. Ce sera le cas si et seulement si a' = 1/a, c'est-à-dire si aa' = 1. Les droites sont confondues si et seulement si \frac{cov(x,y)^2}{V(x)V(y)}=1 c'est-à-dire si et seulement si \frac{cov(x,y)}{\sigma_x\sigma_y} =\pm 1

On appelle cette quantité \frac{cov(x,y)}{\sigma_x\sigma_y} le coefficient de corrélation linéaire entre x et y. On peut démontrer que ce nombre est toujours compris entre -1 et 1.

En pratique sa valeur absolue est rarement égale à 1, mais on estime généralement que l'ajustement est valide dès que ce coefficient a une valeur absolue supérieure à \sqrt{3}/2

voir également : Corrélation (mathématiques)

[] Démonstration des formules par étude d'un minimum

Pour tout réel a, on pose f_a(b) = \sum_{i=1}^n (y_i-ax_i-b)^2. Il suffit de développer et ordonner ce polynôme du second degré en b. On obtient:

f_a(b) = nb^2-2b\left(\sum_{i=1}^n (y_i-ax_i)\right)+  \sum_{i=1}^n (y_i-ax_i)^2

Ce polynôme atteint son minimum en

b = \frac{1}{n}\sum_{i=1}^n (y_i-ax_i) = \overline{y} - a\overline{x}

Ce qui signifie que la droite passe par le point moyen G

Il reste à remplacer dans la somme de départ, b par cette valeur.

Pour tout réel a, S(a) = \sum_{i=1}^n ((y_i-\overline{y}) - a(x_i-\overline{x}))^2. Il suffit de développer et ordonner ce polynôme du second degré en a. On obtient

S(a) = \left(\sum_{i=1}^n (x_i-\overline{x})^2\right)a^2 - 2a\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}) + \sum_{i=1}^n (y_i - \overline{y})^2
S(a)= n\times V(x)\times a^2-2a\times n\times cov(x,y) + n\times V(y).

Ce polynôme atteint son minimum en

a=\frac{cov(x,y)}{V(x)}

La droite de régression est bien la droite passant par G et de coefficient directeur a=\frac{cov(x,y)}{V(x)}.

[] Démonstration des formules grâce aux espaces vectoriels de dimension n

Dans l'espace \mathbb{R}^n, muni du produit scalaire canonique, on considère le vecteur X de coordonnées (x1,x2,...,xn), le vecteur Y de coordonnées (y1,y2,...,yn), le vecteur U de coordonnées (1, 1, ..., 1).

On peut remarquer que

  • X.U = n\overline{x}
  • Y.U = n\overline{y}
  • ||X-\overline{x}U||^2 = n.V(x)
  • ||Y-\overline{y}U||^2 = n.V(y)
  • (Y-\overline{y}U).(X-\overline{x}U)=n.cov(x,y)

On note alors \overline{X} le vecteur \overline{x}U et \overline{Y} le vecteur \overline{y}U

Le vecteur Z de coordonnées (ax1 + b,ax2 + b,...,axn + b) appartient à l'espace vectoriel engendré par X et U.

La somme \sum_{i=1}^n (y_i-ax_i-b)^2 représente le carré de la norme du vecteur YZ.

Cette norme est minimale si et seulement si Z est le projeté orthogonal de Y dans l'espace vectoriel vect(X,U)

Z est le projeté de Y dans l'espace vectoriel vect(X,U) si et seulement si (ZY).U = 0 et (Z-Y).(X - \overline{X})=0.

Or (Z-Y).U=aX.U+bU^2-Y.U=n(a\overline{x}+b-\overline{y}) donc (Z-Y).U=0 signifie que b= \overline{y} - a\overline{x}.

En remplaçant dans (Z-Y).(X - \overline{X}), on obtient

(a(X-\overline{X})-(Y-\overline{Y})).(X - \overline{X}) = naV(x) - ncov(x,y) donc (Z-Y).(X - \overline{X})=0 signifie que a = \frac{cov(x,y)}{V(x)}

Enfin le coefficient de corrélation linéaire s'écrit alors \frac{(X-\overline{X}).(Y-\overline{Y})}{||X-\overline{X}||\times||Y-\overline{Y}||}. Cette quantité représente le cosinus de l'angle formé par les vecteurs X-\overline{X} et Y-\overline{Y}.

On retrouve alors les résultats suivants:

  • si le coefficient de corrélation linéaire est 1 ou -1, les vecteurs X-\overline{X} et Y-\overline{Y} sont colinéaires de coefficient de colinéarité a et Y = aX + \overline{Y}-a\overline{X}. L'ajustement linéaire est parfait.
  • si le coefficient de corrélation linéaire est en valeur absolue supérieur à \sqrt{3}/2 alors l'angle formé par les deux vecteurs est compris entre − π / 6 et π / 6 ou entre 5π / 6 et 7π / 6.

[] Voir aussi

[] Liens externes

Regression_lineaire