Régression linéaire
Gelose | Tous les portails | Portail Medecine | Portail Biologie | Portail Biochimie | Portail Microbiologie | Portail Ecologie | Portail Botanique | Biologie cellulaire | Portail Zoologie | Science de la terre | Portail Eau |
Inscrivez votre site en haut de cette page Soumission direct par Allopass, obtenez 1 lien de qualite en haut de cette page Regression lineaire ainsi que sur la page des nouveaux sites inscrits pour seulement 20 euros!
|
En statistiques, il arrive que deux grandeurs apparaissent liées par relation affine : Y = a X + b. La régression linéaire consiste à déterminer une estimation des valeurs a et b et à quantifier la validité de cette relation grâce au coefficient de corrélation linéaire. La généralisation à p variables Y = a0 + a1X1 + a2X2 + ... + apXp s'appelle la régression linéaire multiple.
Sommaire |
[] Situation
À partir de mesures de couples de valeurs (xi,yi), on a représenté dans un graphe, un ensemble de points Mi(xi,yi) | i = [1..n] représentant des mesures d'une grandeur y en fonction d'une autre x, par exemple la taille yi des enfants en fonction de leur âge xi.
Les points Mi paraissent alignés. On peut alors tenter une régression linéaire, c'est-à-dire chercher la droite D dont l'équation est y = ax + b et qui passe au plus près des points Mi.
Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme :
où
représente le carré de la distance verticale du point expérimental Mi à la droite considérée comme la meilleure.
Cela revient donc à déterminer les valeurs des paramètres a et b (respectivement le coefficient directeur de la droite et son ordonnée à l'origine) qui minimisent la somme ci-dessus.
[] Formules à connaître
- La moyenne des

- La moyenne des

- Le point moyen G a pour coordonnées

- La variance des
<mnémonique : la moyenne des carrés moins le carré de la moyenne> - l'écart type des

- La variance des
<mnémonique : la moyenne des carrés moins le carré de la moyenne> - l'écart type des

- La covariance des
<mnémonique : la moyenne des produits moins le produit des moyennes>
[] Résultat de la régression
La droite rendant minimale la somme précédente passe par le point G et a pour coefficient directeur
. Son équation est donc:
[] Coefficient de corrélation linéaire
On peut aussi chercher la droite D' : x=a'y + b' qui rende minimale la somme :
On trouve alors une droite qui passe aussi par le point moyen G et telle que a' =
. On souhaite évidemment tomber sur la même droite. Ce sera le cas si et seulement si a' = 1/a, c'est-à-dire si aa' = 1. Les droites sont confondues si et seulement si
c'est-à-dire si et seulement si 
On appelle cette quantité
le coefficient de corrélation linéaire entre x et y. On peut démontrer que ce nombre est toujours compris entre -1 et 1.
En pratique sa valeur absolue est rarement égale à 1, mais on estime généralement que l'ajustement est valide dès que ce coefficient a une valeur absolue supérieure à 
voir également : Corrélation (mathématiques)
[] Démonstration des formules par étude d'un minimum
Pour tout réel a, on pose
. Il suffit de développer et ordonner ce polynôme du second degré en b. On obtient:
Ce polynôme atteint son minimum en
Ce qui signifie que la droite passe par le point moyen G
Il reste à remplacer dans la somme de départ, b par cette valeur.
Pour tout réel a,
. Il suffit de développer et ordonner ce polynôme du second degré en a. On obtient
.
Ce polynôme atteint son minimum en
La droite de régression est bien la droite passant par G et de coefficient directeur
.
[] Démonstration des formules grâce aux espaces vectoriels de dimension n
Dans l'espace
, muni du produit scalaire canonique, on considère le vecteur X de coordonnées (x1,x2,...,xn), le vecteur Y de coordonnées (y1,y2,...,yn), le vecteur U de coordonnées (1, 1, ..., 1).
On peut remarquer que
On note alors
le vecteur
et
le vecteur 
Le vecteur Z de coordonnées (ax1 + b,ax2 + b,...,axn + b) appartient à l'espace vectoriel engendré par X et U.
La somme
représente le carré de la norme du vecteur Y − Z.
Cette norme est minimale si et seulement si Z est le projeté orthogonal de Y dans l'espace vectoriel vect(X,U)
Z est le projeté de Y dans l'espace vectoriel vect(X,U) si et seulement si (Z − Y).U = 0 et
.
Or
donc (Z-Y).U=0 signifie que
.
En remplaçant dans
, on obtient
donc
signifie que 
Enfin le coefficient de corrélation linéaire s'écrit alors
. Cette quantité représente le cosinus de l'angle formé par les vecteurs
et
.
On retrouve alors les résultats suivants:
- si le coefficient de corrélation linéaire est 1 ou -1, les vecteurs
et
sont colinéaires de coefficient de colinéarité a et
. L'ajustement linéaire est parfait. - si le coefficient de corrélation linéaire est en valeur absolue supérieur à
alors l'angle formé par les deux vecteurs est compris entre − π / 6 et π / 6 ou entre 5π / 6 et 7π / 6.
[] Voir aussi
- Statistiques
- Statistique (mathématiques élémentaires)
- Régression mathématique
- Corrélation (mathématiques)
- Régression linéaire multiple, la généralisation à p variables explicatives de la régression linéaire
.
[] Liens externes
- http://yves.demur.free.fr/reglin/reglin1105.pdf (utilisation pratique de la régression linéaire, + programmes test en C sur le site http://yves.demur.free.fr/reglin/reglin.htm)
- http://www.unilim.fr/pages_perso/jean.debord/http://upload.wikimedia.org/math/reglin/reglin.htm La régression linéaire









