M1 BBS ACP
From silico.biotoul.fr
Contents |
Analyse en composantes principales
Objectif : Réduire le nombre de dimensions de l'espace d'observation = obtenir une projection en perdant un minimum d'informations.
Applications :
- grand nombre de variables que l'on cherche à visualiser en 2 à 3 dimensions
- dessin de graphes
Principe : trouver les axes sur lesquels on a un maximum de dispersion = plus de représentativité / moins de perte d'informations
Choix de l'origine
Prendre le centre de gravité du nuage.
Données :
- individus points dans l'espace à p dimensions.
- variables
Centre de gravité : avec pi le poids de chaque dimension
On prendra G comme nouvelle origine.
données centrées
Mesure de dispersion : Inertie
Inertie par rapport à un point (le centre de gravité)
avec
on a
L'inertie par rapport au centre de gravité revient à la somme des variances de chaque variable
Inertie par rapport à un axe
mesure la proximité du nuage des individus à l'axe.
Inertie par rapport à un sous-espace vectoriel
C'est pareil.
Décomposition de l'inertie totale
V * le complémentaire orthogonal de V
on a
En projetant sur V, on perd l'inertie mesurée par IV et il ne reste plus que celle mesurée par
Recherche de Δ1 passant par G d'inertie minimum
maximise avec vecteur unitaire de
donc
on reconnaît la matrice de variance-covariance
donc
et (vecteur unitaire)
D'où la recherche du maximum : trouver a1 tel que soit maximum (recherche l'optimum d'une fonction à plusieurs variables)
d'après la méthode des multiplicateurs de Lagrange
dérivées partielles de g(a1), en utilisant la dérivée matricielle
donc
ou Σa1 = λ1a1 d'où a1 vecteur propre de Σ associé à la valeur propre λ1
En multipliant à gauche par on a
avec (2) on que l'on cherche à maximiser.
Donc λ1 est la plus grande valeur propre de la matrice Σ et