Distance de Mahalanobis

En statistique, la distance de Mahalanobis est une mesure de distance mathématique introduite par Prasanta Chandra Mahalanobis en 1936[1]. Elle est basée sur la corrélation entre des variables par lesquelles différents modèles peuvent être identifiés et analysés. C'est une manière utile de déterminer la similarité entre une série de données connues et inconnues. Elle diffère de la distance euclidienne par le fait qu'elle prend en compte la variance et la corrélation de la série de données. Ainsi, à la différence de la distance euclidienne où toutes les composantes des vecteurs sont traitées indépendamment et de la même façon, la distance de Mahalanobis accorde un poids moins important aux composantes les plus dispersées. Dans le cas de l'analyse des signaux, et en supposant que chaque composante soit une variable aléatoire de type gaussien, cela revient à minimiser l'influence des composantes les plus bruitées (celles ayant la plus grande variance).

La distance de Mahalanobis est souvent utilisée pour la détection de données aberrantes dans un jeu de données, ou bien pour déterminer la cohérence de données fournies par un capteur par exemple : cette distance est calculée entre les données reçues et celles prédites par un modèle.

En pratique, la distance de Mahalanobis d'un vecteur à plusieurs variables x = ( x 1 , x 2 , x 3 , , x p ) T {\displaystyle x=(x_{1},x_{2},x_{3},\dots ,x_{p})^{T}} à un ensemble de vecteurs de valeurs moyennes μ = ( μ 1 , μ 2 , μ 3 , , μ p ) T {\displaystyle \mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{p})^{T}} et possédant une matrice de covariance Σ est définie comme suit :

D M ( x ) = ( x μ ) T Σ 1 ( x μ ) . {\displaystyle D_{M}(x)={\sqrt {(x-\mu )^{T}\Sigma ^{-1}(x-\mu )}}.\,}

La distance de Mahalanobis peut aussi être définie comme étant la mesure de dissimilarité entre deux vecteurs aléatoires x {\displaystyle {\vec {x}}} et y {\displaystyle {\vec {y}}} de même distribution avec une matrice de covariance Σ :

d ( x , y ) = ( x y ) T Σ 1 ( x y ) . {\displaystyle d({\vec {x}},{\vec {y}})={\sqrt {({\vec {x}}-{\vec {y}})^{T}\Sigma ^{-1}({\vec {x}}-{\vec {y}})}}.\,}

Si la matrice de covariance est la matrice identité, cette distance est simplement la distance euclidienne. Si la matrice de covariance est diagonale, on obtient la distance euclidienne normalisée :

d ( x , y ) = i = 1 p ( x i y i ) 2 σ i 2 {\displaystyle d({\vec {x}},{\vec {y}})={\sqrt {\sum _{i=1}^{p}{(x_{i}-y_{i})^{2} \over \sigma _{i}^{2}}}}}

σi est l'écart type de xi sur la série de données.

Cette distance est souvent utilisée en analyse des données. (ex: analyse discriminante)

Lien avec la loi du χ2

Si X N p ( μ , Σ ) {\displaystyle X\sim {\mathcal {N}}_{p}\left(\mu ,\Sigma \right)} est un p-vecteur aléatoire suivant une loi normale multidimensionnelle d'espérance μ et de matrice de variance-covariance Σ définie positive, alors D M 2 ( X , μ ) χ p 2 {\displaystyle D_{M}^{2}(X,\mu )\sim \chi _{p}^{2}} (i.e., le carré de la distance de Mahalanobis entre X et son espérance suit une loi du χ2 à p degrés de liberté). Dès lors, si χ p ; 1 α 2 {\displaystyle \chi _{p;1-\alpha }^{2}} désigne le quantile 1 α {\displaystyle 1-\alpha } , P [ D M 2 ( X , μ ) χ p ; 1 α 2 ] = 1 α = P [ X Z T α ] {\displaystyle \mathbb {P} \left[D_{M}^{2}(X,\mu )\leq \chi _{p;1-\alpha }^{2}\right]=1-\alpha =\mathbb {P} \left[X\in ZT_{\alpha }\right]} Z T α := { x R p | D M 2 ( X , μ ) χ p ; 1 α 2 } {\displaystyle ZT_{\alpha }:=\left\{x\in \mathbb {R} ^{p}|D_{M}^{2}(X,\mu )\leq \chi _{p;1-\alpha }^{2}\right\}} est la zone de tolérance au niveau α (par définition).

Démonstration

Le vecteur aléatoire X est défini à partir de la loi normale multidimensionnelle centrée réduite de la manière suivante: si Z N p ( 0 , I d p ) {\displaystyle Z\sim {\mathcal {N}}_{p}\left({\vec {0}},Id_{p}\right)} , alors X = A Z + μ N p ( μ , Σ ) {\displaystyle X=AZ+\mu \sim {\mathcal {N}}_{p}\left(\mu ,\Sigma \right)} Σ = AA' (où A' désigne la matrice transposée de A). Par le théorème spectral appliqué à Σ (symétrique réelle par construction), il existe une matrice O orthogonale et une matrice Λ diagonale telles que Σ = OΛO'. De plus, comme Σ = AA', elle est définie positive et donc Λ 1 2 {\displaystyle \Lambda ^{\frac {1}{2}}} a un sens. Dès lors, on peut écrire Σ = O Λ 1 2 O ( O Λ 1 2 O ) {\displaystyle \Sigma =O\Lambda ^{\frac {1}{2}}O'\left(O\Lambda ^{\frac {1}{2}}O'\right)'} et donc on peut choisir A = O Λ 1 2 O {\displaystyle A=O\Lambda ^{\frac {1}{2}}O'} dans la définition de X. En outre, nous avons

D M 2 ( X , μ ) = D M 2 ( A Z + μ , μ ) = ( A Z ) Σ 1 ( A Z ) = Z A Σ 1 A Z {\displaystyle D_{M}^{2}(X,\mu )=D_{M}^{2}(AZ+\mu ,\mu )=(AZ)'\Sigma ^{-1}(AZ)=Z'A'\Sigma ^{-1}AZ}

Dès lors, en remplaçant A par O Λ 1 2 O {\displaystyle O\Lambda ^{\frac {1}{2}}O'} , cela donne:

Z ( O Λ 1 2 O ) Σ 1 O Λ 1 2 O Z = Z ( O Λ 1 2 O ) ( O Λ 1 O ) ( O Λ 1 2 O ) Z  car  Σ 1 = ( O Λ O ) 1 = O Λ 1 O = Z O Λ 1 / 2 Λ 1 / 2 O Z  car  O O = O O = I d p  par orthogonalité de  O = Z O O Z = Z Z = i = 1 p Z i 2  car  Z = ( Z 1 , Z 2 , . . . , Z p )  où  Z i N 1 ( 0 , 1 )  indépendants  χ p 2  par définition de la loi du  χ 2 {\displaystyle {\begin{aligned}Z'(O\Lambda ^{\frac {1}{2}}O')'\Sigma ^{-1}O\Lambda ^{\frac {1}{2}}O'Z&=Z'(O\Lambda ^{\frac {1}{2}}O')'(O\Lambda ^{-1}O')(O\Lambda ^{\frac {1}{2}}O')Z&{\text{ car }}\Sigma ^{-1}=(O\Lambda O')^{-1}=O\Lambda ^{-1}O'\\&=Z'O\Lambda ^{-1/2}\Lambda ^{1/2}O'Z&{\text{ car }}OO'=O'O=Id_{p}{\text{ par orthogonalité de }}O\\&=Z'OO'Z&\\&=Z'Z&\\&=\sum _{i=1}^{p}Z_{i}^{2}&{\text{ car }}Z=(Z_{1},Z_{2},...,Z_{p})'{\text{ où }}Z_{i}\sim {\mathcal {N}}_{1}(0,1){\text{ indépendants }}\\&\sim \chi _{p}^{2}&{\text{ par définition de la loi du }}\chi ^{2}\end{aligned}}}

Notes et références

  1. (en) P. C. Mahalanobis, « On the generalised distance in statistics », Proceedings of the National Institute of Sciences of India, vol. 2, no 1,‎ , p. 49–55 (lire en ligne)
  • icône décorative Portail des probabilités et de la statistique