Analýza hlavních komponent

Analýza hlavních komponent (Principal Component Analysis, PCA) je v teorii signálu transformace sloužící k dekorelaci dat. Často se používá ke snížení dimenze dat s co nejmenší ztrátou informace.[1] PCA je možno najít také jako Karhunen-Loèveho transformaci, Hotellingovu transformaci, nebo jako singulární rozklad (SVD; v lineární algebře).

Z následujícího vzorce je vidět, že PCA je jen přepsáním vstupu do jiné souřadné soustavy:

Y = X P {\displaystyle Y=XP}

kde X je centrovaná matice n x d se vstupními d-rozměrnými daty v n řádcích, Y obdobná matice výstupních dat, P je d x d matice vlastních vektorů kovarianční matice C X {\displaystyle C_{X}} splňující vztah C X = P Λ P T {\displaystyle C_{X}=P\Lambda P^{T}} , kde Λ {\displaystyle \Lambda } je diagonální matice obsahující na diagonále vlastní čísla C X {\displaystyle C_{X}} a matice vlastních vektorů P {\displaystyle P} je ortonormální, tj. P T P = I d {\displaystyle P^{T}P=I_{d}} , kde I d {\displaystyle I_{d}} je jednotková matice dimenze d {\displaystyle d} .

Vlastní vektory (sloupce matice P) tvoří onu novou souřadnou soustavu. Centrování matice X dosáhneme odečtením příslušného výběrového průměru od každého sloupce.

Odvození

Matice Y je zřejmě také centrovaná, tj. aritmetický průměr každého jejího sloupce je 0.[2]

Spočítáme, jak musí vypadat kovarianční matice nových dat Y:

C Y = E ( Y T Y ) = E [ ( X P ) T ( X P ) ] = E ( P T X T X P ) = P T E ( X T X ) P = P T C X P = P T P Λ P T P = Λ . {\displaystyle C_{Y}=E(Y^{T}Y)=E[(XP)^{T}(XP)]=E(P^{T}X^{T}XP)=P^{T}E(X^{T}X)P=P^{T}C_{X}P=P^{T}P\Lambda P^{T}P=\Lambda .}

Vzhledem k tomu, že matice Λ {\displaystyle \Lambda } je diagonální,

C Y = Λ = ( λ 1 λ d ) , {\displaystyle C_{Y}=\Lambda =\left({\begin{matrix}\lambda _{1}&&\\&\ddots &\\&&\lambda _{d}\\\end{matrix}}\right),}

vidíme, že sloupce matice Y jsou nekorelované a výběrový rozptyl každého sloupce se rovná příslušnému vlastnímu číslu.

Použití

Seřadíme-li vlastní vektory v P podle velikosti vlastních čísel λ i {\displaystyle \lambda _{i}} , budeme dostávat složky v Y setříděné podle rozptylu. Pokud chceme snížit dimenzi dat, stačí z Y vzít jen tolik prvních složek kolik uznáme za vhodné. Vybírání komponenty s největším rozptylem nemusí být vždy nejlepší. Například pokud máme rozpoznávat třídy, které se liší právě ve složkách s malým rozptylem, které tímto postupem zahodíme.

Rozpoznávání

V rozpoznávání slouží PCA jako jedna z tzv. Feature Extraction metod (extrakce rysů). Používají ji například kriminalisté pro rozpoznávání obličejů.

Komprese

Jednoduchá komprese barevného nebo multispektrálního obrazu. Využívá vysoké korelace mezi jednotlivými spektrálními kanály a převede obrázek pomocí PCA na jednu nebo několik málo složek s většinou informace.

Odkazy

Související články

Reference

  1. Martin Sebera - FSpS MU - Vícerozměrné statistické metody. www.fsps.muni.cz [online]. [cit. 2022-01-17]. Dostupné v archivu pořízeném z originálu dne 2022-03-02. 
  2. Archivovaná kopie. k101.unob.cz [online]. [cit. 2022-01-17]. Dostupné v archivu pořízeném z originálu dne 2022-01-18. 
  3. dimensionality reduction - Relationship between SVD and PCA. How to use SVD to perform PCA?. Cross Validated [online]. [cit. 2022-01-17]. Dostupné online. 

Externí odkazy

  • Logo Wikimedia Commons Obrázky, zvuky či videa k tématu analýza hlavních komponent na Wikimedia Commons
  • http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf — jednoduché vysvětlení PCA spolu s matematickým základem
  • https://web.archive.org/web/20040809034742/http://robotics.eecs.berkeley.edu/~rvidal/cvpr03-gpca-final.pdf — vysvětlení pokročilejší zobecněné PCA
  • Příklady využití analýzy hlavních komponent na zřetelnější zobrazení struktur u grafických souborů (anglicky)
Autoritní data Editovat na Wikidatech
  • BNF: cb11942895w (data)
  • GND: 4129174-8
  • LCCN: sh85106729
  • NLI: 987007536366205171