PCA | III – DALIS | KOVARIACIJOS MATRICA


KOVARIACIJOS MATRICA

Siekdami suprasti ir efektyviai sumažinti duomenų matmenis atliekant Pagrindinių Komponentų Analizę (PCA), trečiasis ir vienas svarbiausių žingsnių yra kovariacijos matricos sudarymas. Ši matrica yra tarsi mūsų tyrimo širdis – ji atskleidžia, kaip kiekvienas kintamasis yra susijęs su visais kitais. Paprastais žodžiais, kovariacija parodo, kaip vieno kintamojo vertė keičiasi, kai keičiasi kito kintamojo vertė. Teigiama kovariacija rodo, kad kintamieji juda ta pačia kryptimi, o neigiama – kad jie juda priešingomis kryptimis. Šiame etape mums reikia šios matricos, nes ji pateiks pagrindą visai tolimesnei analizei. Kovariacijos matrica yra raktas, padedantis mums išgauti pagrindines komponentes, kurios atspindės didžiausią duomenų dispersiją.

Įsivaizduokite, kad turime duomenis apie aštuonis pacientus ir keturis kintamuosius: amžių, KMI, sistolinį kraujospūdį ir cholesterolį. Kovariacijos matrica taps 4×4 dydžio kvadratine matrica. Matricos eilutės ir stulpeliai atitiks šiuos keturis kintamuosius. Diagonaliuose elementuose, pavyzdžiui, KMI su KMI arba amžius su amžiumi, atsidurs pačių kintamųjų dispersijos vertės, rodančios, kaip plačiai pasiskirstę yra kiekvieno kintamojo duomenys. Tuo tarpu ne diagonaliuose elementuose atsidurs kovariacijos vertės, kurios parodys, kaip amžius susijęs su KMI, amžius su sistoliniu kraujospūdžiu ir t.t. Ši informacija leidžia vizualizuoti ryšius tarp visų porų, kas yra būtina norint rasti pagrindines komponentes.

Šios matricos analizė mums atskleis ryšius ir priklausomybes tarp mūsų tiriamų kintamųjų. Pavyzdžiui, pažiūrėję į amžiaus ir cholesterolio stulpelių sankirtą, pamatysime skaičių, kuris nurodys, ar su amžiumi cholesterolio lygis didėja, ar mažėja. Šis skaičius gali būti teigiamas, rodantis, kad šie kintamieji juda kartu, arba neigiamas, rodantis, kad judėjimas yra priešingas. Tačiau daug svarbiau yra tai, kad šioje matricoje užkoduota visa informacija apie duomenų variaciją ir koreliaciją, kuri bus panaudota tolimesniuose etapuose, kad galėtume sugeneruoti tikrines reikšmes ir tikrinius vektorius. Tai leis mums sukurti naujas, nepriklausomas ašis, vadinamas pagrindinėmis komponentėmis, kurios efektyviai atspindės pradinių duomenų struktūrą, bet su mažesniu kintamųjų skaičiumi. Taip mes sėkmingai sumažinsime duomenų matmenis neprarasdami esminės informacijos.



Užduočių failas yra prieinamas, tik OKTAEDRAS programos dalyviams


Parašykite komentarą