DUOMENŲ STANDARTIZAVIMAS
Atliekant pagrindinių komponentų analizę (PCA), antrasis žingsnis, kurį turime atlikti, yra duomenų standartizavimas. Tai reiškia, kad visi turimi rodikliai – cholesterolio kiekis, kraujospūdis, kūno masės indeksas ar kiti sveikatos rodikliai – turi būti „pervesti į tą pačią skalę“. Kodėl? Įsivaizduok, jei vienas rodiklis būtų matuojamas tūkstančiais, o kitas tik dešimtosiomis, tuomet kompiuteris svarbiausiu laikytų ne žmogaus sveikatos signalus, o paprasčiausius skaičių dydžius. Todėl mūsų darbas – užtikrinti, kad visi rodikliai turėtų vienodą galimybę „balsuoti“, atskleisti savo svarbą.
Yra du dažniausiai naudojami standartizavimo būdai. Pirmasis būdas – duomenų „centravimas ir mastelio keitimas“ (Z – standartizavimas), kai iš kiekvienos reikšmės atimame vidurkį ir padaliname iš standartinio nuokrypio. Tuomet gauname rodiklius, kurių vidurkis yra nulis, o sklaida – vienetas. Antrasis būdas – duomenų normavimas į intervalą [0;1], vadinamas „min–max skalavimu“. Čia mažiausia reikšmė paverčiama 0, o didžiausia – 1, o visi kiti duomenys proporcingai atitinkamai perskaičiuojami. Abu metodai turi savo privalumus, ir pasirinkimas priklauso nuo tyrimo pobūdžio.
Kodėl mums svarbu tai atlikti kruopščiai? Nes dirbame su pacientų duomenimis. Tai nėra paprasti skaičiai – už jų slypi tikrų žmonių gyvenimai, sveikata ir galimybė greičiau pasveikti. Jei tyrimus atliksime neatsakingai, galime suklysti interpretuodami rezultatus. Bet jei pasistengsime, padėsime gydytojams priimti teisingus sprendimus ir prisidėsime prie to, kad ligoniai gautų tinkamiausią gydymą.
Todėl dabar kviečiu tave atlikti šį etapą labai atidžiai. Įsivaizduok save kaip svarbią komandos dalį, kuri rūpinasi paciento ateitimi. Tavo skaičiavimai – tai ne tik mokymosi užduotis, bet ir žingsnis į supratimą, kaip realiame gyvenime matematika ir duomenų analizė tampa gyvybiškai svarbiu instrumentu.

Užduočių failas yra prieinamas, tik OKTAEDRAS programos dalyviams.
