Autor: Juraj Suchán
E-mail: xsuchan@paneurouni.com
Tento notebook (xsuchan01.ipynb) spracúva dataset Heart Disease z UCI Machine Learning Repository.
Cieľom je vykonať tri základné typy analýz podľa zadania predmetu Dátová veda:
- Deskriptívna analýza
- základná štatistika premenných, distribúcie, grafy
- Inferenčná analýza
- t-test rozdielov medzi skupinami (napr. pacienti s/bez choroby, pohlavie)
- Diagnostická analýza
- korelačná matica, zoradené korelácie, vizualizácia najviac súvisiacich premenných
Notebook používa nasledujúce Python knižnice:
ucimlrepo– načítanie datasetu z UCI repozitárapandas– manipulácia s dátamiseaborn– grafy a heatmapymatplotlib– vizualizáciescipy– štatistické testy (t-test)statsmodels– inferenčná analýza (logistická regresia, ak je použitá)
- Nainštalujte závislosti:
pip install -r requirements.txtalebo jednotlivo:
pip install ucimlrepo pandas seaborn matplotlib scipy statsmodels- Spustite notebook
jupyter notebook xsuchan01.ipynbNotebook obsahuje:
-
štatistické tabuľky a distribučné grafy,
-
výsledky t-testov s interpretáciou,
-
korelačnú maticu a graf TOP 5 premenných s najsilnejšou koreláciou s cieľovou premennou.