Klasifikace Elektrokardiogramu (EKG) - díl první

26. 1. 2024 0:00 Jiří Raška

Po delší době jsem se vrátil k problému klasifikace EKG křivek s využitím konvoluční neuronové sítě. Tentokrát ovšem na jiné datové sadě, a budu se pokoušet o poněkud odlišný pohled než v předchozím příspěvku Klasifikace EKG křivek – výlet do světa neuronových sítí .

Jedním z prvních problémů, na které člověk narazí při vytváření modelu je, kde vzít nějaká rozumná data. Modely budu vytvářet v prostředí Kaggle, proto jsem nejdříve zamířil do dat poskytovaných na tomto serveru.

Pro své pokusy jsem si vybral datovou sadu PTB-XL ECG dataset.

In [1]:

import sys
import os
import ast
import wfdb

import warnings

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import tensorflow as tf
import tensorflow.keras as keras

import sklearn.metrics

from sklearn.preprocessing import StandardScaler

sns.set_style('darkgrid')

Jaká data mám k dispozici

Datová sada PTB-XL ECG dataset zahrnuje celkem 21837 klinických vyšetření na 12-ti svodovém EKG přístroji. Celkem bylo vyšetřováno 18885 pacientů. Délka každého vyšetření byla omezena na 10 sekund.

Součástí datové sady jsou nejen vlastní EKG křivky, ale také metadata vztahující se ke každému klinickému vyšetření.

Pokud se podíváte na obsah datové sady, pak metadata o každém vyšetření naleznete v souboru ptbxl_database.csv .

Načtení metadat vyšetření

In [2]:

PATH_TO_DATA = '/kaggle/input/ptb-xl-dataset/ptb-xl-a-large-publicly-available-electrocardiography-dataset-1.0.1/'

ECG_df = pd.read_csv(os.path.join(PATH_TO_DATA, 'ptbxl_database.csv'), index_col='ecg_id')
ECG_df.scp_codes = ECG_df.scp_codes.apply(lambda x: ast.literal_eval(x))
ECG_df.patient_id = ECG_df.patient_id.astype(int)
ECG_df.nurse = ECG_df.nurse.astype('Int64')
ECG_df.site = ECG_df.site.astype('Int64')
ECG_df.validated_by = ECG_df.validated_by.astype('Int64')

ECG_df

Out[2]:

	patient_id	age	sex	height	weight	nurse	site	device	recording_date	report	…	validated_by_human	baseline_drift	static_noise	burst_noise	electrodes_problems	extra_beats	pacemaker	strat_fold	filename_lr	filename_hr
ecg_id
1	15709	56.0	1	NaN	63.0	2	0	CS-12 E	1984–11–09 09:17:34	sinusrhythmus periphere niederspannung	…	True	NaN	, I-V1,	NaN	NaN	NaN	NaN	3	records100/00000/00001_lr	records500/00000/00001_hr
2	13243	19.0	0	NaN	70.0	2	0	CS-12 E	1984–11–14 12:55:37	sinusbradykardie sonst normales ekg	…	True	NaN	NaN	NaN	NaN	NaN	NaN	2	records100/00000/00002_lr	records500/00000/00002_hr
3	20372	37.0	1	NaN	69.0	2	0	CS-12 E	1984–11–15 12:49:10	sinusrhythmus normales ekg	…	True	NaN	NaN	NaN	NaN	NaN	NaN	5	records100/00000/00003_lr	records500/00000/00003_hr
4	17014	24.0	0	NaN	82.0	2	0	CS-12 E	1984–11–15 13:44:57	sinusrhythmus normales ekg	…	True	, II,III,AVF	NaN	NaN	NaN	NaN	NaN	3	records100/00000/00004_lr	records500/00000/00004_hr
5	17448	19.0	1	NaN	70.0	2	0	CS-12 E	1984–11–17 10:43:15	sinusrhythmus normales ekg	…	True	, III,AVR,AVF	NaN	NaN	NaN	NaN	NaN	4	records100/00000/00005_lr	records500/00000/00005_hr
…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…
21833	17180	67.0	1	NaN	NaN	1	2	AT-60 3	2001–05–31 09:14:35	ventrikulÄre extrasystole(n) sinustachykardie …	…	True	NaN	, alles,	NaN	NaN	1ES	NaN	7	records100/21000/21833_lr	records500/21000/21833_hr
21834	20703	93.0	0	NaN	NaN	1	2	AT-60 3	2001–06–05 11:33:39	sinusrhythmus lagetyp normal qrs(t) abnorm …	…	True	NaN	NaN	NaN	NaN	NaN	NaN	4	records100/21000/21834_lr	records500/21000/21834_hr
21835	19311	59.0	1	NaN	NaN	1	2	AT-60 3	2001–06–08 10:30:27	sinusrhythmus lagetyp normal t abnorm in anter…	…	True	NaN	, I-AVR,	NaN	NaN	NaN	NaN	2	records100/21000/21835_lr	records500/21000/21835_hr
21836	8873	64.0	1	NaN	NaN	1	2	AT-60 3	2001–06–09 18:21:49	supraventrikulÄre extrasystole(n) sinusrhythmu…	…	True	NaN	NaN	NaN	NaN	SVES	NaN	8	records100/21000/21836_lr	records500/21000/21836_hr
21837	11744	68.0	0	NaN	NaN	1	2	AT-60 3	2001–06–11 16:43:01	sinusrhythmus p-sinistrocardiale lagetyp norma…	…	True	NaN	, I-AVL,	NaN	NaN	NaN	NaN	9	records100/21000/21837_lr	records500/21000/21837_hr

21837 rows × 27 columns

Když se podíváte detailněji na záznamy o vyšetření, pak tam najdete informace týkající se samotného pacienta. Dále pak podmínky, za kterých bylo vyšetření provedeno a popsáno. No a nakonec také odkaz na adresáře, ve kterých jsou uložena data vlastních křivek.

Navíc autoři datové sady navrhli rozdělení vyšetření do skupin. Jedná se celkem o 10 skupin. Autoři předpokládají, že prvních osm skupin bude použito pro trénování, devátá skupina bude použita jako validační, a poslední skupina jako testovací. Budu se tohoto doporučení držet.

In [3]:

ECG_df.strat_fold.value_counts()

Out[3]:

strat_fold
10    2203
3     2194
9     2193
2     2184
8     2179
7     2178
6     2178
1     2177
5     2176
4     2175
Name: count, dtype: int64

Ještě mně chybí přiřazení diagnóz k jednotlivým EKG vyšetřením. S nimi je to poněkud komplikovanější. V datové saděECG_df mám sloupec scp_codes , který obsahuje slovník kódů a k nim přiřazených pravděpodobností výskytu. Tyto kódy pak odkazují do druhé tabulky, která je uložena v souboru stc_statements.csv .

Pro další práci budu tedy potřebovat i tuto tabulku:

In [4]:

SCP_df = pd.read_csv(os.path.join(PATH_TO_DATA, 'scp_statements.csv'), index_col=0)
SCP_df = SCP_df[SCP_df.diagnostic == 1]

Ze všech definovaných kódů jsem vybral pouze ty spadající do kategorie diagnostických.

Dále potřebuji doplnit kódy diagnostických tříd do datové sady ECG_df , a to propojením na datovou saduSCP_df přes sloupec scp_codes .

In [5]:

def diagnostic_class(scp):
    res = set()
    for k in scp.keys():
        if k in SCP_df.index:
            res.add(SCP_df.loc[k].diagnostic_class)
    return list(res)

ECG_df['scp_classes'] = ECG_df.scp_codes.apply(diagnostic_class)

V datové sadě mně přibyl sloupec scp_classes , který obsahuje seznam diagnostických tříd přiřazených k danému vyšetření. Jedná se skutečně o seznam, což tedy znamená, že jedno vyšetřením může mít přiřazeno více diagnostických tříd. Toto je pro další část textu velice podstatná informace.

Takto vypadá přehled definovaných diagnostických tříd:

Records | Superclass | Description
9528 | NORM | Normal ECG
5486 | MI | Myocardial Infarction
5250 | STTC | ST/T Change
4907 | CD | Conduction Disturbance
2655 | HYP | Hypertrophy

A dále se můžeme podívat na zastoupení diagnostických tříd v celé datové sadě:

In [6]:

ECG_df.scp_classes.value_counts()

Out[6]:

scp_classes
[NORM]                 9083
[MI]                   2538
[STTC]                 2406
[CD]                   1709
[MI, CD]               1302
[STTC, HYP]             783
[MI, STTC]              602
[HYP]                   536
[STTC, CD]              472
[]                      407
[NORM, CD]              407
[MI, STTC, HYP]         362
[CD, HYP]               300
[MI, STTC, CD]          223
[STTC, CD, HYP]         211
[MI, HYP]               183
[MI, STTC, CD, HYP]     158
[MI, CD, HYP]           117
[NORM, STTC]             28
[NORM, STTC, CD]          5
[NORM, CD, HYP]           2
[NORM, HYP]               2
[MI, NORM, CD, HYP]       1
Name: count, dtype: int64

Načtení EKG křivek

Jednotlivé křivky jsou uloženy v souborech ve formátu WaveForm DataBase (WFDB), a to ve dvou variantách. Vždy se jedná o 10-ti sekundové záznamy s vzorkovací frekvencí 100Hz nebo 500Hz. Vzhledem k potřebě redukovat objem dat, se kterými budu dále pracovat, jsem si vybral tu menší frekvenci.

Takto si tedy načtu data křivek:

In [7]:

def load_raw_data(df, sampling_rate, path):
    if sampling_rate == 100:
        data = [wfdb.rdsamp(os.path.join(path, f)) for f in df.filename_lr]
    else:
        data = [wfdb.rdsamp(os.path.join(path, f)) for f in df.filename_hr]
    data = np.array([signal for signal, meta in data])
    return data
sampling_rate = 100
ECG_data = load_raw_data(ECG_df, sampling_rate, PATH_TO_DATA)
ECG_data.shape

Out[7]:

(21837, 1000, 12)

Z dimenzí datové sady ECG_data je zřejmé, že se mně podařilo načíst 21837 vzorků. Každý vzorek obsahuje 1000 hodnot křivky (10 sekund * 100Hz vzorkování) pro 12 EKG svodů.

Jen pro představu, takto vypadá jeden vzorek dat:

In [8]:

sample = ECG_data[0]
bar, axes = plt.subplots(sample.shape[1], 1, figsize=(20,10))
for i in range(sample.shape[1]):
    sns.lineplot(x=np.arange(sample.shape[0]), y=sample[:, i], ax=axes[i])
plt.show()

__notebook___soubory/__results___16_0.png

A ještě jeden pohled na metadata vyšetření

Zcela jistě stojí za úvahu pohled na kvalitu dat (v tomto případě mám na mysli především metadata), a to s ohledem jejich zařazení do dalšího procesu modelování.

Takto vypadá zevrubný pohled na datovou saduECG_df z hlediska nedefinovaných hodnot:

In [9]:

import missingno as msno

msno.matrix(ECG_df)
plt.show()

__notebook___soubory/__results___18_0.png

A takto vypadá pohled na jednotlivé sloupce z hlediska počtu unikátních hodnot v nich:

In [10]:

ECG_df[[col for col in ECG_df.columns if col not in ('scp_codes', 'scp_classes')]].nunique(dropna=True)

Out[10]:

patient_id                      18885
age                                94
sex                                 2
height                             77
weight                            127
nurse                              12
site                               51
device                             11
recording_date                  21813
report                           9883
heart_axis                          8
infarction_stadium1                 6
infarction_stadium2                 3
validated_by                       12
second_opinion                      2
initial_autogenerated_report        2
validated_by_human                  2
baseline_drift                    321
static_noise                      124
burst_noise                       103
electrodes_problems                14
extra_beats                       128
pacemaker                           4
strat_fold                         10
filename_lr                     21837
filename_hr                     21837
dtype: int64

Z výše uvedeného je zřejmé, že nemá velký význam zahrnovat některé sloupce do dalšího modelování, neboť jejich vliv na výsledek by byl malý.

Příprava dat pro modelování

Datová sada X – metadata

Prvním zdrojem informací, které mohu zahrnout to modelování, jsou data o pacientech a podmínkách provedeného EKG vyšetření. Jedná se o data v tabulce ECG_df , a již dříve jsem je označoval jako metadata.

Z výše naznačeného pohledu na metadata je zřejmé, že do modelování nebudu zahrnovat všechny údaje uvedené ve zdrojové tabulce. Vyberu si pouze ty údaje, které se nějakým způsobem vztahují k vyšetřovanému pacientovi a jeho zdravotním stavu.

Výsledkem pak bude datová sada X , která mně bude sloužit jako jeden z možných vstupů do modelování.

In [11]:

X = pd.DataFrame(index=ECG_df.index)

X['age'] = ECG_df.age
X.age.fillna(0, inplace=True)

X['sex'] = ECG_df.sex.astype(float)
X.sex.fillna(0, inplace=True)

X['height'] = ECG_df.height
X.loc[X.height < 50, 'height'] = np.nan
X.height.fillna(0, inplace=True)

X['weight'] = ECG_df.weight
X.weight.fillna(0, inplace=True)

X['infarction_stadium1'] = ECG_df.infarction_stadium1.replace({
    'unknown': 0,
    'Stadium I': 1,
    'Stadium I-II': 2,
    'Stadium II': 3,
    'Stadium II-III': 4,
    'Stadium III': 5
}).fillna(0)

X['infarction_stadium2'] = ECG_df.infarction_stadium2.replace({
    'unknown': 0,
    'Stadium I': 1,
    'Stadium II': 2,
    'Stadium III': 3
}).fillna(0)

X['pacemaker'] = (ECG_df.pacemaker == 'ja, pacemaker').astype(float)

X

Out[11]:

	age	sex	height	weight	infarction_stadium1	infarction_stadium2	pacemaker
ecg_id
1	56.0	1.0	0.0	63.0	0.0	0.0	0.0
2	19.0	0.0	0.0	70.0	0.0	0.0	0.0
3	37.0	1.0	0.0	69.0	0.0	0.0	0.0
4	24.0	0.0	0.0	82.0	0.0	0.0	0.0
5	19.0	1.0	0.0	70.0	0.0	0.0	0.0
…	…	…	…	…	…	…	…
21833	67.0	1.0	0.0	0.0	0.0	0.0	0.0
21834	93.0	0.0	0.0	0.0	4.0	0.0	0.0
21835	59.0	1.0	0.0	0.0	0.0	0.0	0.0
21836	64.0	1.0	0.0	0.0	0.0	0.0	0.0
21837	68.0	0.0	0.0	0.0	0.0	0.0	0.0

21837 rows × 7 columns

Datová sada Y – EKG křivky

Datová sada Y mně bude představovat hlavním zdroj vstupních informací do modelování, tedy naměřené EKG křivky.

TabulkaECG_data plně postačuje pro tento účel, takže v tomto okamžiku mám již hotovo.

In [12]:

Y = ECG_data

Y.shape

Out[12]:

(21837, 1000, 12)

Datová sada Z – klasifikační třídy

V tomto případě se jedná o cílové hodnoty, které chceme zjišťovat. Jinak řečeno, v datové saděZ jsou informace o zařazení každého vyšetření do diagnostických tříd.

Sloupce v datové saděZ odpovídají názvům klasifikačních tříd. Zařazení/nezařazení vyšetření do třídy se pak určuje hodnotou 1/0.

In [13]:

Z = pd.DataFrame(0, index=ECG_df.index, columns=['NORM', 'MI', 'STTC', 'CD', 'HYP'], dtype='int')
for i in Z.index:
    for k in ECG_df.loc[i].scp_classes:
        Z.loc[i, k] = 1

Z

Out[13]:

	NORM	MI	STTC	CD	HYP
ecg_id
1	1	0	0	0	0
2	1	0	0	0	0
3	1	0	0	0	0
4	1	0	0	0	0
5	1	0	0	0	0
…	…	…	…	…	…
21833	0	0	1	0	0
21834	1	0	0	0	0
21835	0	0	1	0	0
21836	1	0	0	0	0
21837	1	0	0	0	0

21837 rows × 5 columns

Jen pro představu o zastoupení jednotlivých tříd v celé datové sadě si můžeme ukázat následující:

In [14]:

Z.sum()

Out[14]:

NORM    9528
MI      5486
STTC    5250
CD      4907
HYP     2655
dtype: int64

A tady můžete vidět jeden z problémů, který sebou tato datová sada nese, a sice nerovnoměrné zastoupení vzorků s různými třídami. Jak tomuto problému čelit bude možná někdy v budoucnu námětem pro další bádání, ale v tomto příspěvku to nebude.

Rozdělení datových sad na trénovací, validační a testovací

Posledním krokem v přípravě dat bude jejich rozdělení na podmnožiny určené pro trénování sítě, validaci a ověření výsledku. Budu respektovat doporučení autorů datové sady, a pro rozdělení použiji atribut ECG_df.strat_fold .

In [15]:

X_train, Y_train, Z_train = X[ECG_df.strat_fold <= 8],  ECG_data[X[ECG_df.strat_fold <= 8].index - 1],  Z[ECG_df.strat_fold <= 8]
X_valid, Y_valid, Z_valid = X[ECG_df.strat_fold == 9],  ECG_data[X[ECG_df.strat_fold == 9].index - 1],  Z[ECG_df.strat_fold == 9]
X_test,  Y_test,  Z_test  = X[ECG_df.strat_fold == 10], ECG_data[X[ECG_df.strat_fold == 10].index - 1], Z[ECG_df.strat_fold == 10]

print(f"Trénovací sady: X_train={X_train.shape} Y_train={Y_train.shape} Z_train={Z_train.shape}")
print(f"Validační sady: X_valid={X_valid.shape}  Y_valid={Y_valid.shape}  Z_valid={Z_valid.shape}")
print(f"Testovací sady: X_test ={X_test.shape}  Y_test={Y_test.shape}   Z_test={Z_test.shape}")
Trénovací sady: X_train=(17441, 7) Y_train=(17441, 1000, 12) Z_train=(17441, 5)
Validační sady: X_valid=(2193, 7)  Y_valid=(2193, 1000, 12)  Z_valid=(2193, 5)
Testovací sady: X_test =(2203, 7)  Y_test=(2203, 1000, 12)   Z_test=(2203, 5)

Datová sada S – Spektrogramy EKG křivek

Doposud jsem se zabýval výstupy EKG křivek z jednotlivých elektrod tak, jak je poskytují tvůrci datové sady PTB-XL ECG dataset. Jedná se tedy o pohled v časové rovině (připomínám že signály mají délku 10 sekund).

Při analýze signálů se velmi často využívá ještě jiný pohled, a sice jeho spektrum. V případě EKG křivek obvykle budu hledat nějaké anomálie v jejich průběhu, což by se mělo projevit ve změně spektra v inkriminované oblasti křivky. Nevystačím si tedy s pouhým převedením signálu na jeho spektrum. Potřebuji propojit oba pohledy, a to jak ve spektrální rovině, tak také v časové. Jinými slovy potřebuji vytvořit spektrogram (short-time Fourier transform, STFT).

Pro výpočet spektrogramu jsem použil knihovnu librosa.

Nejdříve si potřebuji upravit pořadí dimenzí v datovém setuEVG_data tak, aby svody byly ve druhém rozměru, a křivky v tom posledním.

In [16]:

ECG_swapped = np.swapaxes(ECG_data, 1, 2)

ECG_swapped.shape

Out[16]:

(21837, 12, 1000)

A nyní si vytvořím spektrum pomocí funkce pro STFT. Parametry funkce jsem zvolil tak, abych měl přibližně stejný počet rámců jak v časové, tak se spektrální rovině.

Výsledek je ještě upraven přepočtem amplitudy na výkon a převeden na decibely(dB).

import librosa

frame_size = 60
hop_size = 30

S = librosa.stft(ECG_swapped, n_fft=frame_size, hop_length=hop_size)

S = np.abs(S) ** 2
S = librosa.power_to_db(S)

S.shape

Tato část kódu je bohužel hodně paměťově náročná, nebylo možné ji v prostředí Kaggle spustit. Proto jsem tento výpočet udělal na jiném stroji a zde si jen načtu výsledek …

In [17]:

PREPROCESSED_DATA_FILE = '/kaggle/input/ptb-xl-preprocessed-dataset/data.npz'

thismodule = sys.modules[__name__]

with np.load(PREPROCESSED_DATA_FILE) as data:
    for k in ('S_train', 'S_valid', 'S_test'):
        setattr(thismodule, k, data[k].astype(float))

print(f"S_train={S_train.shape} S_valid={S_valid.shape} S_test={S_test.shape}")
S_train=(17441, 12, 31, 34) S_valid=(2193, 12, 31, 34) S_test=(2203, 12, 31, 34)

Spektrogramy mám již rozdělené do tří sad pro trénování, validaci a testování.

Z výše vypsaných dimenzí je zřejmé, že u každého vzorku mám pro každý svod spektrogram s rozlišením 31 hodnot ve spektrální rovině a 34 hodnot v rovině časové.

Pro představu si zkusím jeden takový spektrogram zobrazit:

In [18]:

import librosa

frame_size = 60
hop_size = 30

def plot_spectrogram(y, sr, hop_length, y_axis = "linear"):
    plt.figure(figsize = (8, 4))
    librosa.display.specshow(y, sr = sr, hop_length = hop_length, x_axis = "time", y_axis = y_axis)
    plt.colorbar(format="%+2.f")

plot_spectrogram(S_train[0, 0], sr=frame_size, hop_length=hop_size)

__notebook___soubory/__results___40_0.png

A to je pro dnešek vše. Ve druhém dílu budu pokračovat vlastními modely zdrojových dat.

Přidat názor

26. 1. 2024 12:10

alex6bbc

krome stft zkusite i wavelety?

Přidat názor

Jaká data mám k dispozici

Načtení metadat vyšetření

Načtení EKG křivek

A ještě jeden pohled na metadata vyšetření

Příprava dat pro modelování

Datová sada X – metadata

Datová sada Y – EKG křivky

Datová sada Z – klasifikační třídy

Rozdělení datových sad na trénovací, validační a testovací

Datová sada S – Spektrogramy EKG křivek

Sdílet

Jiří Raška

Nejčtenější články autora

Poslední názory

Klasifikace Elektrokardiogramu (EKG) - díl první

Jaká data mám k dispozici

Načtení metadat vyšetření

Načtení EKG křivek

A ještě jeden pohled na metadata vyšetření

Příprava dat pro modelování

Datová sada X – metadata

Datová sada Y – EKG křivky

Datová sada Z – klasifikační třídy

Rozdělení datových sad na trénovací, validační a testovací

Datová sada S – Spektrogramy EKG křivek

Sdílet

Jiří Raška

Nejčtenější články autora

Poslední názory

Dále u nás najdete

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

Přehled změn, které se na podnikatele chystají v roce 2025

Gynekologie zavedla poplatky, pacientky si to nenechaly líbit

Reklama přímo v systému televize: Co kdyby nešla vypnout?

Nové HDMI 2.2 už je za rohem

Češi vyslali svařovacího robota do vesmíru

Tři důležité změny v oblasti zdanění zaměstnanců pro rok 2025

Zdravé občerstvení na Silvestra, po kterém vám nebude těžko

Rok 2024: Crowdstrike, vzestup AI, pan Megaupload mířící do USA

Dění v Rumunsku testuje vztah Evropy k online platformám

Nejistota pro podnikatele, zásadní změny DPH ještě nejsou schváleny

Tuzemské cestovní náhrady v roce 2025

Kvíz: Ukažte, kolik druhů vánočního cukroví poznáte

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Vánoce v minulosti: oplzlé koledy, bujaré veselí a hrachová kaše

Přinášíme souhrn příběhů podnikatelů roku 2024

Google Agentspace zpřístupní AI agenty pro zaměstnance

Nakupování o vánočních svátcích: zákon řeší otevírací dobu jasně

Za smrt slavné spisovatelky nejspíš mohla nemoc nebo taky arsen

Příspěvky pojišťoven: jedna přidá na plavání, jiná ubere u sportu