In [1]:

from IPython.display import Image

from keras.utils import plot_model

from keras import layers

from keras import Input, Model

from keras.models import Sequential

import tensorflow.keras as keras

import tensorflow as tf

from sklearn.model_selection import train_test_split

import seaborn as sns

import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

In [2]:

if not os.path.exists('/kaggle/working/model'):

In [3]:

Dnes budu pro jednoduchost opět vycházet z již dříve použité datové sady Brain MRI segmentation. Pokud by vás zajímaly bližší informace o tom, jak jsem data načítal, odkážu vás na předchozí článek. Tam to je trochu více popsáno. Na tomto místě si pouze data načtu do dvou polí, X – zdrojové obrázky a Y – segmentační masky jako cíl.

In [4]:

else:

if os.path.isfile(image):

for path in glob.glob(DATA_ROOT + "**/*_mask.tif"):

In [5]:

for image_path, mask_path in image_paths:

Z posledního výpisu je zřejmé, že jsem načetl 3929 vzorků v rozlišení 128×128 pixelů. Zdrojové obrázky jsou vytvořeny jako RGB snímky se třemi kanály, cílové masky pak jako odstíny šedi (tedy jeden kanál).

Klasifikační model VGG16 jsem si vybral záměrně, neboť se jedná o poměrně jednoduchý a přímočarý model, který bude pro mé pokusy plně vyhovovat. Navíc vzhledem k mému omezenému rozlišení zdrojových obrázků ani nebudu využívat výstupy všech konvolučních bloků. Tento model pro mne bude představovat kontrakční fázi segmentačního modelu U-Net. Dále budu potřebovat ještě expanzní fázi. Tu si napíšu vlastníma rukama s využitím Transpose Convolution a konvolučních bloků.

Nejdříve ale potřebuji instanci klasifikačního modelu VGG16. Nejjednodušší způsob je načtení rovnou z distribuce Keras včetně vah zjištěných při trénování modelu jeho autory:

In [6]:

In [7]:

block5_pool (MaxPooling2D) (None, 4, 4, 512) 0

block5_conv3 (Conv2D) (None, 8, 8, 512) 2359808

block5_conv2 (Conv2D) (None, 8, 8, 512) 2359808

block5_conv1 (Conv2D) (None, 8, 8, 512) 2359808

block4_pool (MaxPooling2D) (None, 8, 8, 512) 0

block4_conv3 (Conv2D) (None, 16, 16, 512) 2359808

block4_conv2 (Conv2D) (None, 16, 16, 512) 2359808

block4_conv1 (Conv2D) (None, 16, 16, 512) 1180160

block3_pool (MaxPooling2D) (None, 16, 16, 256) 0

block3_conv3 (Conv2D) (None, 32, 32, 256) 590080

block3_conv2 (Conv2D) (None, 32, 32, 256) 590080

block3_conv1 (Conv2D) (None, 32, 32, 256) 295168

block2_pool (MaxPooling2D) (None, 32, 32, 128) 0

block2_conv2 (Conv2D) (None, 64, 64, 128) 147584

block2_conv1 (Conv2D) (None, 64, 64, 128) 73856

block1_pool (MaxPooling2D) (None, 64, 64, 64) 0

block1_conv2 (Conv2D) (None, 128, 128, 64) 36928

block1_conv1 (Conv2D) (None, 128, 128, 64) 1792

input_1 (InputLayer) [(None, 128, 128, 3)] 0

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/vgg16/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5

Výpis modelu uvádím záměrně. Vzhledem k tomu, že budu vytvářet expanzní fázi U-Net modelu, budu potřebovat napojení přes tzv. skip connections z různých úrovní klasifikačního modelu.

Obvykle se využívá výstup poslední konvoluční vrstvy před vrstvou MaxPooling2D. Budu se tohoto doporučení držet, proto budu potřebovat výstupy z vrstev block1_conv2, block2_conv2 , block3_conv3 a block4_conv3 (pro ověření je výše právě ten výpis).

A nyní již mám vše potřebné pro vytvoření U-Net modelu založeného na VGG16 backbone:

In [8]:

def decoder_block(x, s, *, filters, name=""):

if activation:

def conv_block(x, *, filters, kernel_size=(3, 3), strides=(1, 1), padding='same', activation='relu', name=""):

Kontrakční fázi modelu mně představuje instance VGG16. Vzhledem k tomu, že jsem si model načetl včetně vah, nebudu tuto část modelu trénovat, a proto je nastaven příznak trainable=False.

Vstupem pro úzké hrdlo modelu je výstup vrstvy block4_conv3 kontrakční fáze (jen pro připomenutí, poslední konvoluce před pooling). V tomto místě mám rozlišení 16×16 s 256 vlastnostmi. Hrdlo je tvořeno dvěma konvolučními bloky se zachováním rozlišení obrázku, ale se zvětšením počtu vlastností na dvojnásobek.

Expanzní fáze je pak tvořena třemi bloky komplementárními ke kontrakční fázi. Jedná se tedy o bloky s roztažením obrázku na dvojnásobnou velikost vrstvou Conv2DTranspose s krokem konvoluce 2. Následuje zřetězení výstupu vrstvy s tenzorem skip connection. A vše je završeno dvěma konvolučními bloky s redukcí počtu sledovaných vlastností.

Výstupem celého modelu je opět konvoluční blok s rozlišením původního obrázku a aktivační funkcí Sigmoid pro zjištění pravděpodobnosti zařazení pixelu do třídy.

Opět jsem si zde doplnil implementace pro ztrátovou funkci a metriky. Jako ztrátovou funkci používám kombinaci Binary CrossEntropy a Dice Coefficient. Metriky jsem si v tomto případě vybral Dice Coefficient a Jaccard Index (i když by mně asi stačila jenom jedna, neboť jejich výsledky se dost kryjí).

In [9]:

from keras.losses import binary_crossentropy

Ještě si musím rozdělit celou datovou sadu na část pro trénování a pro testování výkonu modelu (poměr 80:20):

In [10]:

Vytvořím si instanci modelu a přeložím jej:

In [11]:

Použiji pro mne obvyklý postup s callback funkcemi pro úschovu nejlepší verze modelu a dřívější zastavení trénování v případě, že se výsledky začnou zhoršovat při validaci (což se ale nestalo a využil jsem celou sadu 100 epoch).

In [12]:

EPOCHS = 100

callbacks_list = [

keras.callbacks.EarlyStopping(monitor='val_dice_coefficient', mode='max', patience=20),

keras.callbacks.ModelCheckpoint(filepath=MODEL_CHECKPOINT, monitor='val_dice_coefficient', save_best_only=True, mode='max', verbose=1)

]

history = model.fit(

x=x_train,

y=y_train,

epochs=EPOCHS,

callbacks=callbacks_list,

validation_split=0.2,

verbose=1)

Epoch 1/100

I0000 00:00:1709056488.748993 67 device_compiler.h:186] Compiled cluster using XLA! This line is logged at most once for the lifetime of the process.

Epoch 4/100

Epoch 6/100

Epoch 8/100

...

Epoch 100/100

Epoch 100: val_dice_coefficient improved from 0.83926 to 0.84058, saving model to /kaggle/working/model/UNet_VGG16Backbone.ckpt

79/79 [==============================] - 20s 250ms/step - loss: 0.0943 - dice_coefficient: 0.9111 - jaccard_index: 0.8381 - val_loss: 0.1873 - val_dice_coefficient: 0.8406 - val_jaccard_index: 0.7261