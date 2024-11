!git clone 'https://github.com/facebookresearch/detectron2' Cloning into 'detectron2'... remote: Enumerating objects: 15792, done. remote: Counting objects: 100% (49/49), done. remote: Compressing objects: 100% (39/39), done. remote: Total 15792 (delta 15), reused 27 (delta 10), pack-reused 15743 (from 1) Receiving objects: 100% (15792/15792), 6.36 MiB | 26.27 MiB/s, done. Resolving deltas: 100% (11509/11509), done.

Se závislostmi jsou trochu problémy. Ty jsem ale aktuálně neřešil, neboť mně žádné nepříjemnosti nedělaly.

A nyní se již můžu podívat, co mám aktuálně nainstalované:





import torch, detectron2 !nvcc --version TORCH_VERSION = ".".join(torch.__version__.split(".")[:2]) CUDA_VERSION = torch.__version__.split("+")[-1] print("torch: ", TORCH_VERSION, "; cuda: ", CUDA_VERSION) print("detectron2:", detectron2.__version__) nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2023 NVIDIA Corporation Built on Wed_Nov_22_10:17:15_PST_2023 Cuda compilation tools, release 12.3, V12.3.107 Build cuda_12.3.r12.3/compiler.33567101_0 torch: 2.4 ; cuda: 2.4.0 detectron2: 0.6

Pro běh framework potřebuji mít k dispozici podporu grafické karty a nainstalovaný Cuda driver. Bez podpory grafické karty mně Torch nefungoval.

Detekce objektu a segmentace

Jedním ze základních úkolů, které si autoři framework vytyčili, je detekce objektů nacházejících se na obrázku. Cílem je najít známý objekt , což může být osoba, auto, zvíře, strom a podobně, a označit jej pomocí ohraničujícího obdélníku. Aby bylo možné toho dosáhnout, je potřeba trénovat model na nějaké datové sadě, která obsahuje informace o třídách objektu a jejich lokalizaci pomocí obdélníku. Jednou z takových sad je COCO – Common Objects in Context, na které jsou trénovány modely z framework Detectron2. A to mi hodně ulehčí pokusy, neboť můžu použít takový připravený model.

Segmentací se rozumí druhý úkol, který si autoři vzali za své. Když už jsem nějaký objekt na obrázku našel, pak bych chtěl označit všechny body, které tento objekt tvoří (tedy nejen namalovat kolem něj obdélník). V tomto kontextu se obvykle mluví o segmentaci instancí (chci označit každý objekt zvláště, např. odlišit každou osobu na obrázku), nebo sémantické segmentaci, kdy označuji body vybrané třídy (např. stromy souhrnně a ne po jednotlivých kmenech).

Nejdříve příprava prostředí pro test:





import detectron2 from detectron2.utils.logger import setup_logger setup_logger() import cv2, random import matplotlib.pyplot as plt from detectron2 import model_zoo from detectron2.engine import DefaultPredictor from detectron2.config import get_cfg from detectron2.utils.visualizer import Visualizer from detectron2.data import MetadataCatalog, DatasetCatalog

Dále potřebuji nějaký obrázek, tak jsem si jeden stáhl:





!wget http://farm8.staticflickr.com/7422/9543633506_36574fe48f_z.jpg -q -O input.jpg im = cv2.imread("./input.jpg") fig=plt.figure(figsize=(14, 6)) plt.imshow(im[:,:,::-1]) plt.show()

Jako výchozí model pro analýzu obrázku jsem si zvolil model „ COCO-InstanceSegmentation/mask_rcnn_R 50 _FPN_3×­.yaml“. Ten by mně měl poskytnout jak detekci objektů, tak také segmentaci jednotlivých instancí.

Nejdříve si musím vytvořit objekt s konfiguračními parametry. Ty následně aktualizuji o parametry specifické pro vybraný model. Posledním krokem vytvoření finální konfigurace je načtení vah modelu (to je ten parametru cfg.MODEL.WEIGHTS).

Když už mám konfigurační objekt hotový, můžu podle něj vytvořit predictor. Jeho úkolem je analýza zadaného obrázku a vytvoření výstupního objektu s informací o nalezených objektech.





cfg = get_cfg() cfg.merge_from_file(model_zoo.get_config_file("COCO-InstanceSegmentation/mask_rcnn_R_50_FPN_3x.yaml")) cfg.MODEL.ROI_HEADS.SCORE_THRESH_TEST = 0.5 cfg.MODEL.WEIGHTS = model_zoo.get_checkpoint_url("COCO-InstanceSegmentation/mask_rcnn_R_50_FPN_3x.yaml") predictor = DefaultPredictor(cfg) outputs = predictor(im) [10/24 18:27:22 d2.checkpoint.detection_checkpoint]: [DetectionCheckpointer] Loading from https://dl.fbaipublicfiles.com/detectron2/COCO-InstanceSegmentation/mask_rcnn_R_50_FPN_3x/137849600/model_final_f10217.pkl ... model_final_f10217.pkl: 178MB [00:00, 179MB/s]

Nyní již mám analýzu hotovou a můžu se podívat na její výsledek.

Zobrazil jsem si jenom dva atributy (v objektu jich je více), a sice pred_classes a pred_boxes. V tom prvém případě se jedná o seznam objektů, které byly na obrázku nalezeny. Model našel pouze dvě třídy objektů, 0 – osoba a 21 – medvěd. Druhý atribut pak obsahuje souřadnice obdélníků lokalizujících každou nalezenou instanci.





print(outputs["instances"].pred_classes) print(outputs["instances"].pred_boxes) tensor([ 0, 0, 21, 0, 0, 0, 0, 0, 0], device='cuda:0') Boxes(tensor([[345.0279, 62.7153, 401.5158, 213.6461], [296.4480, 77.5313, 345.7865, 230.9989], [197.9029, 232.5715, 360.9186, 335.1725], [405.3865, 67.1518, 446.8349, 186.6909], [427.9221, 67.8704, 483.9040, 203.5692], [276.9014, 76.5971, 305.0749, 175.0133], [339.2955, 72.9099, 363.9201, 201.0358], [127.4966, 7.7133, 152.6817, 69.1629], [113.0532, 0.0000, 136.0884, 73.3390]], device='cuda:0'))

S výsledky mohu dále pracovat dle svého uvážení a potřeb. Nebo si je můžu zobrazit pomocí nástroje Visualizer zahrnutého do framework:





v = Visualizer(im, MetadataCatalog.get(cfg.DATASETS.TRAIN[0]), scale=1.2) out = v.draw_instance_predictions(outputs["instances"].to("cpu")) fig=plt.figure(figsize=(14, 6)) plt.imshow(out.get_image()[:,:,::-1]) plt.show()

V tomto zobrazení můžete vidět několik informací. U každého nalezeného objektu je uvedena jeho třída, pravděpodobnost určení třídy, lokalizační obdélník, a díky tomu, že jsem použil model se segmentací, tak také segmentační masku každé instance objektu.

Pokud by mne tedy zajímal pouze medvěd s jeho lokalizací, pak bych zobrazení mohl zjednodušit třeba takto:





out = outputs['instances'] inst = out[out.pred_classes == 21] inst.remove('pred_masks') v = Visualizer(im, MetadataCatalog.get(cfg.DATASETS.TRAIN[0]), scale=1.2) out = v.draw_instance_predictions(inst.to("cpu")) fig=plt.figure(figsize=(14, 6)) plt.imshow(out.get_image()[:,:,::-1]) plt.show()

A mám pouze toho medvěda.

Panoptická segmentace

Jako ukázku toho, jak volba typu modelu ovlivňuje výsledek analýzy, jsem si vybral ještě druhý model. Ten by mně měl poskytnout tzv. „panoptickou segmentaci“. Jedná se o kombinaci segmentace vybraných instancí se sémantickou segmentací. Příklad asi bude názornější než nějaké složité vysvětlování.

Vyšel jsem z modelu „ COCO-PanopticSegmentation/panop­tic_fpn_R 101 _3×.yaml“: