Zbiór danych Białystok zawiera 162 obrazy o wymiarach 3500x3500 px, 2 419 komórek z adnotacjami zgodnie z systemem Bethesda. Obrazy pochodzą z preparatów wirtualnych całych szkiełek (WSI – Whole Slide Image) rutynowych rozmazów szyjki macicy.

Zbiór danych został szczegółowo opisany w artykule Conventional Cervical Cytology Image Dataset with Cell Outline Annotations dostępnym wkrótce w IEEE Access.

Aby uzyskać dostęp do zbioru danych, proszę wypełnić formularz.

Zestaw danych koncentruje się na przedstawieniu realistycznego wachlarza różnorodności rozmazów, od prostych i łatwych do rozróżnienia komórek, po wymagające przykłady pełne zabarwionego śluzu, dużych ciemnych skupisk komórek i obrazów obfitujących w komórki neutrofilowe przesłaniające widok.

whole_image_copy.png

 

Zbiór danych zawiera artefakty powszechnie występujące w rozmazach cytologicznych:

artifacts_copy.png

 

Zbiorowi danych towarzyszą adnotacje w postaci map cytoplazmy podzielonych na 6 kategorii Bethesda i dwie kategorie niemożliwe do zidentyfikowania: Niezidentyfikowane komórki i Niezidentyfikowane skupiska komórek. Kategoria niezidentyfikowana wynika ze specyfiki pracy cytodiagnosty. Spektrum stanu komórek jest ciągłe. Dlatego w pewnych warunkach cytodiagnosta nie może podjąć ostatecznej decyzji. Takie komórki są nadal zaznaczone w zbiorze danych, aby umożliwić segmentację wszystkich komórek na obrazie.

maps_copy.png

 

Podsumowując, zestaw danych zapewnia:

- Realistyczne fragmenty WSI fragmentów rutynowych rozmazów

- Adnotacje spójne ze wspólnym systemem raportowania

- Przydatność do segmentacji, klasyfikacji i wykrywania

- Zaawansowany benchmark