Zbiór danych Białystok zawiera 162 obrazy o wymiarach 3500x3500 px, 2 419 komórek z adnotacjami zgodnie z systemem Bethesda. Obrazy pochodzą z preparatów wirtualnych całych szkiełek (WSI – Whole Slide Image) rutynowych rozmazów szyjki macicy.
Zbiór danych został szczegółowo opisany w artykule Conventional Cervical Cytology Image Dataset with Cell Outline Annotations dostępnym wkrótce w IEEE Access.
Aby uzyskać dostęp do zbioru danych, proszę wypełnić formularz.
Zestaw danych koncentruje się na przedstawieniu realistycznego wachlarza różnorodności rozmazów, od prostych i łatwych do rozróżnienia komórek, po wymagające przykłady pełne zabarwionego śluzu, dużych ciemnych skupisk komórek i obrazów obfitujących w komórki neutrofilowe przesłaniające widok.
Zbiór danych zawiera artefakty powszechnie występujące w rozmazach cytologicznych:
Zbiorowi danych towarzyszą adnotacje w postaci map cytoplazmy podzielonych na 6 kategorii Bethesda i dwie kategorie niemożliwe do zidentyfikowania: Niezidentyfikowane komórki i Niezidentyfikowane skupiska komórek. Kategoria niezidentyfikowana wynika ze specyfiki pracy cytodiagnosty. Spektrum stanu komórek jest ciągłe. Dlatego w pewnych warunkach cytodiagnosta nie może podjąć ostatecznej decyzji. Takie komórki są nadal zaznaczone w zbiorze danych, aby umożliwić segmentację wszystkich komórek na obrazie.
Podsumowując, zestaw danych zapewnia:
- Realistyczne fragmenty WSI fragmentów rutynowych rozmazów
- Adnotacje spójne ze wspólnym systemem raportowania
- Przydatność do segmentacji, klasyfikacji i wykrywania
- Zaawansowany benchmark