AI generuje zdjęcia RTG, które mylą specjalistów. Nowe wyzwania technologiczne dla branży MedTech

Zdjęcie symbolizujące trudność wygrywania zdjęć RTG generowanych przez AI

Najnowsze badanie opublikowane w czasopiśmie Radiology dowodzi, że realistyczne zdjęcia rentgenowskie tworzone przez algorytmy sztucznej inteligencji są niezwykle trudne do odróżnienia od autentycznych – zarówno dla doświadczonych radiologów, jak i zaawansowanych modeli językowych (LLM) . Dla producentów aparatury medycznej oraz dostawców oprogramowania diagnostycznego rosnące ryzyko pojawienia się medycznych deepfake’ów oznacza konieczność wdrożenia nowych standardów w zakresie cyberbezpieczeństwa, kontroli jakości oraz weryfikacji danych obrazowych.

Założenia badania

Autorzy publikacji sprawdzili, czy radiolodzy potrafią rozpoznać syntentyczne obrazy RTG wygenerowane przez AI oraz jak z tym samym zadaniem radzą sobie duże modele językowe. W badaniu uczestniczyło 17 radiologów z 12 ośrodków w sześciu krajach, reprezentujących różne specjalizacje i poziomy doświadczenia zawodowego.

W pierwszym zestawie znalazło się 77 prawdziwych radiogramów (obrazów uzyskanych w wyniku wykonanego badania RTG) i 77 obrazów syntetycznych wygenerowanych przez GPT-4o, obejmujących klatkę piersiową, kończyny i kręgosłup. Drugi zestaw obejmował 55 autentycznych zdjęć klatki piersiowej i 55 syntetycznych obrazów wygenerowanych przez wyspecjalizowany model dyfuzyjny RoentGen.

Jakość zdjęć RTG i trafność oceny

Średnia ocena jakości technicznej obrazów z pierwszego zestawu wyniosła 3,7 w skali Likerta (gdzie ocena 1 oznaczała kiepską jakość, a ocena 5 – doskonałą jakość zdjęcia) przy czym obrazy autentyczne uzyskały średnią ocenę 3,8, a wygenerowane przez AI – 3,6. Specyficzne artefakty zauważono w 5,5% prawdziwych radiogramów oraz w 15,4% obrazów syntetycznych.

Co ważne, trafność rozpoznawania nieprawidłowości na zdjęciach była bardzo podobna dla obu grup: 91,3% dla obrazów autentycznych i 92,4% dla wygenerowanych przez AI. To oznacza, że syntetyczne obrazy nie tylko wyglądają wiarygodnie, ale mogą też skutecznie imitować materiał diagnostyczny w praktyce oceny klinicznej.

Skuteczność wykrywania deepfake’ów przez radiologów

W fazie badania, w której radiolodzy wiedzieli już, że część obrazów została wygenerowana przez AI, ich skuteczność identyfikacji takich zdjęć wyniosła 74,8%, przy czułości 69,1% i swoistości 80,4%. W przypadku obrazów klatki piersiowej generowanych przez RoentGen skuteczność radiologów spadła do 70%.

Z perspektywy projektowania i rozwoju wyrobów medycznych niezwykle cenne są wnioski dotyczące cech pozwalających odróżnić oba typy zdjęć. Badani wskazywali kilka powtarzalnych sygnałów ostrzegawczych, takich jak zbyt jednorodny szum, nienaturalnie gładka tekstura tkanek miękkich, zbyt symetryczne ustawienie kręgów, nadmiernie wygładzone kości czy nietypowo „czyste” linie złamań. Jednocześnie 13 z 17 radiologów nie wiedziało wcześniej, że ChatGPT potrafi generować realistyczne radiogramy, co pokazuje lukę kompetencyjną, którą branża będzie musiała szybko zamknąć.

Dla producentów detektorów cyfrowych i oprogramowania do rekonstrukcji obrazu jest to wyraźna wskazówka projektowa. Wskazuje ona na jakie parametry sprzętu i oprogramowania – takie jak dystrybucja szumu czy odwzorowanie krawędzi – warto zwrócić szczególną uwagę.

Znaczenie dla branży

Wśród testowanych modeli najlepiej poradziły sobie GPT-4o i GPT-5, osiągając odpowiednio 85,1% i 82,5% skuteczności dla obrazów generowanych przez GPT-4o oraz 75,5% i 89,1% dla radiogramów z modelu RoentGen, podczas gdy Llama 4 Maverick i Gemini 2.5 Pro wypadły wyraźnie słabiej. Autorzy podkreślili jednak ograniczenia badania, m.in. sztucznie zbilansowane zbiory danych, wykluczenie czterech oczywistych (od razu rzucających się w oczy) niepowodzeń modeli LLM oraz fakt, że GPT-4o był jednocześnie generatorem i jednym z testowanych „detektorów”.

Najważniejszy wniosek jest praktyczny: umiarkowana skuteczność specjalistów w rozpoznawaniu syntetycznych radiogramów w połączeniu z łatwym dostępem do modeli generatywnych rodzi poważne obawy o ryzyko błędów medycznych i nadużyć.

Dla producentów wyrobów medycznych i ich podwykonawców oznacza to konieczność proaktywnego podejścia do bezpieczeństwa cyfrowego aparatury. Wnioski z badania jednoznacznie wskazują na pilną potrzebę wprowadzenia wielowarstwowych zabezpieczeń systemowych. Wśród rekomendowanych rozwiązań wymienia się obowiązkowe cyfrowe znaki wodne (tzw. watermarking) integrowane bezpośrednio w urządzeniach obrazujących już na etapie produkcji i zautomatyzowane systemy wykrywania deepfake’ów. Istnieje też spora szansa, że przyszłe regulacje branżowe wymuszą uwzględnienie tych mechanizmów w całym cyklu życia produktu.

Opracowanie własne na podstawie:

pełnej treści badania: https://pubs.rsna.org/doi/10.1148/radiol.252094

opracowania News Medical: https://www.news-medical.net/news/20260325/Study-finds-AI-generated-X-rays-can-fool-radiologists-and-chatbots.aspx