Registerdaten für KI in der Medizin: Wie Krebsregisterdaten genutzt werden können – von der Exploration bis zur Modellvalidierung
Aufbauend auf dem Beitrag „Gesundheitsdaten ≠ Gesundheitsdaten: Warum Kassendaten, Patientenakten und Registerdaten nicht dasselbe sind“ vom 29.01.2026
Autorin: Dr. Eveline Prochaska, Technische Universität Dresden, 29.01.2026
Registerdaten für KI in der Medizin sind eine zentrale Grundlage für valide, erklärbare und vertrauenswürdige Modelle. Künstliche Intelligenz (KI / AI) in der Medizin wird oft als datengetriebene Schlüsseltechnologie beschrieben. In der Praxis entscheidet jedoch weniger der Algorithmus als vielmehr die Datenbasis, auf der Modelle entwickelt, trainiert und bewertet werden [1,2]. Aufbauend auf unserem Beitrag zu Kassendaten, elektronischen Patientenakten (EHR) und Registerdaten stellen wir hier eine konkrete Registerdatenquelle vor, die für KI-in-der-Medizin-Projekte in Deutschland eine zentrale Rolle spielt: krebsdaten.de [1].
Warum Registerdaten für KI in der Medizin wichtig sind
Registerdaten unterscheiden sich grundlegend von klinischen Routinedaten oder Abrechnungsdaten. Sie werden gezielt für definierte Fragestellungen erhoben, folgen festen Dokumentations- und Qualitätsstandards und sind auf Vergleichbarkeit ausgelegt [4].
Für KI-Anwendungen bedeutet das:
- weniger Datenrauschen,
- klar definierte Variablen,
- hohe methodische Belastbarkeit.
Gerade für erklärbare, valide und langfristig nutzbare KI-Modelle sind Registerdaten daher ein zentrales Fundament [5,6].
Was ist krebsdaten.de?
krebsdaten.de ist das öffentliche Informations- und Analyseportal des Zentrums für Krebsregisterdaten (ZfKD) am Robert Koch Institut. Es bündelt Daten aus den bevölkerungsbezogenen Krebsregistern aller Bundesländer und stellt diese in aggregierter Form zur Verfügung [1].
Die Plattform bietet unter anderem:
- Krebsinzidenz, Mortalität und Prävalenz
- Überlebensraten und Zeittrends
- regionale Auswertungen
- regelmäßige Berichte wie „Krebs in Deutschland“
Damit ist krebsdaten.de eine zentrale Referenzquelle zur Krebsepidemiologie in Deutschland.
Welche Daten stehen zur Verfügung?
Die zugrunde liegenden Krebsregister erfassen u. a.:
- Tumorart und -lokalisation
- Erkrankungs- und Diagnosedatum
- Alters- und Geschlechtsgruppen
- Überlebenswahrscheinlichkeiten
Die Daten werden plausibilisiert, harmonisiert und statistisch aufbereitet. Personenbezogene Rohdaten sind nicht öffentlich zugänglich. Der Fokus liegt bewusst auf der Populationsebene [1,4].
Wie kann man die Daten nutzen?
Die Nutzung von krebsdaten.de ist mehrstufig organisiert und richtet sich sowohl an Einsteiger:innen als auch an erfahrene Forschungsteams.
a) Offener Einstieg: Öffentliche Datenbankabfrage
Über die interaktive Datenbankabfrage können ohne Antrag aggregierte Daten abgerufen werden, z. B. nach Krebsart, Jahr, Alter, Geschlecht oder Region.
Geeignet für:
- erste Einblicke in onkologische Daten
- Trend- und Vergleichsanalysen
- Exploration von KI-Fragestellungen
- Referenz- und Benchmarkdaten
Gerade für Unternehmen oder Institutionen ohne Registererfahrung ist dies ein niedrigschwelliger Einstieg.
b) Wissenschaftliche Nutzung: Forschungsdaten auf Antrag
Für vertiefte Analysen können beim ZfKD strukturierte Forschungsdatensätze beantragt werden. Voraussetzung ist eine klar beschriebene wissenschaftliche Fragestellung und ein methodisches Konzept.
KI scheitert selten am Algorithmus, sondern an falschen Erwartungen an Daten.
Registerdaten helfen, diese Lücke zu schließen.
Geeignet für:
- Validierung von KI-Modellen
- populationsbasierte Risiko- oder Prognosemodelle
- methodisch anspruchsvolle Forschungsprojekte
Die Bereitstellung erfolgt datenschutzkonform in anonymisierter bzw. stark pseudonymisierter Form [1,4].
c) Kombination von Registerdaten mit anderen Datenquellen
Für viele KI-in-der-Medizin-Anwendungen entfaltet sich der größte Mehrwert durch die Kombination von Registerdaten mit weiteren Datenquellen wie EHR-, Abrechnungs- oder Bilddaten [6,8].
In solchen multimodalen Ansätzen dienen Registerdaten häufig als Referenz-, Validierungs- oder Kalibrierungsebene, während klinische Routinedaten die individuelle Tiefe liefern [5,9,10].
Diese Kombination ist besonders relevant für erklärbare und verantwortungsvolle KI-Systeme im Gesundheitswesen [6].
Fazit
Registerdaten wie jene auf krebsdaten.de leisten einen wesentlichen Beitrag zur Einordnung, Validierung und Vertrauensbildung von KI-Modellen in der Medizin [1,5,6].
Referenzen
- Robert Koch-Institut (Hrsg.) Krebs in Deutschland. Zentrum für Krebsregisterdaten (ZfKD), RKI, aktuelle Ausgabe. https://www.krebsdaten.de
- Sherman RE et al. Real-World Evidence — What Is It and What Can It Tell Us?
New England Journal of Medicine, 2016. DOI: 10.1056/NEJMsb1609216 - Berger ML et al. Good practices for real-world data studies of treatment and/or comparative effectiveness. Pharmacoepidemiology and Drug Safety, 2017. DOI: 10.1002/pds.4297
- Gliklich RE, Dreyer NA, Leavy MB (Hrsg.) Registries for Evaluating Patient Outcomes: A User’s Guide. AHRQ, 3rd Edition, 2014. unter https://effectivehealthcare.ahrq.gov/sites/default/files/pdf/registries-guide-3rd-edition_research.pdf, Zugriff am 30.1.26
- Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 2019. DOI: 10.1038/s41591-018-0300-7
- Wiens J et al. Do no harm: a roadmap for responsible machine learning for health care. Nature Medicine, 2019. DOI: 10.1038/s41591-019-0548-6
- Hersh WR et al. Caveats for the use of operational electronic health record data in comparative effectiveness research. Medical Care, 2013. DOI: 10.1097/MLR.0b013e31829b1dbd
- Esteva A et al. A guide to deep learning in healthcare. Nature Medicine, 2019.
DOI: 10.1038/s41591-018-0316-z - Rieke N et al. The future of digital health with federated learning. npj Digital Medicine, 2020. DOI: 10.1038/s41746-020-00323-1
- Knevel R et al. From real-world electronic health record data to real-world results using artificial intelligence. Annals of the Rheumatic Diseases, 2023. DOI: 10.1136/ard-2022-222626