Beschreibung und Projektziel
Viele Unternehmen stehen vor einem Dilemma: Sie verfügen einerseits über umfangreiche Daten, die erhebliches Potenzial für Analysen, KI-Training oder andere Zwecke bieten. Andererseits enthalten diese Daten teilweise personenbezogene Daten oder andere sensible Informationen (die z. B. Aufschlüsse über interne Prozesse erlauben), die eine Verwendung verhindern. Anonymisierungswerkzeuge können dieses Dilemma gerade für KMU für viele Anwendungsbereiche lösen – aber nur dann, wenn sie keine hochspezialisierten Kenntnisse verlangen, die Charakteristika der jeweiligen Daten und Anforderungen berücksichtigen und dem Nutzer Auskunft über die Qualität der Anonymisierung geben können.
DA3KMU wird eine teilautomatisierte und einfach zu handhabende Freeware entwickeln, mit deren Hilfe Daten adaptiv und maßgeschneidert anonymisiert bzw. pseudonymisiert werden können. So werden IT-Verantwortliche in KMU befähigt, für ihre Datenbestände auch ohne spezialisierte Kenntnisse einen „Basischeck“ durchzuführen und die Daten für ausgewählte Anwendungsfälle in datenschutzkonformer und geschäftsfreundlicher Weise bereitzustellen, um Mehrwerte zu realisieren oder die Daten Dritten für Analysen zur Verfügung stellen zu können.
Die DA3KMU-Software soll später für verschiedene Anwendungsfälle eingesetzt werden, im Projekt wird sie aber zunächst exemplarisch für zwei Use Cases angepasst und validiert:
- für die Anonymisierung von Logdaten für KI-basierte SIEM (Security Information & Event Management) Systeme. SIEM-Systeme können in Logdaten verborgene Muster erkennen, die entscheidende Hinweise zur Erkennung von Angriffen und Angriffsversuchen auf Unternehmen liefern. Allerdings beinhalten Logdaten sehr oft Personenbezüge, die zuvor unbedingt entfernt werden müssen.
- für die Anonymisierung von Gesundheitsdaten und Befunden. Gesundheitsdaten (u.a. von Apps) und annotierte Befunde (u.a. von Krankenhäusern) sind beispielsweise für die Entwicklung KI-basierter Analysewerkzeuge für KMU, wie zum Beispiel Technologiedienstleister im Gesundheitswesen, sowohl als Datenkonsumenten als auch als Datenproduzenten von zentraler Bedeutung, aber nur bei einer adäquaten Anonymisierung überhaupt nutzbar.