Mit Hinblick auf das autonome und vernetzte Fahren (AVF) müssen Daten mit großer Sorgfalt behandelt werden, da sie für das Trainieren von KI Modellen unerlässlich sind. Für das Einfahren von Realdaten stellen sich die typischen Problematiken: Haben wir genug „kritische“ Fälle für das Trainieren der Modelle? Wo und wie werden die gesammelten Datenmengen gespeichert und verarbeitet? Wie geht man mit personenbezogenen Daten um? Was sind die Nutzungsbedingungen für projektbezogene Daten? Wer trägt die Verantwortung für die Daten, und wie soll der Datentransfer funktionieren?
Ein gut erprobter Ansatz, um diese Fragestellungen mit Bezug auf den Datenschutz zu umgehen, ist das Arbeiten mit Simulationsdaten. Allerdings ist es hierbei wichtig zu überlegen, wie effektiv die Arbeit allein mit Simulationsdaten ist, da Realdaten einen Mehrwert durch Realitätsnähe und Vielfalt, Echtheit der Sensordaten, wie Sensorfehler und -rauschen und Umgebungsfehler liefern. Simulationsdaten bieten den Vorteil, dass sie kontrollierte, wiederholbare Umgebungen gewährleisten und helfen, bestimmte Szenarien systematisch zu untersuchen. Reale Trainingsdaten hingegen sind unerlässlich, um sicherzustellen, dass die entwickelten Systeme auch in der realen, unvorhersehbaren und komplexen Welt zuverlässig und sicher funktionieren. Es ist also sinnvoll und optimal die Simulationsdaten in die aufgenommenen Realdaten zu integrieren.
Bei jbDATA werden einige dieser Fragestellungen adressiert. Für die Arbeiten im Projekt werden hierfür in erster Linie öffentlich verfügbare Daten verwendet. Bevor diese Daten genutzt werden, ist es wichtig, genau zu klären, welche Anforderungen sie erfüllen müssen und welche Daten benötigt werden. So spielen bspw. Metadaten, also zusätzliche Informationen zu den Daten, eine weitere Rolle genauso, wie darauf zu achten ist, dass die aufgenommenen Szenarien zu den zu prüfenden Fällen passen. Sobald die Anforderungen festgelegt sind, wird nach einem geeigneten Datensatz gesucht, der für die Szenarien verwendet werden kann. Oft können öffentliche Datensätze im Forschungskontext genutzt werden, aber die Frage ist, ob dies auch für die industrielle Forschung gilt und entsprechende Anforderungen erfüllt werden. Bei jbDATA ist ein Austausch bzgl. der Anforderungen zwischen Partnerprojekten geplant, wobei externe und eigene Anforderungen zusammengeführt werden sollen.
Außerdem wird im Projekt jbDATA ein exemplarischer Datensatz eingefahren, der als Ausgangsbasis für ein industriell nutzbares Datenset dienen soll. Lösungen für die genannten gängigen Probleme könnten darin bestehen, den Datenschutz durch Anonymisierungsverfahren, das Entfernen oder Unkenntlichmachen von Personen, zu gewährleisten oder die Bilder oder Szenen mit Schauspielern nachzustellen, die ihre Datenschutzrechte im Rahmen eines Auftrags abtreten.
Die Projektpartner haben es sich zum Ziel gesetzt, diesen Datensatz auch außerhalb des Konsortiums für die Forschung zugänglich zu machen. Dabei soll besonders darauf geachtet werden, dass der Datensatz von jedem Nutzer für seinen Zweck aufbereitet werden kann und dieser dafür vor allem aus relevanten Corner Cases, Datensätzen, Szenarien besteht.
Bei jbDATA werden im ersten Schritt Szenarien und sogenannte Corner Cases für den Datensatz definiert. Diese dienen dazu, spezifische, herausfordernde Situationen zu beschreiben. Die Anforderungen an die Corner Cases wurden in einem Workshop erarbeitet und festgelegt. Der Meilensteinbericht 1 (02/24) benennt die zwei festgelegten Use Cases für jbDATA und definiert sie im Kontext des Projekts.
- VRU (Vulnerable Road Users): Breiter Anwendungsbereich für Objekterkennung, Instanzsegmentierung, Bewegungsvorhersage, Körperhaltungs-Einschätzung usw. von gefährdeten Verkehrsteilnehmern.
- Corner-Case-Detektion: Fokus auf unbekannte Objekte und Verhaltensmuster.
Das Ziel von just better DATA ist es, einen charakteristischen, variablen und langfristig nutzbaren Datensatz zu generieren. Wenn möglich und technisch umsetzbar, sollen auch Anforderungen anderer Projekte integriert werden.
Im nächsten Schritt sollen beim Projekttreffen im Juni 2024 die Anforderungen an einen industriell relevanten Datensatz diskutiert und ausgelotet werden. Der Weg zu relevanten Daten und Datensätzen für das KI-Training wird erfolgreich im Projekt just better DATA fortgesetzt.