Ein moderner Datensatz für Host-basierte Anomalie-Erkennung
Allgemeines
Das Leipzig Intrusion Detection Data Set (LID-DS) ist ein moderner Datensatz für Host-basierte Intrusion Detection Systeme (HIDS). Die Aufzeichnungen wurden unter einem aktuellen Betriebssystem (Ubuntu 18.04) durchgeführt und umfassen verschiedene Szenarien, die reale Sicherheitslücken darstellen.
Erfasst wurden dabei Systemaufrufe sowie umfangreiche Metadaten wie Parameter, Rückgabewerte, Benutzer-IDs, Prozess- und Thread-IDs, Dateihandles, Zeitstempel und die ersten 80 Byte der Ein-/Ausgabepuffer.
Mit diesem Datensatz lassen sich bestehende HIDS-Lösungen evaluieren oder neue Ansätze entwickeln und vergleichen – insbesondere durch die Nutzung zusätzlicher Informationen neben reinen System-Call-Sequenzen.
Aufbau & Nutzung
Jedes Szenario enthält:
- Etwa 1000 Dateien mit normalem Verhalten
- Rund 100 Dateien mit gemischtem (normalem und ausgenutztem) Verhalten
- Eine Datei
runs.csv
mit Informationen zu den Aufnahmen im Format:image_name, scenario_name, is_executing_exploit, warmup_time, recording_time, exploit_start_time
Empfehlung für Anomalie-basierte HIDS
Für eine vergleichbare Auswertung empfiehlt es sich, die ersten 200 Aufzeichnungen mit normalem Verhalten je Szenario als Trainingsdaten zu verwenden. Diese entsprechen über zwei Stunden realer Systemaktivität. Die restlichen mindestens 800 normalen sowie 100 bösartigen Aufzeichnungen können für die Evaluation genutzt werden.
Veröffentlichungen und Quellen
Weitere Informationen zur Entstehung des Datensatzes, zu verwendeten Tools und zum Framework finden sich in folgenden Arbeiten und Repositories:
- Grimmer et al., A Modern and Sophisticated Host Based Intrusion Detection Data Set, Deutscher IT-Sicherheitskongress, 2019
- Röhling et al., Standardized container virtualization approach for collecting host intrusion detection data (eingereicht)
- Dennis Kreußel, Simulation and analysis of system call traces for adversarial anomaly detection, Bachelorarbeit, Universität Leipzig, 2019
- Simon Ganz, Ein moderner Host Intrusion Detection Datensatz, Masterarbeit, Universität Leipzig, 2019
- LID-DS Framework – Ein leichtgewichtiges Framework zur Simulation von Intrusion-Detection-Daten
Szenarien & Downloads
Angriffsszenario | CVE/CWE | Downloadgröße |
---|---|---|
Heartbleed | CVE-2014-0160 | 148 MB |
PHP File Upload (gefährlicher Dateityp) | CWE-434 | 649 MB |
Bruteforce Login (fehlende Einschränkung) | CWE-307 | 208 MB |
SQL Injection mit sqlmap | CWE-89 | 689 MB |
ZipSlip | Verschiedene | 6,6 GB |
EPS File Upload (gefährlicher Dateityp) | CWE-434 | 3,9 GB |
MySQL Authentifizierungs-Bypass | CVE-2012-2122 | 155 MB |
Nginx Integer Overflow | CVE-2017-7529 | 41 MB |
Sprockets Information Leak | CVE-2018-3760 | 389 MB |
Rails File Content Disclosure | CVE-2019-5418 | 369 MB |