Leipzig Intrusion Detection Data Set (LID-DS)

Ein moderner Datensatz für Host-basierte Anomalie-Erkennung

Allgemeines

Das Leipzig Intrusion Detection Data Set (LID-DS) ist ein moderner Datensatz für Host-basierte Intrusion Detection Systeme (HIDS). Die Aufzeichnungen wurden unter einem aktuellen Betriebssystem (Ubuntu 18.04) durchgeführt und umfassen verschiedene Szenarien, die reale Sicherheitslücken darstellen.

Erfasst wurden dabei Systemaufrufe sowie umfangreiche Metadaten wie Parameter, Rückgabewerte, Benutzer-IDs, Prozess- und Thread-IDs, Dateihandles, Zeitstempel und die ersten 80 Byte der Ein-/Ausgabepuffer.

Mit diesem Datensatz lassen sich bestehende HIDS-Lösungen evaluieren oder neue Ansätze entwickeln und vergleichen – insbesondere durch die Nutzung zusätzlicher Informationen neben reinen System-Call-Sequenzen.

Aufbau & Nutzung

Jedes Szenario enthält:

Etwa 1000 Dateien mit normalem Verhalten
Rund 100 Dateien mit gemischtem (normalem und ausgenutztem) Verhalten
Eine Datei runs.csv mit Informationen zu den Aufnahmen im Format:
image_name, scenario_name, is_executing_exploit, warmup_time, recording_time, exploit_start_time

Empfehlung für Anomalie-basierte HIDS

Für eine vergleichbare Auswertung empfiehlt es sich, die ersten 200 Aufzeichnungen mit normalem Verhalten je Szenario als Trainingsdaten zu verwenden. Diese entsprechen über zwei Stunden realer Systemaktivität. Die restlichen mindestens 800 normalen sowie 100 bösartigen Aufzeichnungen können für die Evaluation genutzt werden.

Veröffentlichungen und Quellen

Weitere Informationen zur Entstehung des Datensatzes, zu verwendeten Tools und zum Framework finden sich in folgenden Arbeiten und Repositories:

Grimmer et al., A Modern and Sophisticated Host Based Intrusion Detection Data Set, Deutscher IT-Sicherheitskongress, 2019
Röhling et al., Standardized container virtualization approach for collecting host intrusion detection data (eingereicht)
Dennis Kreußel, Simulation and analysis of system call traces for adversarial anomaly detection, Bachelorarbeit, Universität Leipzig, 2019
Simon Ganz, Ein moderner Host Intrusion Detection Datensatz, Masterarbeit, Universität Leipzig, 2019
LID-DS Framework – Ein leichtgewichtiges Framework zur Simulation von Intrusion-Detection-Daten

Szenarien & Downloads

Angriffsszenario	CVE/CWE	Downloadgröße
Heartbleed	CVE-2014-0160	148 MB
PHP File Upload (gefährlicher Dateityp)	CWE-434	649 MB
Bruteforce Login (fehlende Einschränkung)	CWE-307	208 MB
SQL Injection mit sqlmap	CWE-89	689 MB
ZipSlip	Verschiedene	6,6 GB
EPS File Upload (gefährlicher Dateityp)	CWE-434	3,9 GB
MySQL Authentifizierungs-Bypass	CVE-2012-2122	155 MB
Nginx Integer Overflow	CVE-2017-7529	41 MB
Sprockets Information Leak	CVE-2018-3760	389 MB
Rails File Content Disclosure	CVE-2019-5418	369 MB