Leipzig Intrusion Detection Data Set (LID-DS)

Ein moderner Datensatz für Host-basierte Anomalie-Erkennung


Allgemeines

Das Leipzig Intrusion Detection Data Set (LID-DS) ist ein moderner Datensatz für Host-basierte Intrusion Detection Systeme (HIDS). Die Aufzeichnungen wurden unter einem aktuellen Betriebssystem (Ubuntu 18.04) durchgeführt und umfassen verschiedene Szenarien, die reale Sicherheitslücken darstellen.

Erfasst wurden dabei Systemaufrufe sowie umfangreiche Metadaten wie Parameter, Rückgabewerte, Benutzer-IDs, Prozess- und Thread-IDs, Dateihandles, Zeitstempel und die ersten 80 Byte der Ein-/Ausgabepuffer.

Mit diesem Datensatz lassen sich bestehende HIDS-Lösungen evaluieren oder neue Ansätze entwickeln und vergleichen – insbesondere durch die Nutzung zusätzlicher Informationen neben reinen System-Call-Sequenzen.


Aufbau & Nutzung

Jedes Szenario enthält:

  • Etwa 1000 Dateien mit normalem Verhalten
  • Rund 100 Dateien mit gemischtem (normalem und ausgenutztem) Verhalten
  • Eine Datei runs.csv mit Informationen zu den Aufnahmen im Format:
    image_name, scenario_name, is_executing_exploit, warmup_time, recording_time, exploit_start_time

Empfehlung für Anomalie-basierte HIDS

Für eine vergleichbare Auswertung empfiehlt es sich, die ersten 200 Aufzeichnungen mit normalem Verhalten je Szenario als Trainingsdaten zu verwenden. Diese entsprechen über zwei Stunden realer Systemaktivität. Die restlichen mindestens 800 normalen sowie 100 bösartigen Aufzeichnungen können für die Evaluation genutzt werden.


Veröffentlichungen und Quellen

Weitere Informationen zur Entstehung des Datensatzes, zu verwendeten Tools und zum Framework finden sich in folgenden Arbeiten und Repositories:

  • Grimmer et al., A Modern and Sophisticated Host Based Intrusion Detection Data Set, Deutscher IT-Sicherheitskongress, 2019
  • Röhling et al., Standardized container virtualization approach for collecting host intrusion detection data (eingereicht)
  • Dennis Kreußel, Simulation and analysis of system call traces for adversarial anomaly detection, Bachelorarbeit, Universität Leipzig, 2019
  • Simon Ganz, Ein moderner Host Intrusion Detection Datensatz, Masterarbeit, Universität Leipzig, 2019
  • LID-DS Framework – Ein leichtgewichtiges Framework zur Simulation von Intrusion-Detection-Daten

Szenarien & Downloads

Angriffsszenario CVE/CWE Downloadgröße
Heartbleed CVE-2014-0160 148 MB
PHP File Upload (gefährlicher Dateityp) CWE-434 649 MB
Bruteforce Login (fehlende Einschränkung) CWE-307 208 MB
SQL Injection mit sqlmap CWE-89 689 MB
ZipSlip Verschiedene 6,6 GB
EPS File Upload (gefährlicher Dateityp) CWE-434 3,9 GB
MySQL Authentifizierungs-Bypass CVE-2012-2122 155 MB
Nginx Integer Overflow CVE-2017-7529 41 MB
Sprockets Information Leak CVE-2018-3760 389 MB
Rails File Content Disclosure CVE-2019-5418 369 MB
Nach oben scrollen