Fully GPU-Orchestrated Multi-GPU Work Stealing

  • Typ:Masterarbeit
  • Datum:16.01.2026
  • Betreuung:

    Prof. Dr. Frank Bellosa

    Peter Maucher

  • Bearbeitung:Lennard Kittner
  • Links:PDF
  • Zusammenfassung
    Seit der Einführung von General-Purpose-GPU-Compute (GPGPU) sind GPUs zu einem essenziellen Bestandteil des High-Performance- und Scientific-Computings geworden. Um diese immensen Rechenkapazitäten effizient zu nutzen, insbesondere in Multi-GPU-Umgebungen mit generischen, irregulären Workloads, ist jedoch eine Lastverteilung erforderlich, die bei bestehenden Systemen typischerweise von der CPU für die GPU übernommen wird.
    In dieser Arbeit, stellen wir MGWS vor, ein neuartiges dezentralisiertes Work-Stealing-System, das es GPU-Arbeitern ermöglicht, unabhängig von der CPU zu agieren. Durch das Entfernen der Abhängigkeit von der CPU wird verhindert, dass CPU-Threads zum Engpass werden, während gleichzeitig der durch Synchronisation und Kommunikation zwischen CPU und GPU entstehende Overhead reduziert wird.
    Wir präsentieren zwei Inter-GPU-Kommunikationsmechanismen: Der erste beruht auf dem Hauptspeicher, der auf allen GPUs gemappt wird, während der zweite Peer-to-Peer Direct Memory Access (DMA) für direkte GPU-zu-GPU-Kommunikation nutzt. Unsere Experimente zeigen, dass die Wahl des inter-GPU-Kommunikationsmechanismus einen erheblichen Einfluss auf die Gesamtperformanz hat. Aufgrund von Hardwareeinschränkungen beschränkt sich die Multi-GPU-Evaluation auf den hauptspeicherbasierten Ansatz. Allerdings zeigen vorläufige Testergebnisse, dass das Nutzen von Hauptspeicher vermutlich langsamer ist als der Peer-to-Peer-DMA-Ansatz. Dennoch kann MGWS eine statische Lastverteilung für alle bis auf die höchste Anzahl an Workern um bis zu 41,09% übertreffen.
    BibTex:

    @masterthesis{kittner25MultiGPUWorkStealing,
      author = {Lennard Kittner},
      title = {Fully GPU-Orchestrated Multi-GPU Work Stealing},
      type = {Master Thesis},
      year = 2026,
      month = jan# "16",
      school = {Operating Systems Group, Karlsruhe Institute of Technology (KIT), Germany}
    }