Fabian Lehmann

Fabian Lehmann

Promotionsstudent

Humboldt-Universität zu Berlin

Über mich

Ich bin Fabian Lehmann und promoviere in Informatik am Lehrstuhl für Wissensmanagement in der Bioinformatik an der Humboldt-Universität zu Berlin. Ich werde über FONDA, ein Sonderforschungsbereich der Deutschen Forschungsgemeinschaft (DFG), gefördert.

Während meines Bachelorstudiums habe ich meine Faszination für komplexe, verteilte Systeme entdeckt. Ich begeistere mich dafür, die Limits solcher Systeme auszutesten und zu überwinden. In meiner Promotion fokussiere ich mich auf die Optimierung von Workflow Systemen zur Analyse von riesigen Datenmengen. Insbesondere konzentriere ich mich hierbei auf den Aspekt des Schedulings. Hierfür arbeite ich eng mit dem Earth Observation Lab der Humboldt-Universität zu Berlin zusammen, um die Anforderungen der Praxis zu verstehen.

Interessen
  • Verteilte Systeme
  • Wissenschaftliche Workflows
  • Workflow Scheduling
Bildung
  • Master Wirtschaftsinformatik, 2020

    Abschlussarbeit: Design and Implementation of a Processing Pipeline for High Resolution Blood Pressure Sensor Data

    Technische Universität Berlin

  • Bachelor Wirtschaftsinformatik, 2019

    Abschlussarbeit: Performance-Benchmarking in Continuous-Integration-Prozessen

    Technische Universität Berlin

  • Abitur, 2015

    Hannah-Arendt-Gymnasium (Berlin)

Erfahrungen

 
 
 
 
 
Wissensmanagement in der Bioinformatik (Humboldt-Universität zu Berlin)
Promotionsstudent (Informatik)
Nov. 2020 – Aktuell Berlin, Deutschland
In meinem Promotionsvorhaben fokussiere ich mich auf die Optimierung der Ausführung von großen wissenschaftlichen Workflows, die Hunderte Gigabytes an Daten verarbeiten.
 
 
 
 
 
DAI-Labor (Technische Universität Berlin)
Studentische Hilfskraft
Mai 2018 – Okt. 2020 Berlin, Deutschland
In meinem Studentenjob habe ich im Rahmen von DIGINET-PS Zeitreihenanalysen durchgeführt. Unter anderem haben wir die Auslastung der Parkplätze auf der Straße des 17. Juni vorhergesagt.
 
 
 
 
 
Universität Oxford
GeoTripNet - Fallstudie
Okt. 2019 – März 2020 Oxford, England, Großbritannien
Im Rahmen der Fallstudie haben wir die Bewertungen aller Restaurants in Berlin auf Google Maps gecrawlt. Anschließend haben wir die Beziehungen zwischen verschiedenen Restaurants analysiert, um die Gentrifizierung in Berliner Bezirken zu untersuchen. Ein Problem bestand darin, die große Datenmenge in Echtzeit zu verarbeiten, zu analysieren und zu visualisieren.
 
 
 
 
 
Einstein Center Digital Future
Fog Computing Projekt
Apr. 2019 – Sept. 2020 Berlin, Deutschland
In diesem Projekt haben wir die Fahrradfahrten von SimRa analysiert. Dafür haben wir eine verteilte Analyse Pipeline aufgesetzt und die Daten anschließend in einer interaktiven Web-App dargestellt. Anschließend konnten wir Gefahrenstellen für die Berliner Fahrradfahrer erkennen.
 
 
 
 
 
Conrad Connect
Anwendungssysteme Projekt
Okt. 2017 – März 2018 Berlin, Deutschland
Für Conrad Connect haben wir Hunderte Gigabytes an IoT Daten ausgewertet. Außerdem habe ich Sicherheitsmängel auf ihrer Website gefunden.
 
 
 
 
 
Reflect IT Solutions GmbH
Semesterferien-Job
März 2016 – Apr. 2016 & Sep 2016 – Oct 2016 Berlin, Deutschland
In meinen Semesterferien habe ich geholfen, das Backend für eine Software zur Unterstützung der Bauüberwachung zu entwickeln.
 
 
 
 
 
SPP Schüttauf und Persike Planungsgesellshaft mbH
Arbeit zwischen Abitur und Studium
Mai 2015 – Sept. 2015 Berlin, Deutschland
Bevor ich mit meinem Bachelorstudium begonnen habe, habe ich einige Monate die Bauüberwachung der Sanierung eines 18-Geschossers unterstützt.

IT-Kenntnisse

(Eine kleine Auswahl)

JAVA
Python
Docker
Kubernetes
Spring Boot
Latex
SQL
React
JavaScript
Nextflow
Haskell
Excel

Software

Common Workflow Scheduler

Resource Manager können mit Hilfe des Common Workflow Schedulers eine Schnittstelle bereitstellen, über die Workflow-Systeme Informationen zum Workflow-Graphen übermitteln können. Diese Daten ermöglichen es dem Scheduler des Resource Managers, bessere Entscheidungen zu treffen.

Benchmark Evaluator

Benchmark Evaluator

Der Benchmark Evaluator ist ein Plugin für den Jenkins Automatisierungsserver zum Laden und Auswerten von Benchmarkergebnissen.

Publikationen

WOW: Workflow-Aware Data Movement and Task Scheduling for Dynamic Scientific Workflows

Scientific workflows process extensive data sets over clusters of independent nodes, which requires a complex stack of infrastructure components, especially a resource manager (RM) for task-to-node assignment, a distributed file system (DFS) for data exchange between tasks, and a workflow engine to control task dependencies. To enable a decoupled development and installation of these components, current architectures place intermediate data files during workflow execution independently of the future workload. In data-intensive applications, this separation results in suboptimal schedules, as tasks are often assigned to nodes lacking input data, causing network traffic and bottlenecks.
This paper presents WOW, a new scheduling approach for dynamic scientific workflow systems that steers both data movement and task scheduling to reduce network congestion and overall runtime. For this, WOW creates speculative copies of intermediate files to prepare the execution of subsequently scheduled tasks. WOW supports modern workflow systems that gain flexibility through the dynamic construction of execution plans. We prototypically implemented WOW for the popular workflow engine Nextflow using Kubernetes as a resource manager. In experiments with 16 synthetic and real workflows, WOW reduced makespan in all cases, with improvement of up to 94.5 % for workflow patterns and up to 53.2 % for real workflows, at a moderate increase of temporary storage space. It also has favorable effects on CPU allocation and scales well with increasing cluster size.

Impact of data density and endmember definitions on long-term trends in ground cover fractions across European grasslands

Long-term monitoring of grasslands is pivotal for ensuring continuity of many environmental services and for supporting food security and environmental modeling. Remote sensing provides an irreplaceable source of information for studying changes in grasslands. Specifically, Spectral Mixture Analysis (SMA) allows for quantification of physically meaningful ground cover fractions of grassland ecosystems (i.e., green vegetation, non-photosynthetic vegetation, and soil), which is crucial for our understanding of change processes and their drivers. However, although popular due to straightforward implementation and low computational cost, ‘classical’ SMA relies on a single endmember definition for each targeted ground cover component, thus offering limited suitability and generalization capability for heterogeneous landscapes. Furthermore, the impact of irregular data density on SMA-based long-term trends in grassland ground cover has also not yet been critically addressed.
We conducted a systematic assessment of i) the impact of data density on long-term trends in ground cover fractions in grasslands; and ii) the effect of endmember definition used in ‘classical’ SMA on pixel- and map-level trends of grassland ground cover fractions. We performed our study for 13 sites across European grasslands and derived the trends based on the Cumulative Endmember Fractions calculated from monthly composites. We compared three different data density scenarios, i.e., 1984–2021 Landsat data record as is, 1984–2021 Landsat data record with the monthly probability of data after 2014 adjusted to the pre-2014 levels, and the combined 1984–2021 Landsat and 2015–2021 Sentinel-2 datasets. For each site we ran SMA using a selection of site-specific and generalized endmembers, and compared the pixel- and map-level trends. Our results indicated no significant impact of varying data density on the long-term trends from Cumulative Endmember Fractions in European grasslands. Conversely, the use of different endmember definitions led in some regions to significantly different pixel- and map-level long-term trends raising questions about the suitability of the ‘classical’ SMA for complex landscapes and large territories. Therefore, we caution against using the ‘classical’ SMA for remote-sensing-based applications across broader scales or in heterogenous landscapes, particularly for trend analyses, as the results may lead to erroneous conclusions.

Workflows Community Summit 2024: Future Trends and Challenges in Scientific Workflows

Projekte

FONDA

FONDA

Grundlagen von Workflows für die Analyse großer naturwissenschaftlicher Daten

Kontakt