313 views
# NFDI4Ing Community Award - Lightning Talks Agenda (27.9.2021 ab 14:45) Alle nominierten Lösungen werden im Rahmen eines Kurzvortrages vorgestellt. Anschließend haben alle Konferenzteilnehmer die Möglichkeit an einer Online-Abstimmung teilzunehmen und für Ihre favorisierte Lösung abzustimmen. ## Nominierungen ### Kadi4Mat - Karlsruher Dateninfrastruktur für die Materialwissenschaften **Lightning Talk:** ca. 15:20 **Vortragender:** Michael Selzer Abstract: The goal of this project is to combine the ability to manage and exchange data, the repository, with the possibility to analyze, visualize and transform said data, the electronic lab notebook (ELN). Kadi4Mat is supposed to support a close cooperation between experimenters, theorists and simulators, especially in materials science, and enable the acquisition of new knowledge and the development of novel materials. This is made possible by employing a modular and generic architecture, which allows to cover the specific needs of different scientists, each utilizing unique workflows. At the same time, this opens up the possibility to easily branch out into other disciplines in the future. Weitere Informationen: https://kadi.iam-cms.kit.edu/ https://kadi4mat.iam-cms.kit.edu/ --- ### ProvBook **Lightning Talk:** ca. 15:25 **Vortragender:** Sheeba Samuel **Abstract:** With the rapid growth of data science and machine learning, interactive notebooks have gained widespread adoption among scientists across all disciplines to publish their computational experiments containing code, text, and results. As it is easy to modify and re-run the computations in a notebook, it is essential to know how the provenance of results changed in different executions over time, thus enabling trust and reproducibility. We present a novel solution, ProvBook, which provides provenance-based semantic enrichment of computational experiments for reproducibility. ProvBook, an extension of Jupyter Notebooks, captures and visualizes the provenance information of different executions of the notebook over the course of time. It also provides users the facility to see the difference between the results from the original experimenter with the current ones. This feature can also be used in tracking the intermediate and negative results. In addition to that, ProvBook allows users to download and share the notebook along with its provenance in Resource Description Framework (RDF) described using the REPRODUCE-ME ontology, which is extended from the existing Semantic Web standards, PROV-O and P-Plan. Users can also convert this shared RDF back to an executable notebook. ProvBook helps the scientists to compare their previous results with the current ones, check whether the experiments produce the results as expected, and query the sequence of executions using SPARQL. Scientists can use the notebook data in RDF in combination with the experiments that utilized them and help track the complete path of the scientific experiments. It is easy to use and install. In summary, ProvBook provides a provenance-based semantic enrichment of interactive notebooks for computational reproducibility. **Weitere Informationen:** https://github.com/Sheeba-Samuel/ProvBook https://doi.org/10.6084/m9.figshare.6401096.v1 --- ### Sample Locator **Lightning Talk:** ca. 15:30 **Vortragende:** Caecilia Engels **Abstract:** Zur Unterstützung qualitativ hochwertiger, reproduzierbarer biomedizinischer Forschung, ermöglicht der Sample Locator WissenschaftlerInnen die Suche nach Bioproben und zugehörigen Daten in akademischen Biobanken. Das Online-Suchtool wurde von einem interdisziplinären Entwicklerteam der German Biobank Alliance (GBA) unter dem Dach des German Biobank Node (GBN) entwickelt. Es basiert auf früheren Arbeiten des Deutschen Krebsforschungszentrums (DKFZ) und des Common Service IT von BBMRI-ERIC. Es handelt sich um eine föderierte Echtzeit-Suche mit Endpunkten an 15 Uniklinik Standorten. Die Suche nach Bioproben und Daten ist eine frei zugängliche Machbarkeitsanfrage. Das Ergebnis im Sample Locator zeigt, wie viele Proben mit den angefragten Suchkriterien in den Biobanken vorhanden sind. Nach Anmeldung (es genügt eine institutionelle E-Mail-Adresse sowie das Account-Passwort, wenn die betreffende Institution vom Deutschen Forschungsnetz (DFN) gelistet ist) erfahren die NutzerInnen, wie viele Proben von wie vielen SpenderInnen sie bei welchen Biobanken in Deutschland anfragen können. Die Anfrage wird über ein Chat-Tool, den so genannten Negotiator ermöglicht, der die Kommunikation mit mehrern Standorten zeitgleich und so den Zugang zu den Proben vereinfacht. **Weitere Informationen:** https://samplelocator.bbmri.de/search https://github.com/samply --- ### Research Data Management Organiser (RDMO) **Lightning Talk:** ca. 15:35 **Vortragender:** Giacomo Lanza (stelvertretend für die EntwicklerInnen) **Abstract:** Mit dem Research Data Management Organiser (RDMO) können Institutionen und Forschende das Forschungsdatenmanagement ihre Projekte strukturiert planen und durchführen. Es erlaubt das Erfassen aller relevanten Planungsinformationen in Datenmanagementplänen und die Verwaltung aller Datenmanagementaufgaben über den gesamten Datenlebenszyklus. Der Research Data Management Organiser, kurz RDMO, wurde im Rahmen von zwei Förderperioden eines DFG Projektes entwickelt und hat den Status einer operationellen Software erreicht. RDMO wurde konzipiert als Werkzeug für die Dokumentation eines wissenschaftlichen Vorhabens, welches neben der Erstellung von DMPs die strukturierte Planung, Umsetzung und Verwaltung des Forschungsdatenmanagements unterstützt und die Notierung und Einleitung von Aufgaben ermöglicht (daher der Name "Organiser"). Er ist für den Betrieb als lokale Instanz entwickelt worden und ist komplett an die Bedarfe der betreibenden Institution und deren Community anpassbar. Die Struktur des generischen Fragenkatalogs basiert auf der WissGrid-Checkliste und spricht alle im Forschungsdatenmanagement involvierten Akteure an. RDMO ist derzeit (2021-09-21) an 22 Institutionen im deutschsprachigen Raum im operationellen Betrieb; 24 weitere Institutionen haben RDMO im Testbetrieb. Weiterentwicklungen und die Stetigkeit von RDMO werden durch die Transformation in ein community-basiertes Projekt gesichert, wo die Aktivität durch Gremien fortgesetzt und koordiniert werden: Steuerungsgruppe, Softwaregruppe und Contentgruppe. Zentrale Funktionalitäten von RDMO sind: - Frei konfigurierbare Fragenkataloge aus vorinstallierten Fragen, welche auf der WissGrid Checkliste basieren - neue Fragen können dem lokalen System einfach hinzugefügt werden. - Vorkonfigurierte Ansichten zur Kompatibilität mit den Anforderungen einiger Forschungsförderer (EC, DFG, BMBF, SNF) sowie anderer DMP-Plattforme (DMPTool, DMPonline). - Textuelle Ausgabe der DMPs in einer Vielzahl von Formaten (z.B. `.docx`, `.tex`, `.pdf`). - Speicherung von "Schnappschüssen", um die zeitliche Entwicklung eines DMPs festzuhalten; damit wird der DMP zum "lebendigen Dokument". - Mehrsprachigkeit (Deutsch, Englisch, Französch, Italienisch). - Anwendbarkeit sowohl für kleine Projekte einzelner Wissenschaftler als auch für große Verbundprojekte. - Austausch von Community-generierten Fragenkatalogen via GitHub. RDMO steht als Open-Source Software auf GitHub zur Verfügung **Weitere Informationen:** https://rdmorganiser.github.io/ --- ### XperiDesk **Lightning Talk:** ca. 15:40 **Vortragender:** Dirk Ortloff **Abstract:** In the current economic climate, it is becoming increasingly important to reduce the cost of manufacturing technology development and reduce the time to market for new products. This is especially true for knowledge-intensive high-tech companies such as those in the semiconductor and photovoltaic industries, pharmaceuticals, etc. camLine offers a complete solution with software and services that enable companies to leverage their existing knowledge, optimize their R&D workflow and develop their manufacturing technologies faster and more cost-effective. Through close integration with already available MES, RMS, SPC and other solutions at the customer site, the transition from the initial idea to series production can take place much faster and more seamlessly. **Weitere Informationen:** https://www.camline.com/products/xperidesk/ --- ### ReproduceMeGit **Lightning Talk:** ca. 15:45 **Vortragender:** Sheeba Samuel **Abstract:** Computational notebooks have gained widespread adoption among researchers from academia and industry as they support reproducible science. These notebooks allow users to combine code, text, and visualizations for easy sharing of experiments and results. They are widely shared in GitHub, which currently has more than 100 million repositories, making it the world’s largest host of source code. Recent reproducibility studies have indicated that there exist good and bad practices in writing these notebooks, which can affect their overall reproducibility. We present ReproduceMeGit, a visualization tool for analyzing the reproducibility of Jupyter Notebooks. This helps repository users and owners to reproduce and directly analyze and assess the reproducibility of any GitHub repository containing Jupyter Notebooks. The tool provides information on the number of notebooks that were successfully reproducible, those that resulted in exceptions, those with different results from the original notebooks, etc. Each notebook in the repository, along with the provenance information of its execution, can also be exported in RDF with the integration of the ProvBook tool. **Weitere Informationen:** https://github.com/fusion-jena/ReproduceMeGit https://doi.org/10.6084/m9.figshare.12084393.v1 --- ### RDMkit (Research Data Management kit) **Lightning Talk:** ca. 15:50 **Vortragende:** Ulrike Wittig **Abstract:** The ELIXIR-CONVERGE Research Data Management kit (RDMkit) is an online guide containing good data management practices applicable to research projects from the beginning to the end. Developed and managed by people who work every day with life science data, the RDMkit offers guidelines, information and pointers, organised in many different ways, to help you with problems throughout the data’s life cycle. Users will find helpful advice for where they are in the data’s life cycle (from collection planning to archiving) and for what kind of data problem they may have. Our up to date tools and resources lists are smartly cross-linked to these guidelines. We also have tailored help for different areas of biology and their specialist data types, and real examples of how tools have been assembled to support data management. Our goal is to make data management easier, and to help users make their data FAIR - Findable, Accessible, Interoperable and Reusable. RDMkit is an open community project, and everybody is welcome to join and contribute. **Weitere Informationen:** https://rdmkit.elixir-europe.org/ --- ### SFB 1194 Z-INF: Workflow für wissenschaftliche Software und Publikationen **Lightning Talk:** ca. 15:55 **Vortragender:** Tomislav Maric **Abstract:** Im Rahmen des SFB 1194 an der TU Darmstadt hat Dr.-Ing. Tomislav Maric (Fachgebiet Mathematische Modellierung und Analysis) im Teilprojekt Z-INF einen Software-Engineering-Workflow für Forschungssoftware entwickelt. (vgl. [Grafik](https://doi.org/10.6084/m9.figshare.16601282.v4)) Der Workflow kombiniert innerhalb automatisierter und teilautomatisierter Prozessschritte Versionskontrolle, Jupyter-Notebooks, Datenrepositories und eine Continuous Integration (CI) Pipeline. Das Postprocessing, die Visualisierung und Dokumentation der Test- und Forschungsergebnisse erfolgt über Jupyter Notebooks. Das bietet den einmaligen Vorteil, dass die Softwareentwicklung und das wissenschaftliche Arbeiten in derselben Umgebung erfolgen. Durch die Nutzung von Team-Repositorien ist der Workflow geeignet für die Entwicklung großer Software Bibliotheken mit mehreren Forschern, bietet aber durch die automatisierten Arbeitsschritte auch Vorteile für Forscher, die alleine an einem Code arbeiten. Alle erzeugten digitalen Ergebnisse (Artefakte) des wissenschaftlichen Publikationsprozesses (Publikationstext, verwendete Forschungssoftware, resultierende Daten) werden automatisch zum Download zur Verfügung gestellt und miteinander vernetzt. Der Workflow bietet zusammenfassend 5 Vorteile: 1. **Schnelleres Forschen** durch gleichzeitiges Betrachten der Forschungs- und Testergebnisse nach jeder Iteration. Dadurch werden Probleme schneller sichtbar und deren Ursache kann besser eingrenzt werden, was die Lösungsfindung beschleunigt. 2. **Reduzierter Aufwand** bei der Organisation von Daten durch automatisierte Prozessschritte 3. **Rückverfolgbarkeit** durch Verlinkung von Daten, Code und Publikation 4. **Reproduzierbarkeit** durch Ausführung der CI Pipeline mit Docker Containern 5. **Nachnutzung** durch die Speicherung auf öffentlichen Repositorien Innerhalb des SFB1194 der TU Darmstadt wird der Workflow in 4 weiteren Computational Science and Engineering Forschungsprojekten erfolgreich angewendet. Die Forschungsgruppe Scientific Computing an der TU Darmstadt nutzt diesen Workflow bereits für die Entwicklung der PIRA-Software. Am Institut für Wasserbau und Wasserwirtschaft wird er ebenfalls eingesetzt. **Weitere Informationen:** [Z-INF Informationsinfrastruktur](https://www.sfb1194.tu-darmstadt.de/forschung_13/projektbereiche/zentrale_aufgaben/z_inf_informationsinfrastruktur/index.de.jsp) https://doi.org/10.6084/m9.figshare.14123969.v3 https://www.youtube.com/watch?v=8Q852y3XUA4&t=2917s --- ### MLProvLab **Lightning Talk:** ca. 16:00 **Vortragender:** Sheeba Samuel (Developer: Dominik Kerzel) **Abstract:** Machine learning (ML) pipelines are constructed to automate every step of ML tasks, transforming raw data into engineered features, which are then used for training models. Even though ML pipelines provide benefits in terms of flexibility, extensibility, and scalability, there are many challenges when it comes to their reproducibility and data dependencies. Therefore, it is crucial to track and manage metadata and provenance of ML pipelines, including code, model, and data. The provenance information can be used by data scientists in developing and deploying ML models. It improves understanding complex ML pipelines and facilitates analyzing, debugging, and reproducing ML experiments. We introduce MLProvLab, a ML provenance management tool to automatically expose the metadata. MLProvLab is a JupyterLab extension, to automatically identify the relationships between data and models in ML scripts. The tool is designed to help data scientists and ML practitioners track, capture, compare, and visualize the provenance of machine learning notebooks. **Weitere Informationen:** https://github.com/fusion-jena/MLProvLab