In den letzten Jahren haben große Sprachmodelle (LLMs) in verschiedenen Bereichen zunehmend an Bedeutung gewonnen, von der Content-Erstellung über die Programmierunterstützung bis hin zur Suchmaschinenoptimierung. In der biomedizinischen Forschung hingegen stehen ihre Anwendungen immer noch vor Herausforderungen in Bezug auf Transparenz, Reproduzierbarkeit und Anpassbarkeit.
Um dieses Problem anzugehen, haben die Universität Heidelberg und das Europäische Bioinformatik-Institut (EMBL-EBI) ein Open-Source-Python-Framework namens BioChatter entwickelt, das biomedizinischen Forschern die Nutzung von LLMs erleichtern soll.

Bildquelle: Das Bild wurde mit KI generiert und von Midjourney lizenziert.
BioChatter wurde entwickelt, um die technische Komplexität zu reduzieren und es Forschern zu ermöglichen, sich auf ihre Forschung zu konzentrieren, ohne sich um Programmier- oder Machine-Learning-Kenntnisse kümmern zu müssen. Mit diesem Framework können Forscher relevante Daten aus biomedizinischen Datenbanken und Literatur extrahieren und in Echtzeit auf externe bioinformatische Tools zugreifen. Dies wird durch die nahtlose Integration von BioChatter mit dem BioCypher-Wissensgraphen ermöglicht, der wichtige Daten wie Genmutationen und Arzneimittel-Krankheits-Beziehungen verknüpft und die Analyse komplexer Datensätze erheblich unterstützt.
Zu den Kernfunktionen von BioChatter gehören: Grundlegende Frage-Antwort-Interaktionen mit verschiedenen großen Sprachmodellen, reproduzierbares Prompt Engineering, Abfragen von Wissensgraphen, Retrieval-Augmented Generation (RAG) und die Kettenaufrufe von Modellen. Besonders benutzerfreundlich ist die intuitive API-Schnittstelle, mit der Forscher die Funktionen einfach in Webanwendungen, Kommandozeilen-Schnittstellen oder Jupyter-Notebooks integrieren können.
In experimentellen Bewertungen hat das Forschungsteam maßgeschneiderte Benchmarks erstellt, um die Leistung von BioChatter genauer zu bewerten. Die Ergebnisse zeigen, dass Modelle, die BioChatter verwenden, bei der Generierung korrekter Abfragen deutlich besser abschneiden als Modelle ohne Prompt-Engine. Diese Erkenntnis unterstreicht die praktische Anwendbarkeit von BioChatter.
Zukünftig wird das BioChatter-Team weiterhin mit Life-Science-Datenbanken wie Open Targets zusammenarbeiten, um Nutzern durch die Integration von Daten aus der Humangenetik und Genomik zu helfen, Arzneimittelziele effizienter zu identifizieren und zu priorisieren. Darüber hinaus wird ein ergänzendes System namens BioGather entwickelt, das Informationen aus anderen klinischen Datentypen wie Genomik, medizinischen Notizen und Bildern extrahieren soll, um komplexe Probleme in der personalisierten Medizin und Arzneimittelentwicklung zu lösen.
Mit BioChatter können Wissenschaftler im Bereich der biomedizinischen Forschung LLMs effizienter nutzen und so den wissenschaftlichen Fortschritt und Innovationen vorantreiben.


