Unitxt ist eine innovative Bibliothek, die speziell für generative Sprachmodelle entwickelt wurde und die maßgeschneiderte Vorbereitung und Evaluierung von Textdaten ermöglicht. Unitxt integriert sich nativ in gängige Bibliotheken wie Hugging Face und LM-eval-harness und zerlegt den Verarbeitungsprozess in modulare Komponenten, um einfache Anpassung und gemeinsame Nutzung zu ermöglichen. Diese Komponenten umfassen umfassende Definitionen der Datenverarbeitung, einschließlich modellspezifischer Formate und Aufgabenanweisungen. Unitxt-Catalog bündelt diese Komponenten und fördert die Zusammenarbeit und Erkundung in modernen Textdaten-Workflows. Unitxt ist nicht nur ein Tool, sondern auch eine community-getriebene Plattform, die es Nutzern ermöglicht, ihre Datenpipelines gemeinsam zu erstellen, zu teilen und weiterzuentwickeln.