Forschungseinrichtungen wie Harvard und Columbia University haben den Open-Source-Datensatz OpenProteinSet veröffentlicht. Dieser enthält 16 Millionen multiple Sequenzalignments (MSAs) von Proteinen und zugehörige Daten. Die Veröffentlichung dieses Datensatzes behebt das Problem der proprietären Trainingsdaten von DeepMinds AlphaFold 2 und bietet der Bioinformatik und dem Bereich des maschinellen Lernens für Proteine wichtige Unterstützung.
AlphaFold 2 hat mit seiner Genauigkeit bei der Vorhersage von Proteinstrukturen die Branche revolutioniert, doch die proprietären Daten haben den Fortschritt anderer Forscher behindert. OpenProteinSet umfasst Proteine aus allen Proteindatenbanken und Daten verschiedener UniProt-Cluster und kann für das Training einer Vielzahl von KI-Modellen verwendet werden. Diese Ressource ist von großer Bedeutung für die Forschung in den Bereichen Biologie und Medikamentenentwicklung und wird die Weiterentwicklung dieser Forschungsgebiete vorantreiben.