gemma.cpp est un moteur d'inférence C++ léger et autonome développé par Google pour le modèle Gemma. Il se concentre sur une implémentation simple et directe des modèles Gemma 2B et 7B, visant à soutenir les cas d'utilisation de recherche et d'expérimentation. Il est facile à intégrer dans d'autres projets et hautement modifiable. gemma.cpp utilise la bibliothèque Google Highway pour optimiser les performances d'inférence sur CPU.