Moonshot AI hat die Einführung seines neuen Open-Source-Modells Kimi-Dev-72B bekannt gemacht, das sich speziell auf Softwareentwicklungsaufgaben konzentriert und bei der AI-Programmierbenchmarks SWE-bench Verified die höchste Globaleleistung eines Open-Source-Modells erreicht hat. Mit nur 7,2 Milliarden Parametern konnte Kimi-Dev-72B den gerade veröffentlichten DeepSeek-R1 mit seinen 67,1 Milliarden Parametern übertreffen.

image.png

In den Tests des SWE-bench Verified erzielte Kimi-Dev-72B eine hohe Punktzahl von 60,4 %, was ein neuer Maßstab für Open-Source-Modelle darstellt. Der Optimierungsvorgang umfasste große Skalen an verstärktem Lernen, sodass das Modell Fehler in Docker-Umgebungen in echten Repositorien automatisch reparieren kann. Um die Korrektheit und Stabilität der generierten Lösungen zu gewährleisten, erhielt Kimi-Dev-72B Belohnung nur dann, wenn alle Testfälle erfolgreich bestanden waren, was den hohen Ansprüchen der realen Entwicklung entspricht.

Kimi-Dev-72B ist derzeit für den Download auf den Plattformen Hugging Face und GitHub verfügbar. Benutzer können die Modellgewichte und Quellcode herunterladen, und bald wird auch das technische Dokument veröffentlicht werden. Der Hugging Face-Link lautet: huggingface.co/moonshotai/Kimi-Dev-72B, und der GitHub-Link ist: github.com/MoonshotAI/Kimi-Dev.

Was die Konzeptionsidee betrifft, kombiniert Kimi-Dev-72B die Funktionen von BugFixer und TestWriter. Während BugFixer Fehler behebt, schreibt TestWriter entsprechende Unit-Tests. Diese beiden Teile ergänzen sich gegenseitig und stellen sicher, dass das Modell in Programmieraufgaben effektiv ist. Die Arbeitsabläufe von Kimi-Dev-72B sind einfach und klar und setzen sich aus zwei Phasen zusammen: Lokalisierung von Dateien und Codebearbeitung.

Zur Steigerung der Fähigkeiten des Modells verwendete Moonshot AI ungefähr 150 Milliarden hochwertige Daten für die Mittelstufe-Trainings, die aus echten Problemen und Pull Requests von GitHub stammen. Durch strenge Datenaufbereitung konnte das Modell lernen, wie menschliche Entwickler Probleme lösen und Code schreiben. Im verstärkten Lernstadium wurde der Schwerpunkt auf der Verbesserung seiner Codebearbeitungsleistung gelegt, wobei ein belohnungsbasiertes System zur kontinuierlichen Optimierung des Modells eingesetzt wurde.

image.png

In den Tests konnte Kimi-Dev-72B die Rollen von BugFixer und TestWriter koordinieren und nutzte dabei ein Selbstspiel-Mechanismus, um die Leistung und Effizienz des Modells zu verbessern. Bei jedem Problem konnten bis zu 40 Patch-Kandidaten und Test-Kandidaten generiert werden, was das Potenzial des Selbstspiel-Mechanismus unterstreicht.

Zukünftig plant Moonshot AI weitere Erweiterungen von Kimi-Dev-72B, einschließlich tiefer Integration mit beliebten Entwicklungstools, um einen noch reibungsloseren Einbindung in die Arbeitsabläufe von Entwicklern zu ermöglichen. Das Unternehmen verspricht fortlaufende Verbesserungen dieses Modells und strengere Rote-Team-Tests, um eine noch stärkere Version der Community zur Verfügung zu stellen.

Hugging Face-Adresse: huggingface.co/moonshotai/Kimi-Dev-72B

GitHub-Adresse: github.com/MoonshotAI/Kimi-Dev

Hier die wichtigsten Punkte:

🔍 Kimi-Dev-72B ist ein neues Open-Source-Modell, das die weltweit höchste Punktzahl bei einer Programmier-Benchmark erreicht hat.  

🚀 Das Modell kombiniert die Funktionen von BugFixer und TestWriter, um die Effizienz und Qualität des Codes zu steigern.  

💡 Moonshot AI wird Kimi-Dev-72B weiter optimieren und zukünftig tiefer mit populären Entwicklungstools integrieren.