In den letzten Tagen gab es die Ankündigung, dass der von Moonside entwickelte Kimi-Intelligente-Assistent seinen ersten Agenten-Produkt – Kimi-Researcher (Tiefe Forschung) – im Rahmen eines kleinen gray-scale Tests offiziell ausprobiert. Dieses auf end-to-end autonomem verstärktem Lernen (end-to-end agentic RL) basierende neue Generationen-Agenten-Modell ist darauf ausgelegt, Benutzern effiziente und tiefschürfende Forschungsdienstleistungen zur Verfügung zu stellen.
Während des Umgangs mit Fragen zeigt Kimi-Researcher eine starke Fähigkeit zur autonomen Planung und Ausführung. Nicht nur kann es Fragen klären und tiefgehend nachdenken, sondern es plant auch selbst Schlüsselwörter für die Suche aus und filtert hochwertige Informationen heraus. Während des Bearbeitungsprozesses führt Kimi-Researcher im Durchschnitt 23 Schritte der Deduktion durch, plant 74 Schlüsselwörter und findet 206 Links, wobei es am Ende nur die höchste Qualität der Inhalte in den ersten 3,2 % beibehält. Dieser Prozess garantiert die Detailliertheit und Nachvollziehbarkeit der Ergebnisse.
Zusätzlich zu seiner starken Informationssuch- und -filterfähigkeit kann Kimi-Researcher Werkzeuge wie Browser, Code usw. selbstständig aufrufen, um Rohdaten zu verarbeiten und Analyseergebnisse automatisch zu generieren. Seine Ergebnisse umfassen einen detaillierten, nachvollziehbaren Forschungsbericht sowie einen interaktiven, teilenbaren dynamischen visuellen Bericht. Diese Berichte sind meist mehrere Tausend Wörter lang, zitieren im Durchschnitt etwa 26 hochwertige Quellen und ermöglichen es Benutzern, online Links zu erstellen und zu teilen, was deren Präsentation und Zusammenarbeit enorm erleichtert.
Um die tatsächliche Leistungsfähigkeit von Kimi-Researcher zu überprüfen, setzte Moonside ein schweres "Exam" an – Humanity’s Last Exam (HLE). Dieses speziell für KI konzipierte schwierige Benchmark bedeckt Hunderte von Fachgebieten, von Mathematik, Physik, Medizin bis hin zu Politik und Geschichte, um das Lösungsvermögen des Modells bei komplexen Wissensaufgaben zu testen. Kimi-Researcher erreichte bei vollständig strukturfreiem, ohne Vorgaben gestaltetem Set-up eine Pass@1 Genauigkeit von 26,9 % und eine Pass@4 Genauigkeit von 40,17 %, übertroffen mehrerer bekannter AI-Modelle und erreichte eine der höchsten bekannten Leistungen.
In realen Anwendungsszenarien zeigt Kimi-Researcher ebenfalls hervorragende Leistungen. Ob es Programmierer bei der Suche nach hochwertigen Benchmarks, Betriebsmitarbeiter bei der Untersuchung der Entwicklung von Unternehmen innerhalb des Branchen oder Juristen beim schnellen Erlernen der Datenschutzgesetze verschiedener Länder helfen – Kimi-Researcher kann in kurzer Zeit strukturierte, umfassende Berichte erstellen und Benutzern entscheidende Unterstützung bieten.
Moonside erklärte, dass Kimi-Researcher als Agentenmodell durch end-to-end verstärktes Lernen trainiert wurde und die Eigenschaften hat, keine Struktur, sondern adaptiv zu sein. Es hat keine komplizierten Prompts oder vordefinierte Abläufe, sondern hängt vollständig von seinem eigenem Probieren und Lernen ab, um komplexe Aufgaben zu bewältigen. Diese Konstruktion ermöglicht es Kimi-Researcher, in Situationen mit Informationskonflikten, Werkzeugwechseln und Umweltänderungen starke Anpassungsfähigkeit und Generalisierungsfähigkeit zu zeigen.
Bisher befindet sich Kimi-Researcher im Gray-Scale-Test. Benutzer können ihre Teilnahmequalifikation über kimi.com beantragen und nach der Freigabe der Berechtigung den "Tiefe Forschung"-Schalter im Kimi-Dialogfeld verwenden.