Cosine社がリリースしたAIプログラマー「Genie」は、権威あるテストプラットフォームSWE-Benchで30.08%という高得点を記録し、Devinの13.8%、Swe-agent+GPT-4の12.47%を大きく引き離す圧倒的な性能で、現在世界最強のAIプログラマーと呼ばれています。

Genieの誕生は一朝一夕のものではありません。Cosineの共同設立者であるAlistair Pullenは、2022年12月、ロンドン大学でのロードショーでGenieのプロトタイプを既に公開していました。彼の当初の目標は、人間の介入なしにコーディングと最適化をエンドツーエンドで自動実行できるAIロボットを開発することでした。

image.png

Genieが他の有名製品を大幅に上回る性能を達成できたのは、その独自のトレーニングデータと方法によるところが大きいです。Genieのトレーニングは従来の大規模モデルの微調整に依存せず、特別なデータセットを使用しています。このデータセットには、情報の完全な継承、知識の段階的な発見、実際のケースに基づいた意思決定プロセスなど、人間のプログラマーの推論プロセスが含まれています。

QQ截图20240813103417.jpg

Genieはトレーニング中に独自の「自己改善メカニズム」を採用しています。初期トレーニングは大量の高品質データで行われ、モデルを「完璧な」状態にします。その後、開発者はGenieによって生成された合成データを次のモデルトレーニングに注入し、エラーや複雑な状況を豊富にします。このプロセスは、母親が子供に歩行を教えるようなもので、Genieが転倒したり姿勢が悪かったりすると、すぐに修正されます。

QQ截图20240813103503.jpg

Genieの機能は、機能開発、バグ修正、コードリファクタリング、コードの小さな変更、コードテスト、コードドキュメントの作成と更新などを網羅しています。サポートされているプログラミング言語には、JavaScript、Python、Java、C#、C++など数十種類の主要な言語が含まれており、ほぼすべてのプログラミング分野のニーズをカバーしています。

著名な開発者であるMckay氏は、Genieに大きな期待を寄せており、できるだけ早くこの製品をテストしたいと考えています。彼は現在Devinの使用権を持っており、Genieの性能を容易に評価できます。

現在Genieはテスト申請段階ですが、Alistair氏は既に申請受付を開始しており、今後2~3週間以内にテスト権限が付与され、リリース時にはいくつかのサプライズ機能が追加される予定です。

体験アドレス:https://cosine.sh/register