2025年8月20日、ビットテクノロジーのSeedチームは、一連のオープンソースの大規模言語モデル「Seed-OSS」を発表しました。このシリーズのモデルは、国際化(i18n)の応用シナリオのニーズに対応することを目的としており、強力な長文理解、推論能力、および柔軟な開発者フレンドリーな特徴に注力しています。

Seed-OSSシリーズのモデルは人気のある因果言語モデルアーキテクチャに基づいており、RoPE、GQAアテンションメカニズム、RMSNorm、SwiGLUアクティベーション関数を採用しています。最新でリリースされたSeed-OSS-36Bモデルには360億のパラメータがあり、512Kの長いコンテキスト処理能力を持っています。このモデルはわずか12兆のトレーニングデータを使用しているにもかかわらず、多くの人気のあるベンチマークテストで優れた性能を示しています。

QQ20250821-100342.png

Seed-OSSモデルシリーズには2つのバージョンがあります:合成指示データを含むSeed-OSS-36B-Baseと、合成指示データを含まないSeed-OSS-36B-Base-woSynです。このような設計により、開発者は高性能なベースモデルを提供され、研究者は合成データの影響を受けずに多様な選択肢が得られるようになります。

このモデルの重要な特徴の一つは、「思考予算」の柔軟な制御であり、ユーザーは必要に応じて推論の長さを動的に調整できます。この機能は実際の応用場面で推論の効率を大幅に向上させます。さらに、Seed-OSSは推論タスクを特に最適化しており、一般的な能力を維持しながらも推論能力を強化しています。

QQ20250821-100354.png

発表会では、SeedチームはSeed-OSSモデルが学術的な研究だけでなく、ツールの使用や問題解決などの代理知能タスクを含むさまざまな開発タスクにも広く適用可能であることを強調しました。モデルのトレーニングと評価結果によると、Seed-OSSは知識質問、数学的推論、プログラミングなどのタスクにおいて、オープンソース分野で先進的な性能を示しています。

参加したい開発者に対して、Seedチームは詳細な素早く始めるためのガイドを提供しています。ユーザーは、関連する依存関係をpipでインストールするだけで、簡単にSeed-OSSモデルをダウンロードして利用できます。また、チームはメモリ使用量を削減し、モデルの実行効率を向上させるために複数の量子化方法をサポートしています。

結論として、Seed-OSSのリリースはオープンソースコミュニティにとって強力な支援となります。ビットテクノロジーのSeedチームは、この高パフォーマンスな言語モデルシリーズを通じて、人工知能分野のイノベーションと発展を促進し、開発者や研究者に広範なツールとリソースを提供することを期待しています。

住所:https://github.com/ByteDance-Seed/seed-oss