Together AIはシリーズAラウンドで7.3億元(約130億円)の資金調達を発表しました。このラウンドは、Sequoia Capital China(セコイア・キャピタル・チャイナ)がリードインベスターとなり、NVIDIAなど複数の企業が参加しました。同社は、大規模言語モデルにおけるオープンソースの重要性を強調し、高い評価を得ているRedPajama-INCITE、RedPajama-Data-v2、FlashAttention v2などのオープンソース製品を発表しています。特に、同社の最高科学責任者であるTri Dao博士が発表したFlashAttention v2は広く採用され、トレーニングとファインチューニングの効率を向上させています。
LSX-UniWue
LLäMmlein 7Bは、調整されたTinyllamaコードベースに基づき、RedPajama V2のドイツ語部分のデータで最初から訓練された、70億パラメータのドイツ語LLaMA言語モデルです。
これはTinyllamaコードフレームワークをベースに、RedPajama V2ドイツ語コーパスを使用してゼロからトレーニングされたドイツ語Tinyllama 1B言語モデルです。
1bitLLM
BitNet b1.58は1ビット大規模言語モデルで、パラメータ規模は30億、RedPajamaデータセットで1000億トークン訓練されています。
BitNet b1.58 3Bは1ビット量子化された大規模言語モデルで、RedPajamaデータセットを使用して1000億トークン訓練され、性能を維持しながら計算リソース要件を大幅に削減しました。
BitNet b1.58は1.58ビット量子化された大規模言語モデルで、重みを{-1,0,1}の3値に量子化することで効率的な推論を実現しています。このモデルは原論文の結果を再現し、RedPajamaデータセットで1000億トークン訓練されました。
mtgv
MobileLLaMA-1.4B-Baseは14億パラメータのTransformerモデルで、RedPajama v1データセットに基づいてトレーニングされ、すぐに使用できるデプロイメント向けに設計されています。
datajuicer
OpenLLaMAアーキテクチャに基づき、Data - Juicerで精錬されたRedPajamaとPileデータセットで事前学習された大規模言語モデルで、同じ13億パラメータ規模のモデルを上回る性能を持ちます。
chargoddard
Llama 2 13Bをベースにした改良版で、オリジナルLlama 33Bの一部アテンションヘッドメカニズムを統合し、RedPajamaデータセットによるファインチューニングで安定性を向上
togethercomputer
RedPajama-INCITE-7B-Instructは、TogetherとオープンソースAIコミュニティのリーダーが共同開発した69億パラメータの言語モデルで、少サンプルアプリケーションに対して微調整されています。
RedPajama-INCITE-Instruct-3B-v1は、Together Computerが複数の研究機関と共同で開発した28億パラメータの指令微調言語モデルで、少サンプルアプリケーションシナリオに特化して最適化され、さまざまなテキスト処理タスクをサポートしています。
RedPajama-INCITE-Chat-3B-v1は、Together ComputerがオープンソースAIコミュニティのリーダーと共同で開発した28億パラメータのチャット言語モデルで、OASST1とDolly2のデータセットで微調整され、会話能力を強化するために特別に設計されています。
Togetherが複数のAI研究機関と共同開発した69億パラメータの対話専用言語モデル。RedPajama-Data-1Tデータセットで訓練され、OASST1とDolly2データでファインチューニングされ対話能力を強化