近年、ビジョン大規模言語モデル(Large Vision Language Models、LVLMs)は画像理解やクロスモーダルタスクにおいて卓越した能力を示していますが、同時に「ハルシネーション現象」の問題も顕著になっています。この課題に対処するため、タオティエングループの未来生活研究所チームは、「トークン選好最適化」(Token Preference Optimization、略称:TPO) と呼ばれる新しい手法を提案し、自己校正機構を導入しました。
マイクロソフトの研究チームは先日、大規模アクションモデル(Large Action Model、略称LAM)と呼ばれる人工知能技術を発表し、AI開発の新たな段階に到達しました。GPT-4oなどの従来の言語モデルとは異なり、LAMはWindowsアプリケーションを自律的に操作できます。これは、AIが会話や提案を行うだけでなく、実際にタスクを実行できることを意味します。LAMの強みは、テキストなど、ユーザーからの様々な入力内容を理解できる点にあります。
Niantic(任天堂)は最近、Large Geospatial Model(LGM)と呼ばれる新しいAIモデルを開発中であると発表しました。このモデルは、プレイヤーが『ポケモンGO』およびその他のNianticゲームでスマートフォンからアップロードした数百万回にも及ぶスキャンデータに基づいて構築されています。Nianticによると、このAIモデルは、コンピューターとロボットが世界を理解し、相互作用する方法に新たな可能性をもたらすとのことです。LGM
先日、Xiaomiは、大規模言語モデルを搭載したXiao AIの音楽機能に、新しい「音楽Q&A」機能を追加し、複数のデバイスでこの新機能に対応すると発表しました!この機能は、スマートフォンや車載機器など、さまざまなデバイスで使用できます。ユーザーは、Xiao AIのLarge Language Modelを最新バージョンにアップデートするだけで、この新機能を体験できます。Xiaomiの説明によると、「音楽Q&A」機能は、人工知能能力の向上に基づいており、ユーザーは楽曲情報の検索や専門的な音楽知識の質問などに利用できます。スマートフォンでも車載機器でも、ユーザーはXiao AIと簡単にやり取りできます。
amd
PARD is a high-performance speculative decoding method that can convert autoregressive draft models into parallel draft models at low cost, significantly accelerating the inference of large language models.
UCSC-VLAA
VLAA-Thinkerは革新的な視覚言語モデルで、画像とテキストの入力を同時に処理し、高品質なテキスト出力を生成することができます。このモデルは論文「SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models」の研究成果に基づいて開発され、R1に類似した推論能力に焦点を当てています。
KoboldAI
これは、Artetxeらの論文『Efficient Large Scale Language Modeling with Mixtures of Experts』におけるオリジナルの密集型67億パラメータモデルのHugging Face transformers適合バージョンです。