近年、ビジョン大規模言語モデル(Large Vision Language Models、LVLMs)は画像理解やクロスモーダルタスクにおいて卓越した能力を示していますが、同時に「ハルシネーション現象」の問題も顕著になっています。この課題に対処するため、タオティエングループの未来生活研究所チームは、「トークン選好最適化」(Token Preference Optimization、略称:TPO) と呼ばれる新しい手法を提案し、自己校正機構を導入しました。
先日、Xiaomiは、大規模言語モデルを搭載したXiao AIの音楽機能に、新しい「音楽Q&A」機能を追加し、複数のデバイスでこの新機能に対応すると発表しました!この機能は、スマートフォンや車載機器など、さまざまなデバイスで使用できます。ユーザーは、Xiao AIのLarge Language Modelを最新バージョンにアップデートするだけで、この新機能を体験できます。Xiaomiの説明によると、「音楽Q&A」機能は、人工知能能力の向上に基づいており、ユーザーは楽曲情報の検索や専門的な音楽知識の質問などに利用できます。スマートフォンでも車載機器でも、ユーザーはXiao AIと簡単にやり取りできます。
人工知能の急速な発展において、ORYXというマルチモーダル大規模言語モデルが、AIによる視覚世界の理解能力に対する認識を静かに変えつつあります。清華大学、テンセント、南洋理工大学などの研究者によって共同開発されたこのAIシステムは、画像処理分野におけるトランスフォーマーと言えるでしょう。ORYX(Oryx Multi-Modal Large Language Modelsの略)は、画像、ビデオ、3Dシーンの时空理解を処理するために特別に設計されたAIモデルです。その核心は…
Metaは先日、Meta LLMコンパイラ(Meta Large Language Model Compiler)を発表し、プログラミング業界全体に衝撃を与えました。 LLMコンパイラのFTD(ファインチューニング版)は、コードサイズの最適化において5.24%の向上を実現し、最適化オプション-Ozを上回りました。一方、GPT-4 Turboはわずか0.03%でした。
amd
PARD is a high-performance speculative decoding method that can convert autoregressive draft models into parallel draft models at low cost, significantly accelerating the inference of large language models.
KoboldAI
これは、Artetxeらの論文『Efficient Large Scale Language Modeling with Mixtures of Experts』におけるオリジナルの密集型67億パラメータモデルのHugging Face transformers適合バージョンです。