近年、ビジョン大規模言語モデル(Large Vision Language Models、LVLMs)は画像理解やクロスモーダルタスクにおいて卓越した能力を示していますが、同時に「ハルシネーション現象」の問題も顕著になっています。この課題に対処するため、タオティエングループの未来生活研究所チームは、「トークン選好最適化」(Token Preference Optimization、略称:TPO) と呼ばれる新しい手法を提案し、自己校正機構を導入しました。
人工知能の急速な発展において、ORYXというマルチモーダル大規模言語モデルが、AIによる視覚世界の理解能力に対する認識を静かに変えつつあります。清華大学、テンセント、南洋理工大学などの研究者によって共同開発されたこのAIシステムは、画像処理分野におけるトランスフォーマーと言えるでしょう。ORYX(Oryx Multi-Modal Large Language Modelsの略)は、画像、ビデオ、3Dシーンの时空理解を処理するために特別に設計されたAIモデルです。その核心は…
amd
PARD is a high-performance speculative decoding method that can convert autoregressive draft models into parallel draft models at low cost, significantly accelerating the inference of large language models.