华为が新技術を発表し大規模モデルの推論を最適化:UCM技術がHBMへの依存を軽減
8月12日、華為は2025年の金融AI推論応用の実装と発展フォーラムで画期的なAI推論イノベーション技術であるUCM(推論メモリデータマネージャー)を発表する予定です。この技術は中国のAI推論におけるHBM(高帯域幅メモリ)への依存度を低下させ、国内の大規模モデルの推論性能を著しく向上させることが期待されています。UCMはKVキャッシュをコアとし、多様なキャッシュアクセラレーションアルゴリズムツールを統合し、推論プロセスで生じるメモリデータを階層的に管理することで、コンテキストウインドウを拡大し、高スループットで低遅延の推論を実現します。