画像合成はコンピュータビジョン分野における重要な研究方向であり、研究者らは少ないステップの推論で高解像度の画像を生成できる新しい画像合成モデルLCMを提案しました。LCMは、事前学習済みの潜在拡散モデルLDMから抽出され、潜在空間における確率的流ODEの解を直接予測することで、反復回数と計算量を削減します。論文では、カスタマイズされた画像データセットで事前学習済みのLCMを微調整できる新しい微調整方法LCFについても紹介しています。LCMはテキストから画像を生成するタスクにおいて最先端の性能を達成し、高速、高忠実度、低歪み、低ノイズなどの利点を備えています。
関連AIニュースの推奨

AIニュース:テンセント・ヤオファンのアップグレードで1文で画像や動画を検索可能に;WeChat Pay MCPがリリース;グーグルが全米でVeo 3を公開
【AIニュース】へようこそ!ここは毎日人工知能世界を探求するためのガイドです。毎日、AI分野のホットトピックをお届けし、開発者に焦点を当て、技術トレンドを理解し、革新的なAI製品の応用を学びます。新鮮なAI製品についてはこちらから:https://top.aibase.com/1、テンセント・ヤオファンの再アップグレード:1文で検索、画像や動画を即座に表示、情報取得がより直感的になります。テンセント・ヤオファンのアップグレード機能により、情報取得がさらに直感的かつ効率的になり、ユーザーは1文で質問するだけで図形とテキストを取得できます。

Figmaは約200億ドルの評価でニューヨーク証券取引所に上場する。AIによるデザインの未来は有望である。

グーグルが世界中で新しいVeo3動画生成モデルを展開
グーグルは、世界中で最新の動画生成モデルVeo3を正式に展開することを発表しました。今回の発表は多くのユーザーから長期間待たれていたもので、Veo3はすでに159カ国以上のGeminiユーザーに公開されており、新たな動画制作体験を提供しています。Veo3動画生成モデルの特徴は、シンプルなテキストのヒントを使用して最大8秒間の動画を生成できることです。グーグルによると、この技術は創造性を追求するユーザー向けに設計されており、特にSNSで短い動画コンテンツのニーズが増加しているユーザーにとって適しています。

メタがアクティブなチャットボットをリリース。AIが先にあなたと会話を始めます
最近、メタは新しいタイプのチャットボットのテストを行っており、ユーザーにメッセージを送り出すだけでなく、ユーザーが会話を開始した後に返信するだけではなく、積極的に会話を始めることを目的としています。例えば、Facebook MessengerやWhatsAppで友達と会話をしている最中に、『The Maestro of Movie Magic』というAIチャットボットからメッセージが届くとします。「今日一日が充実したものですように!最近何か面白いことがありましたか?」といった内容のメッセージです。

騰訊元宝がさらにアップグレード: 一言で検索、画像や動画を即座に表示、情報収集がより直感的になりました!
スマートアシスタントの元宝は今日、コアな検索機能を大幅にアップデートし、『一言でより多くのことを検索できる』という新たな特徴を導入しました。今ではユーザーが簡単な質問をすれば、元宝がスマートにマッチングして画像や動画番号のコンテンツを表示します。これにより、情報収集がこれまでになく豊かで直感的になります。これまでにも元宝は天気の確認、株価の確認、場所の見つけ方などの日常的なニーズに対応できていましたが、今回のアップデートにより、元宝のスマート検索能力は新たな高みへと到達しました。新しいスキルを学びたい場合や、生活の中で小さな問題を解決したい場合でも、元宝はテキストを統合して対応できます。

Cluely は1週間で年収が倍増し700万ドルに
シリコンバレーで注目を集めるスタートアップ企業Cluelyは、近日、新製品をリリースした後、年間定期収入(ARR)が約700万ドルに急上昇したと発表しました。この成長スピードに創設者のRoy Leeは興奮しており、『テクノロジーCrunch』に対して「會議や面接を行うすべての人がこの製品を試しています」と語っています。Cluelyは人工知能を利用してオンライン会話を分析し、リアルタイムで会議記録、背景情報、質問案内を提供します。すべての情報はユーザーの画面に静かに表示されます。

京东物流が自社開発の無人軽トラック「JD Logistics VAN」L4レベルの公道自動運転を発表
最近開催された第17回国際交通技術・設備展で、JD Logisticsは初めて自社開発の無人軽トラック製品「JD Logistics VAN」を発表しました。この無人軽トラックは24立方メートルの広い積載空間を備えており、現在の物流業界において最も大きな積載能力を持つ無人軽トラックとなり、物流の輸送および中継などの工程で従来の4.2メートルトラックに取って代わる見込みです。紹介によると、JD Logistics VANは満載時の航続距離が最大400キロメートルに達し、L4レベルの公道での自動運転性能を持っています。これは、自律的に走行することができるということを意味します。

大モデルの秘密を解く!その『思考単語』の裏には驚くほど多くの情報が隠されていた
最近、中国人民大学、上海人工知能実験室、ロンドン大学学院、大连理工大学の研究チームは、大モデルの推論プロセスにおける重要な発見を明らかにしました。それは、モデルが思考しているとき、「思考単語」として使用される言葉が、その内部情報量の顕著な増加を示しているということでした。この研究成果は情報論の手法を通じて、私たちが人工知能の推論メカニズムをよりよく理解するための新しい視点を提供しています。あなたが大モデルが質問に答えるときに、人間のような言葉を出力する様子を見たことがあるかもしれません。例えば「ええと…」「考えてみるね…」などです。

オープンソース革命!Kyutai TTSがリリース:超低遅延の音声合成AIが新たな時代をもたらす!
最近、フランスのAI研究室Kyutaiは、新しいテキストから音声への変換モデルであるKyutai TTSを正式にオープンソース化したことを発表しました。これは、世界中の開発者や研究者に高性能で低遅延な音声合成ソリューションを提供し、オープンソースAI技術の発展を促進するとともに、多言語の音声インタラクションアプリケーションの新しい可能性を切り開くものです。AIbaseが独自にこの技術的な特徴とその潜在的な影響を解説します。超低遅延によって実現されるリアルタイムのインタラクティブな体験がKyutai TTSの優れた性能です。

DeepMindがCromeを発表:大規模言語モデルの人類フィードバックへの整合性向上
人工知能分野において、報酬モデルは大規模言語モデル(LLMs)と人間のフィードバックを整合させる上で重要な要素であるが、現存するモデルには「報酬ハッカー」と呼ばれる問題が存在する。これらのモデルは、回答の長さや形式などの表面的な特徴に注目しがちであり、事実の正確性や関連性などの本質的な品質指標を見極めることは困難である。その原因は、標準的な学習目標が訓練データ内に存在する誤った相関関係と真の因果関係を区別できないことにある。この失敗により、脆弱な報酬モデル(RMs)が生成され、整合されていない戦略が生じる。