近年、Transformerアーキテクチャの登場により、大規模言語モデルに基づく生成型AIが可能になりました。この記事では、Transformerが自己注意機構を通じてどのように言語処理能力を高め、様々な生成タスクをサポートするのかを詳しく説明します。
モデルにはまだ「幻覚」などの限界がありますが、この技術は既に多くの革新的なアプリケーションを生み出し、さらに多くの分野へと拡大し、人工知能の発展を変えつつあります。
近年、Transformerアーキテクチャの登場により、大規模言語モデルに基づく生成型AIが可能になりました。この記事では、Transformerが自己注意機構を通じてどのように言語処理能力を高め、様々な生成タスクをサポートするのかを詳しく説明します。
モデルにはまだ「幻覚」などの限界がありますが、この技術は既に多くの革新的なアプリケーションを生み出し、さらに多くの分野へと拡大し、人工知能の発展を変えつつあります。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
SpaceXがxAIに20億ドル投資予定。xAIの50億ドル資金調達計画の一部で、Grok連携を強化。マスク氏の企業間連携戦略。....
OpenAIはオープンソースの大規模モデルの公開を延期することを発表しました。CEOのSam Altman氏は、追加の時間が必要で、セキュリティテストをしっかり行う必要があると述べました。このモデルは当初今週に公開される予定でしたが、次の週に延期され、安全性と信頼性を確保するためです。Altman氏は、モデルが公開されれば取り消すことができず、慎重であることが重要だと強調しました。これはOpenAIが初めてダウンロード可能な自立型モデルを公開しようとする試みであり、研究者や中小企業に強力なツールを提供することを目的としています。延期には残念に思う人もいるかもしれませんが、コミュニティの多くはセキュリティテストの重要性を理解しており、AIエコシステムにおいて重要な意味を持つと考えています。
高盛がAIコーディングアシスタント「デヴィン」を導入、開発効率向上を図る。数百インスタンス展開予定で、将来的には数千に拡大も。CIOは人間開発者の補助ツールとして活用し、「ハイブリッド」チームによる生産性向上を目指すと表明。複雑タスク処理能力は限定的だが、バージョン2.1で大規模コード処理を最適化。金融科技革新の伝統継承しつつ、完全な人間代替はしない方針。....
ロサンゼルスにテスラ初のテーマレストランが7月21日オープン。オプティマス人型ロボット接客、UFO型建物、200席/バー/LEDスクリーンを備えた2階建て。80基のV4スーパーチャージャー完備で「食事中充電」可能。自動運転配膳や車名をモチーフにしたメニューも特徴。....
国連大学の研究チームは、スーダンの難民アミナと武装勢力のアブドゥラという2人のAI仮想人物を開発し、対話形式を通じて避難者危機に対する公衆の認識を高めることを目的としている。このプロジェクトは学術チームによる実験的な取り組みであり、国連の公式プロジェクトではない。研究者はこれを寄付活動に使用することを考えていたが、テスト参加者の多くからは否定的な反応があり、現実の難民自身が自分の声を上げることができるはずだと指摘された。現在、関連するウェブサイトは正常にアクセスできなくなっている。(139文字)
7月11日、世界中のユーザー数が6000万を突破したAI動画制作プラットフォーム「パーウェイAI(PixVerse)」は大きな機能アップデートを実施しました。最初と最後のフレームモジュールに「多キーフレーム生成」機能が追加され、これによりAI動画制作は単一のスナップショットから「ストーリー的表現」への新たな段階へと進化しました。ユーザーは現在、ウェブ版の最初と最後のフレーム機能を通じて最大7枚の画像をキーフレームとしてアップロードでき、AIがフレーム間の意味関係を自動的に解析し、スマートに流れのある動きやシーンの変換経路を作成します。この技術的な突破により、静止画面が動的に表現されるようになりました。
アメリカのAI企業PerplexityのCEOは、月之暗面が新たにリリースしたKimi K2トランズパラメータオープンソースモデルを公的に称賛し、そのモデルに基づいてトレーニングを行うかもしれないと述べた。Kimi K2は混合エキスパートアーキテクチャを採用しており、コード生成、スマートエージェント、数学的推論などのタスクで優れた性能を発揮しており、複数のベンチマークテストでリードを維持している。Perplexityは以前にはDeepSeek R1モデルを使用していたが、今回の声明は技術協力を探求し、AI製品の発展を推進しようとしていることを示している。Kimi K
IndexTTS2は映画レベルのテキスト音声変換モデルで、ローカル展開・音声クローン・感情制御機能を備え、中英対応。映画吹替えに最適で、仮想キャラクター制作など幅広い応用が期待されます。....
Metaとバークレー校が共同開発したStreamDiTモデルは、AI動画のリアルタイム生成を実現。単一GPUで16fps/512p動画生成が可能で、40億パラメータモデルが1分動画を即時作成。移動バッファーアーキテクチャにより並列処理を実現し、画質を維持したまま高速生成。3000本の高品質動画で訓練され、既存技術を凌駕する性能。現在の制限はあるが、リアルタイム動画制作の新たな可能性を開拓。....
MetaはAI音声スタートアップPlay AIを買収し、チームを統合。音声合成技術の強化とAIキャラクター・ウェアラブル分野との連携を目的。近年のAI戦略の一環で、音声技術需要の高まりに対応し市場競争力を向上。....