【AI日報】へようこそ!ここは、AIの世界を探求するためのあなたの毎日のガイドです。毎日、AI分野のホットなトピックをご紹介し、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用について理解を深めるお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、Microsoft Designer:マイクロソフトがデザインツールを発表

人工知能技術を搭載したデザインアプリケーションであるMicrosoft Designerは、デザインをよりシンプルかつ効率的にします。ユーザーはあらゆるデバイスでこの強力なツールにアクセスでき、Microsoft 365アプリとシームレスに統合され、スマートオブジェクト検出、革新的なツール、画像スタイルの再構築などの機能を提供します。

【AiBase要約:】

🚀 Microsoft 365アプリとのシームレスな統合により、画像やデザインの作成と編集が容易になります。

🔍 スマートオブジェクト検出機能により、不要なオブジェクトの削除や背景ぼかし効果の作成が簡単に行えます。

🎨 テンプレート、パーソナライズされたグリーティングカードや招待状の作成、画像スタイルの再構築、背景の置換など、革新的なツールが用意されています。

詳細リンク:https://top.aibase.com/tool/microsoft-designer-sticker-creator

2、ElevenLabsがTurbo 2.5モデルを発表:速度が3倍向上、中国語など32言語に対応

人工知能の世界で、ElevenLabsが発表したTurbo 2.5モデルは、再び言語の壁を突破しました。このモデルは、パフォーマンスと多言語サポートにおいて優れた性能を発揮し、速度が3倍向上、遅延が300ミリ秒に短縮され、動的なインタラクションに強力なサポートを提供します。ユーザーエクスペリエンスの面では、豊富な言語オプションと便利な変換機能を提供すると同時に、データのセキュリティとコンプライアンスを確保しています。

【AiBase要約:】

🚀 Turbo 2.5モデルは32言語に対応し、速度が3倍向上、遅延が300ミリ秒に短縮され、動的なインタラクションに強力なサポートを提供します。

🌐 ベトナム語、ハンガリー語、ノルウェー語のテキスト読み上げを初めてサポートし、言語ライブラリを充実させ、英語のテキスト読み上げ速度を向上させました。

🔊 会話型AI、教育、エンターテイメント、コンテンツ作成など、幅広い用途に対応し、Praktika.ai、Kindroid、Aug X Labsなどのアプリケーション例のように、リアルな音声サポートを提供します。

詳細リンク:https://elevenlabs.io/api

3、Apple AIが7億パラメーターのオープンソース言語モデルDCLMを発表

Apple社は複数の機関と協力して、7億パラメーターのオープンソース言語モデルDCLMを発表しました。このモデルは、トレーニング中に膨大なデータトークンを使用しており、言語の理解と生成に役立ちます。DCLMは標準化されたデータセット最適化ツールを提供し、研究者が効果的な実験を行うのに役立ちます。新しいモデルは重要なテストで顕著な進歩を遂げると同時に、計算リソースの必要性を削減しました。

【AiBase要約:】

🔑 Apple AIは複数の機関と協力してDCLMを発表し、強力なオープンソース言語モデルを開発しました。

🔑 DCLMは標準化されたデータセット最適化ツールを提供し、研究者が効果的な実験を行うのに役立ちます。

🔑 新しいモデルは重要なテストで顕著な進歩を遂げると同時に、計算リソースの必要性を削減しました。

詳細リンク:https://huggingface.co/collections/mlfoundations/dclm-669938432ef5162d0d0bc14b

4、Xiaomiの大規模言語モデル「Xiao Ai」にAI文書Q&AとAI画像編集機能が追加

Xiaomi社は、「Xiao Ai」に「AI画像編集」機能を追加したと発表しました。ユーザーは、背景変換、スタイル変換、人物消去、スマート拡大、画像Q&Aなどの操作を行うことができます。「大規模言語モデルXiao Ai」には、「AI文書Q&A」機能も追加され、よりスマートな文書処理体験を提供します。新機能を利用するには、V6.126バージョンにアップデートする必要があります。

image.png

【AiBase要約:】

✨ Xiao Aiに「AI画像編集」機能が追加され、背景変換、スタイル変換、人物消去、スマート拡大、画像Q&Aなどが含まれます。

🔍 新機能を使用するには、V6.126バージョンにアップデートする必要があります。

📄 「大規模言語モデルXiao Ai」に「AI文書Q&A」機能が追加され、よりスマートな文書処理体験を提供します。

5、美图のAIビデオ修復新技術:速度が10倍向上、露出オーバーにも対応

ビデオ制作と画像処理分野の重要な技術の1つに、ビデオの「フリッカー除去」技術があります。BlazeBVDは、新しいフリッカー除去アルゴリズムであり、ビデオのフリッカー現象を迅速に除去するだけでなく、ビデオコンテンツの完全性と色の忠実度を維持します。その登場は、ビデオの後期制作方法に革命的な変化をもたらしました。

image.png

【AiBase要約:】

🔍 BlazeBVDは自動化されたビデオフリッカー除去技術であり、ビデオの時間的一貫性を効果的に向上させます。

⚙️ BlazeBVDは、スケール時間均衡法を使用してビデオフレームのヒストグラムを処理し、フリッカーと局所的な露出の変化を捉えます。

🚀 BlazeBVDは、グローバルおよびローカルフリッカー除去モジュール、適応時間的一貫性などで優れた効果を発揮し、速度は既存技術の10倍に達します。

詳細リンク:https://arxiv.org/html/2403.06243v1

6、百度の沈抖氏:大規模言語モデルの応用が爆発期に突入

2024中国联通パートナー大会で、百度集団執行副社長兼百度スマートクラウド事業群総裁の沈抖氏は、人工知能との深い連携、新たな生産力の加速的な発展に関する講演を行いました。沈抖氏は、人工知能がイノベーションの鍵となる技術であり、大規模言語モデルが人工知能の最前線であると強調し、大規模言語モデルの呼び出し量の指数関数的な増加を示しました。百度は企業との連携を通じて、基盤となるコンピューティングパワー管理プラットフォームの重要性を認識し、大規模言語モデルの迅速な反復をサポートする「百舸」コンピューティングパワープラットフォームを独自に開発しました。

【AiBase要約:】

🚀 大規模言語モデルの応用が爆発期に突入し、企業は単なるヒットアプリを待つのではなく、業務のあらゆる段階で大規模言語モデルを適用するようになっています。

💡 中国企業にとって、一雲多芯は必然的な選択肢となり、百度スマートクラウドは「百舸」コンピューティングパワープラットフォームを公開し、「チップの選択」の自由を共有します。

💻 百度は、文心大規模言語モデルに基づいて千帆ツールチェーンプラットフォームを開発し、大規模言語モデルの技術的ハードルと使用コストを削減し、千帆・業界強化版を発表して企業のイノベーションを加速させています。

7、Microsoft研究者によるSpreadsheetLLMプロジェクト

Microsoftの研究者たちは最近、SpreadsheetLLMという革新的な研究を発表しました。これは、大規模言語モデルがスプレッドシートの解析で直面する課題を解決することを目的としています。このプロジェクトは、一種のコーディングフレームワークを通じて、大規模言語モデルがスプレッドシートの内容を「理解」できるようにし、スプレッドシートのデータ管理と分析の効率を大幅に向上させ、ユーザーが複雑な数式や操作を習得することなく、自然言語でAIに質問できるようにすることを目指しています。

image.png

【AiBase要約:】

📊 大規模言語モデルに対するスプレッドシートの課題:スプレッドシートの構造は複雑で二次元レイアウトであり、大規模言語モデルが通常処理する線形入力の範囲を超えています。

🔍 SpreadsheetLLM技術の解析:Microsoftは、SheetCompressorとChain of Spreadsheetという2つのコア技術を提案し、大規模言語モデルによるスプレッドシートの理解能力を大幅に向上させました。

🛠️ Microsoft AIツールへの影響:SpreadsheetLLMは、Microsoft CopilotのExcelにおけるアプリケーション能力を強化する可能性がありますが、現在も生成データの正確性と計算リソースの消費という課題に直面しています。

詳細リンク:https://arxiv.org/html/2407.09025v1

8、Googleの2024年ハードウェアショー:Pixel 9、Gemini、新型折りたたみ式スマートフォン

Googleは、AppleのiPhone 16の発表に先駆けて、Pixel 9などの新製品を発表する大規模なハードウェアイベントを早期に開催します。Geminiが話題の中心となっており、新しいデバイスはAndroid分野のAI機能をリードするでしょう。Android 15は新しい機能とUIの調整をもたらし、Googleアシスタントの未来はまだ不透明です。Pixel Watch 3とPixel Buds Pro 2も登場する予定です。

【AiBase要約:】

📱 GoogleはAppleのiPhone 16に先駆けてPixel 9を発表します。

🌟 新しいデバイスはAndroid分野のAI機能をリードし、Geminiが話題の中心となっています。

🔍 Android 15は新しい機能とUIの調整をもたらし、Googleアシスタントの未来はまだ不透明です。

9、Arcee AIがオープンソース言語モデルArcee-Novaを発表:Qwen-2-72Bベース、GPT-4に匹敵する性能

Arcee AIが最近発表したオープンソース言語モデルArcee-Novaは、優れた性能を発揮し、GPT-4に匹敵するレベルに達しており、重要なマイルストーンであり、AIコミュニティに新たな希望をもたらします。Arcee-Novaは、Qwen-2-72B-Instructとカスタムチューニングモデルを組み合わせたもので、機能が充実しており、顧客サービス、コンテンツ作成、ソフトウェア開発、教育など、幅広い分野で活用されています。

image.png

【AiBase要約:】

🌟 Arcee-Novaは優れた性能を発揮し、GPT-4に匹敵するレベルに達しており、AIコミュニティに新たな希望をもたらします。

💡 Arcee-NovaはQwen-2-72B-Instructとカスタムチューニングモデルを組み合わせたもので、機能が充実しています。

📈 Arcee-Novaは、顧客サービス、コンテンツ作成、ソフトウェア開発、教育など、幅広い分野で活用されています。

詳細リンク:https://udify.app/chat/s3i0GX51Rwrb4XRm

10、日本のスーパーマーケットでAI笑顔監視システム導入

日本のスーパーマーケットチェーンAEONは、「Mr. Smile」というAI笑顔監視システムを導入し、従業員のサービス品質と顧客体験の向上を目指しています。このシステムはサービス態度向上に顕著な効果を上げている一方で、従業員の笑顔の自然さや顧客への嫌がらせといった問題も引き起こしており、議論と懸念を呼んでいます。マクドナルドの「0円笑顔」理念や福岡のスーパーマーケットの遅い会計レーンといった他の業界の取り組みと比較して、AEONの取り組みは様々な意見が寄せられています。

image.png

【AiBase要約:】

📈 AI笑顔監視システム:AEONの「Mr. Smile」システムは、450種類以上の要素を分析して従業員の笑顔とサービス態度を評価し、顧客体験の向上を目指しています。

🔍 議論と懸念:この技術は従業員への嫌がらせに対する懸念を引き起こしており、強制的な笑顔は従業員の負担を増大させる可能性があると指摘されています。

💡 業界比較:AEONはマクドナルドの「0円笑顔」理念と似ていますが、従業員の負担増加に関する批判に直面しています。福岡のスーパーマーケットの遅い会計レーンは好意的に評価されています。

11、格灵深瞳が視覚言語表現学習モデルRWKV-CLIPをオープンソース化

格灵深瞳は、RWKV-CLIPモデルをオープンソース化しました。これは、TransformerとRNNの長所を組み合わせた視覚言語表現学習器です。このモデルは、画像テキストペアの拡張データセットを使用して、ウェブサイトから取得した画像テキストペアを用いた画像テキスト事前学習タスクにより、視覚と言語のタスクのパフォーマンスを大幅に向上させました。研究チームは、多様な記述生成フレームワークを導入し、大規模言語モデルを使用して、ウェブベースのテキスト、合成字幕、検出ラベルからコンテンツを合成および洗練することで、ノイズデータの問題を解決し、データの質を向上させています。

【AiBase要約:】

🔍 このモデルはTransformerとRNNの長所を組み合わせ、画像テキスト事前学習タスクにより、視覚と言語のタスクのパフォーマンスを大幅に向上させました。

🔬 多様な記述生成フレームワークを導入し、大規模言語モデルを使用してコンテンツを合成および洗練することで、ノイズデータの問題を解決し、データの質を向上させています。

🚀 RWKV-CLIPモデルは入力強化において優れたパフォーマンスを示し、顕著な性能向上を実現し、複数のダウンストリームタスクで最先端の性能を達成しています。

詳細リンク:https://wisemodel.cn/models/deepglint/RWKV-CLIP

12、Neo4j LLMナレッジグラフAIジェネレーター:非構造化データをナレッジグラフに変換