【AI日報】へようこそ!ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野の注目ニュースを紹介し、開発者に焦点を当て、技術のトレンドを理解し、革新的なAI製品アプリケーションをご紹介します。新鮮なAI製品についてはこちらから:https://app.aibase.com/zh1、字節跳動がLance3Bをオープンソース化:一つのモデルで画像とビデオの理解と生成を同時に行う
OpenAIは5月22日にChatGPT for PowerPointプラグイン(ベータ版)を発表しました。このプラグインはAIをPowerPointの下部構造に統合し、誰でも無料で簡単に利用できるようにします。ユーザーは有料不要で、スライド作成においてAIの支援を得ることができ、従来のPPT作成の面倒なプロセスを終わらせます。
Spotifyはユニバーサル・ミュージックグループと歴史的戦略的ライセンス協定を締結し、プレミアム有料ユーザーが生成型AI技術を使用して楽曲を合法的にカバーすることができることになりました。これはストリーミングプラットフォームがAI音楽制作を正式に規範化し、ファンエコシステムに新たなルールを確立したことを示しています。
智譜がGLM-5.1高速版APIを発表、出力速度は400トークン/秒に達し、世界の大規模モデルAPI速度記録を更新。速度とサイズの両立が不可能という業界の認識を打破した。....
無料でテキストからAIアート画像を生成します。4K対応、無水印、高速生成、Pro版にアップグレード可能です。
OpenMusic AIを使って独自の無版権音楽を生成して、あらゆるプロジェクトにご活用ください。
Windsurf Wave 3は、開発者体験の向上に特化したAIエディターのアップデート版です。
ワンクリックでプレゼンテーション資料を作成
Xai
$1.4
入力トークン/百万
$3.5
出力トークン/百万
2k
コンテキスト長
Openai
-
Google
$0.7
$2.8
1k
Anthropic
$7
$35
200
$2.1
$17.5
$21
$105
Alibaba
$1
$10
256
Baidu
128
$4
$16
$3.9
$15.2
64
Bytedance
$0.8
$2
32
Deepseek
$12
Tencent
TheStageAI
TheWhisper-Large-V3-Turboは、OpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォームのリアルタイム、低遅延、低消費電力の音声テキスト変換推論に最適化されています。ストリーミング文字起こし、単語のタイムスタンプ、拡張可能なパフォーマンスをサポートし、リアルタイム字幕、会議、デバイス端末の音声インターフェイスなどのシーンに適しています。
TheWhisper-Large-V3はOpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォーム(NVIDIA GPUとApple Silicon)のリアルタイム、低遅延、低消費電力の音声テキスト変換推論用に最適化されています。
mlx-community
GLM-4.5-Air-8bitは、智譜AIのGLM-4.5-Airモデルから変換された8ビット量子化バージョンで、MLXフレームワーク用に特別に最適化されています。このモデルは、オリジナル版の強力な自然言語処理能力を維持しながら、量子化技術によってメモリ使用量と計算要件を削減し、Apple Siliconデバイスで効率的に動作するのに適しています。
unsloth
MedGemmaは、Googleによって開発された医療シーン向けに最適化されたAIモデルシリーズで、4Bのマルチモーダル版と27Bの純テキスト版の2つのバージョンがあります。Gemma 3アーキテクチャに基づいており、医療テキストと画像理解タスクで優れた性能を発揮し、医療AIアプリケーション開発を効果的にサポートします。
THUDM
GLM-4-9Bは、智譜AIが発表したGLM-4シリーズの最新世代の事前学習モデルのオープンソース版で、意味論、数学、推論、コード、知識などのデータセット評価で優れた性能を発揮し、多言語対応などの先進的な特性を備えています。
zai-org
GLM-4-9Bは、Zhipu AIが発表したGLM-4シリーズの最新世代の事前学習モデルのオープンソース版です。意味論、数学、推論、コード、知識などのデータセット評価で優れた性能を発揮し、多言語とさまざまな高度な機能をサポートしています。これには、ウェブブラウジング、コード実行、カスタムツール呼び出し、長文推論などの機能が含まれます。
stabilityai
AMD Ryzen™ AI最適化版SDXL-Turbo、世界初のBlock FP16フォーマット採用テキスト生成画像モデル、AMD XDNA™ 2 NPU専用設計
shuttleai
Shuttle 3.1 美学版は、テキストから4~6ステップで詳細で美しい画像を生成するAIモデルです。
DeZoomer
AI-Toolkit(Flux.1開発版)でトレーニングされたLoRAモデルで、人物キャラクターの特徴を高精度に再現することに特化
AI-Toolkit (Flux.1開発版)でトレーニングされたテキスト生成画像モデル。20枚の公開画像を使用したローカルトレーニングで、キャラクター特徴の再現に特化しています。
AI-Toolkit(Flux.1開発版)を基に訓練されたLoRAモデルで、高精度な人物キャラクターの特徴再現に特化しています。
GLM-4-9B-Chatは、智譜AIが提供するGLM-4シリーズの最新の事前学習モデルのオープンソース版です。意味論、数学、推論、コード、知識などのデータセット評価で優れた性能を発揮し、マルチラウンド対話、ウェブブラウジング、コード実行などの高度な機能をサポートし、多言語と長文脈推論もサポートしています。
GLM-4-9Bは智譜AIが発表したGLM-4シリーズの最新世代事前学習モデルのオープンソース版で、優れた意味理解、数学、推論、コード、知識能力を備えています。
LumiOpen
Poro 34Bチャット版はPoro 34Bを微調整したインストラクションフォローモデルで、フィンランド語と英語のバイリンガルインタラクションをサポートし、Silo AI、TurkuNLPグループ、HPLTが共同開発しました。
ahxt
LiteLlamaはMeta AIのLLaMa 2の簡素化版で、4.6億パラメータのみを含み1兆トークンで訓練されたオープンソース言語モデル
このシリーズのリポジトリではMeta AIのLLaMAとLLaMA 2大規模言語モデルを再現していますが、モデル規模は大幅に縮小されており、llama1_s実験版は18億パラメータ、llama2_xs実験版はわずか4.6億パラメータです。
openlm-research
OpenLLaMAはMeta AIのLLaMAモデルのオープンソース再現版で、Apache 2.0ライセンスで公開されており、3B/7B/13Bのパラメータ規模を含みます
OpenLLaMAはMeta AIのLLaMA大規模言語モデルのオープンソース再現版で、30億、70億、130億パラメータの事前学習モデルを提供
nicholasKluge
Aira-2はAira命令チューニングシリーズの第二版で、GPT-2ベースのポルトガル語命令チューニングモデルであり、テキスト生成と対話タスクに適しています。
OpenLLaMAはMeta AIのLLaMA大規模言語モデルのオープンソース再現版で、3B、7B、13Bパラメータ規模の事前学習モデルを提供
MCPサーバープロジェクトで、AIアシスタントがmacOS版ChatGPTデスクトップアプリと対話でき、アプリ間のコマンド送信と応答取得を実現します。
Graphiti MCP Serverは、AIエージェントが動的環境で時間感知型の知識グラフを構築およびクエリするための拡張版の知識グラフフレームワークです。MCPプロトコルを通じてコア機能を公開し、ユーザーの対話、企業データ、外部情報の継続的な統合をサポートし、増分更新、効率的な検索、正確な履歴クエリ機能を提供します。
ブラウザー自動化によってOneNoteウェブ版とのインタラクションを実現するMCPサーバーで、AIアシスタントが共有ノートブックをプログラムで操作できるようにします。
TypeScriptベースのMCPサーバーで、WebSocket接続を通じてMinecraft基岩版を制御し、プレイヤー制御、世界操作、建築ツールなどの機能を提供し、MCPクライアントとの統合をサポートしてAI自動化を実現します。
TypeScriptベースのMCPサーバーで、WebSocket接続を介してMinecraftベッドロック版を制御し、プレイヤー操作、ワールド管理、建築ツールなどの機能を提供し、AIによる自動操作に対応しています。
Agentipy MCP Serverは、Claudeデスクトップ版用に設計されたモデルコンテキストプロトコルサーバーで、標準化されたインターフェースを通じてAIエージェントがSolanaブロックチェーンとやり取りできるようにし、残高照会、トランザクション実行、価格予測、クロスチェーンブリッジなど、豊富なブロックチェーンツール機能を提供します。
Ahrefs MCPは、Claudeデスクトップ版や他の互換性のあるAIアシスタントをAhrefsサービスに接続するためのモデルコンテキストプロトコルサーバーです。
Claudeデスクトップ版とKali Linuxのセキュリティツールを接続するMCPサーバーで、AI支援型浸透テストの開発キット
Microsoft MCP Server for Enterpriseは、Model Context Protocolに基づくパブリックプレビュー版のサーバーで、AIエージェントが自然言語クエリを通じてMicrosoft Entraデータにアクセスし、それをMicrosoft Graph API呼び出しに変換できます。開発者とIT管理者が組織のデータ管理をAIワークフローに統合するのを支援することを目的としています。
NextChatのカスタマイズ版で、チャットでの対話を通じてMCPサーバーを作成およびデプロイし、OpenRouterのLLMモデルを統合し、ツール抽出、ワンクリックデプロイ、AIシステム統合ガイド機能を提供します。
素晴らしいMCP FastAPIは、FastAPIフレームワークに基づいて実装された強化版のモデルコンテキストプロトコル(MCP)サービスです。強力なツール登録機能と自動ドキュメント生成を提供し、FastAPIの成熟したエコシステムを利用して高性能なAIツールの統合を実現します。
OmniFocus MCPエンハンス版はAI駆動の生産性ツールで、ネイティブのカスタムビューアクセス、階層型タスク管理、スマートなフィルタリングなどの機能を提供し、Claude AIと深度統合してスマートなワークフローを実現します。
これは、Python版のMySQL MCPサーバーをJavaで実装したプロジェクトで、安全なMySQLデータベースインタラクションインターフェイスを提供し、AIアシスタントが制御された方法でデータベースリソースにアクセスできるようにします。
Msty Admin MCPは、Msty Studioデスクトップ版2.4.0以上用に設計されたAI駆動のシステム管理ツールで、Claude Desktopを通じて155のツールを提供し、データベースクエリ、設定管理、ローカルAIモデルのオーケストレーション、階層型AIワークフローの構築などの機能を実現します。
HWPX MCPサーバーのエンハンスド版は、クロスプラットフォームのAI文書編集ツールで、MCPプロトコルを通じてHWPX形式の韓国語文書を自動的に読み書きおよび編集できます。元のプロジェクトの重要なバグを解決し、入れ子の表、Mermaidダイアグラムなどの高度な機能を追加しています。
MCP Neo4j知識グラフメモリサーバーは、Neo4jグラフデータベースに基づく強化版メモリストレージシステムで、AIアシスタントに高性能な知識グラフの保存と検索機能を提供します。
Letta MCPサーバー鉄道版は、クラウドデプロイ用に最適化されたHTTPトランスポートMCPサーバーで、AIクライアントをLetta.aiの強力な状態エージェントにシームレスに接続し、鉄道プラットフォームへのワンクリックデプロイをサポートし、20以上のエージェント管理、対話、メモリ管理、および監視ツールを提供します。
Claude AI用に設計されたPython版MCPサーバープロジェクトで、AIがコードを自作する能力をテストします。完全なプロジェクト構造と開発規範が含まれています。
Vibe Coder MCP Server v4は最終安定版で、自動コンテキスト検索システム(ACRS)を導入し、コンテキストメモリ、高度なキャッシュ、意味検索、および順序思考機能を提供し、AIアシスタントの能力を強化します。
AIエージェントに専用の「think」ツールを提供する簡易版のMCPサーバーで、複雑なタスクで構造化された思考プロセスを記録するために使用され、外部の状態変更や情報取得は行いません。