元メタエンジニアのケイブ・リーアクが、9ポンドの子犬モモを使ってClaude Codeで完全なゲームを開発することに成功しました。レピーパイ5のブルートゥースキーボードに接続し、子犬のランダムなタイプが「DogKeyboard」プログラムによって有効なコード入力に変換され、AIプログラミングの門檻のさらなる低下とユーモラスな応用の可能性を示しました。
【AI日報】へようこそ!毎日の人工知能世界を探索するためのガイドです。毎日、AI分野の注目ニュースをお届けし、開発者に焦点を当て、技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。新規のAI製品については、以下より詳細をご覧ください:https://app.aibase.com/zh1、GoogleGeminiAppの大規模アップデート!淘宝閃購のハードコアな新しい基準への対応についての記事では、淘宝閃購が市場監督総局が発表した「オンライン飲食サービス業者が食品安全を実施するための規定」に積極的に対応していることが指摘されています。
マイクロソフトはAIシステムであるCopilot Tasksをリリースしました。このシステムはクラウドを通じて自動化され、ローカルリソースを占有しません。ユーザーは自然言語による指示を出せば、アプリケーションを跨いでタスクを処理でき、業務効率を向上させます。
春節期間中、メイドAIガーディアン「ショーコン」は若者の帰省においてサイバーアシスタントとして活躍し、検索ツールから意思決定の脳へと進化し、ソーシャル方式を再構築し、実店舗経済に集客を促しました。その膨大なデータ処理を通じて、正確な現実的な消費情報を確認し、オンラインでの意思決定とオフライン体験を結びつけ、消費の回復を推進しています。
個人用AIライティングツールキットで、どのMacアプリ内でも使用でき、コピー&ペーストする必要はありません。
無料で無限のAIキャラクターとチャットでき、様々なタイプのキャラクターやインタラクティブなストーリーがあります。
ToolSpendは複数のサプライヤーをまたいでAI支出を追跡し、無駄をなくし、コストのトレンドをリアルタイムで確認することができます。
Grok Imagine 2.0は無料のオンラインAIビデオ生成ツールで、Auroraモデルによって駆動され、テキストをビデオに変換します。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
128
$2
$20
$4
$16
DakkaWolf
Trouper-12B GGUFは、DarwinAnim8orによってオリジナルモデルを基に開発されたテキスト生成モデルで、ロールプレイングやクリエイティブライティングのシナリオに特化して最適化されています。このモデルはMistral-Nemo-Base-12Bから微調整され、カスタムの「Actors」データセットを使用して訓練されており、生成されるテキストはより自然で、一般的な「AI言語」の特徴を避けています。
allenai
Olmo 3は、Allen Institute for AI (Ai2)によって開発された全く新しい32Bパラメータの言語モデルファミリーで、Base、Instruct、Thinkなどのバリエーションが含まれています。このモデルはDolma 3データセットを基に訓練され、65,536の長文脈処理をサポートし、言語モデル科学の発展を推進することを目的としています。モデルは完全にオープンソースで、Apache 2.0ライセンスに従っています。
DevQuasar
これはNVIDIAがQwen3アーキテクチャに基づいて開発した32Bパラメータの報酬モデルで、強化学習における報酬評価と原則アライメントに特化しており、より安全で人間の価値観に沿ったAIシステムのトレーニングを支援します。
TheStageAI
TheWhisper-Large-V3-Turboは、OpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォームのリアルタイム、低遅延、低消費電力の音声テキスト変換推論に最適化されています。ストリーミング文字起こし、単語のタイムスタンプ、拡張可能なパフォーマンスをサポートし、リアルタイム字幕、会議、デバイス端末の音声インターフェイスなどのシーンに適しています。
TheWhisper-Large-V3はOpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォーム(NVIDIA GPUとApple Silicon)のリアルタイム、低遅延、低消費電力の音声テキスト変換推論用に最適化されています。
nineninesix
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速、高音質のテキスト音声変換モデルです。2段階パイプラインを用いて、大規模言語モデルと高効率オーディオコーデックを組み合わせ、卓越した速度とオーディオ品質を実現します。このモデルはスペイン語をサポートし、4億のパラメータを持ち、サンプリングレートは22kHzです。
KaniTTSは、リアルタイム対話型人工知能アプリケーション向けに最適化された高速かつ高忠実度のアラビア語テキスト音声変換モデルです。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度とオーディオ品質を実現し、対話型AI、障害者支援、研究など多くの分野の音声合成ニーズを満たすことができます。
Daemontatox
Zirel-3は、GLM - 4.5 - Air - REAP - 82B - A12Bをベースにした特定の微調整モデルで、REAP(ルーティング重み付きエキスパート活性化剪定)技術を用いて圧縮された820億パラメータの混合エキスパートモデルです。高性能を維持しながら、モデルサイズを大幅に削減しています。
nvidia
NVIDIA GPT-OSS-120B Eagle3は、OpenAIのgpt-oss-120bモデルをベースに最適化されたバージョンで、ハイブリッドエキスパート(MoE)アーキテクチャを採用し、総パラメータ数が1200億、アクティブなパラメータ数が50億です。このモデルは商用および非商用の使用をサポートし、テキスト生成タスクに適しており、特にAIエージェントシステムやチャットボットなどのアプリケーション開発に適しています。
unsloth
ApertusはスイスのAIによって開発された完全にオープンな多言語大規模言語モデルで、70億と80億の2種類のパラメータ規模を提供します。このモデルは1000種類以上の言語をサポートし、完全にコンプライアンスでオープンな学習データを使用し、その性能はクローズドソースモデルに匹敵します。Apertusは15Tのトークンで事前学習され、段階的なコース学習方法を採用し、最大65,536トークンのコンテキスト長をサポートします。
redponike
ApertusはスイスのAIによって開発された完全にオープンな多言語大規模言語モデルで、パラメータ規模は80億と700億で、1000種以上の言語と長文脈処理をサポートし、完全にコンプライアンスの取れたオープンな学習データのみを使用し、性能はクローズドソースモデルに匹敵します。
Ashmotv
animat3d_style_wan-loraは、OstrisによるAIツールキットを基にトレーニングされたLoRAモデルで、テキストからビデオへの生成に特化しており、画像生成に独特な3Dアニメーションスタイルの効果をもたらします。このモデルはWan2.2 - T2V - A14Bベースモデルを基に微調整されており、複数の主流のAIプラットフォームで使用できます。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。2段階のパイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度と音質を実現し、複数の言語をサポートし、エッジ/サーバーデプロイメントに適しています。
zai-org
GLM-4.6は智譜AIが発表した次世代のテキスト生成モデルで、GLM-4.5と比較して、文脈処理、コード化性能、推論能力などの面で著しい向上を実現し、200Kの文脈長をサポートし、より強力なエージェント能力と洗練されたライティング能力を備えています。
neuphonic
NeuTTS Airは世界初の即時音声クローン機能を備えた超リアルな端側テキスト読み上げ(TTS)言語モデルです。0.5Bパラメータの大規模言語モデルの骨格をベースに構築され、ローカルデバイスに自然な音声、リアルタイム性能、組み込みセキュリティ、話者クローン機能をもたらします。
NeuTTS Airは、即時音声クローニング機能を備えた世界初の超リアルなデバイス端テキスト音声変換モデルです。0.5Bパラメータの大規模言語モデルの骨格をベースに構築され、ローカルデバイス上で自然な音声生成、リアルタイム性能、話者クローニング機能を実現します。
geoffmunn
これはQwen/Qwen3-0.6B言語モデルのGGUF量子化バージョンで、6億のパラメータを持つコンパクトな大規模言語モデルで、低リソースデバイスでの超高速推論用に設計されています。llama.cpp、LM Studio、OpenWebUI、GPT4Allなどのフレームワークをサポートし、どこでもオフラインでプライベートAIを使用できます。
samunder12
Llama 3.1 8B Instructをベースに微調整されたGGUF量子化モデルで、強勢的で断固とした、かつ挑発的なAIのキャラクター設定を持ち、ロールプレイングやクリエイティブなライティングシーンに最適化されており、CPUまたはGPUでのローカル推論をサポートしています。
gabriellarson
Foundation-Sec-8B-Instructは、ネットワークセキュリティアプリケーション向けに設計された80億パラメータの指令微調整言語モデルです。Llama-3.1-8Bアーキテクチャに基づいており、優れた指令追従能力とネットワークセキュリティの専門知識を備え、ローカルデプロイメントをサポートしています。これにより、組織はAIセキュリティツールを構築し、クラウドサービスへの依存を減らすことができます。
Keltezaa
AiGirl_IIは、black-forest-labs/FLUX.1-devをベースに構築されたテキストから画像を生成するモデルで、LoRA技術とDiffusersライブラリを組み合わせて、特定のスタイルの画像を生成するために特別に設計されています。このモデルはCC BY-NC-ND 4.0ライセンスを採用しており、非商用用途に適しています。
Einoは、Golang用に設計されたLLMアプリケーション開発フレームワークで、シンプルで拡張可能で信頼性が高く効率的なコンポーネント抽象化と編成機能により、AIアプリケーションの開発プロセスを簡素化することを目的としています。豊富なコンポーネントライブラリ、強力なグラフ編成機能、完全なストリーム処理サポート、および高度に拡張可能なアスペクトメカニズムを提供し、開発からデプロイまでの全サイクルのツールチェーンを網羅しています。
Inbox Zeroは、オープンソースのAIメールアシスタント兼クライアントで、ユーザーが効率的にメールを管理し、受信トレイをゼロにするのを支援します。
Refact AgentはオープンソースのAIプログラミングアシスタントで、多言語のコード生成、デバッグ、最適化をサポートし、主流の開発ツールと統合し、ローカルにデプロイでき、スマートなコード補完とコード解釈機能を提供します。
Scraplingは適応型ウェブページのスクレイピングライブラリで、ウェブサイトの変化を自動的に学習し、要素を再配置します。複数のスクレイピング方法とAI統合をサポートし、高性能な解析と開発者に優しい体験を提供します。
Haiku RAGは、LanceDB、Pydantic AI、Doclingを基盤とした高度な検索強化生成システムです。ハイブリッド検索、再ランキング、質問応答エージェント、多エージェント研究プロセスをサポートし、ローカルファーストのドキュメント処理とMCPサーバー統合を提供します。
UnityMCPはUnityエディターのプラグインで、モデルコンテキストプロトコル (MCP) を実装し、UnityとAIアシスタントのシームレスな統合を提供します。リアルタイムの状態監視、リモートコマンドの実行、ログ機能が含まれます。
Genkitは、AI駆動のアプリケーションを構築するためのオープンソースフレームワークで、Node.jsとGoのライブラリを提供し、複数のAIモデルとベクトルデータベースの統合をサポートし、開発ツールとプラグインエコシステムを含んでいます。
OpenDiaはオープンソースのブラウザ拡張ツールで、AIモデルが直接ユーザーのブラウザを制御でき、既存のログイン状態、ブックマークなどのデータを利用して自動化操作を行います。複数のブラウザとAIモデルをサポートし、プライバシー保護に配慮しています。
XcodeBuild MCPは、AIアシスタントとMCPクライアントにXcode関連のツールを統合するサーバーで、Xcodeプロジェクト管理、シミュレーター制御、アプリユーティリティなどの機能をサポートし、開発プロセスの自動化を実現します。
Cogneeは、AIエージェントに記憶機能を提供するオープンソースプロジェクトです。モジュール化されたECLパイプラインを通じて動的な知識グラフを構築し、複数のデータソースと形式をサポートし、幻覚を減らし、コストを削減します。
OpenSumiは、AIネイティブのIDE製品を迅速に構築するのに役立つフレームワークで、クラウドとデスクトップの開発環境をサポートし、豊富なサンプルプロジェクトとテンプレートを提供します。
hyper - mcpはWebAssemblyプラグインに基づく高性能MCPサーバーで、コンテナレジストリを通じたプラグイン配布をサポートし、さまざまなAIアプリケーションシーンに適しています。
ArXiv MCP Serverは、AIアシスタントとarXiv研究ライブラリをつなぐ橋渡しの役割を果たし、MCPプロトコルを通じて論文の検索と内容へのアクセス機能を実現します。
MCPアトラシアンは、アトラシアンの製品(ConfluenceとJira)用に設計されたモデルコンテキストプロトコルサーバーで、クラウドとオンプレミスの両方のデプロイをサポートし、AIアシスタントの統合機能を提供します。
MCP Unityは、Model Context Protocolを実装したUnityエディター拡張で、Node.jsサーバーを通じてAIアシスタントとUnityプロジェクトのインタラクションを橋渡しし、メニュー実行、オブジェクト選択、コンポーネント更新などの機能を提供します。
Claude ContextはMCPプラグインで、セマンティックコード検索によりAIプログラミングアシスタントにコードベース全体の深いコンテキストを提供し、複数の埋め込みモデルとベクトルデータベースをサポートし、効率的なコード検索を実現します。
Context7 MCPは、AIプログラミングアシスタントにリアルタイムのバージョン固有のドキュメントとコード例を提供するサービスで、Model Context Protocolを通じてプロンプトに直接統合され、LLMが古い情報を使用する問題を解決します。
Kubectl MCPツールは、Model Context Protocol (MCP)に基づくKubernetesインタラクションツールで、AIアシスタントが自然言語でKubernetesクラスターと対話できるようにします。
NotteはオープンソースのフルスタックネットワークAIエージェントフレームワークで、ブラウザセッション、自動化されたLLM駆動エージェント、ウェブページの監視と操作、資格情報管理などの機能を提供し、インターネットをエージェントに優しい環境に変え、自然言語でウェブサイトの構造を記述することでLLMの認知負荷を軽減することを目的としています。
GitKraken CLIはコマンドラインツールで、複数のリポジトリのワークフロー管理、AIによるコミットメッセージとプルリクエストの生成を提供し、Git、GitHub、Jiraなどのツールを統合するためのローカルMCPサーバーを含んでいます。