小米はスマートホームソリューション「Xiaomi Miloco」を発表。大規模モデル技術を全屋スマート化に統合し、自然言語とシーン理解で複雑なユーザー要望に対応。音声指示でデバイスを自動調整し、インタラクション体験を向上。....
月の暗面がオープンソースのAIエージェントフレームワーク「Kosong」を発表。非同期ツール編成とプラグイン設計を採用し、Pythonで即時使用可能。開発者の自由度を大幅に向上させ、AI技術の最新動向を提供。....
ニューヨークのKaltura社は約2700万ドルをかけてイスラエルのスタートアップ企業eSelf.aiを買収しました。eSelfは会話可能なAI生成デジタル人間技術を開発する会社であり、その製品はKalturaの企業向け動画および学習ツールに統合されます。同社は2023年に設立され、創業チームは以前のベンチャー企業をSnapに売却した経験を持っています。
WeChat Payは「営業支払コード」の機能をリリースし、中小企業がこの機能を登録すると、WeChat内で簡単に支払いを行い、自動で精算でき、グループチャットの文章や技術開発のガイドラインも提供され、日常の営業プロセスを簡素化し、効率を向上させます。
AI技術を使ってファッション製品の画像と動画を生成し、EC販売を向上させます。
AI技術で駆動される中小企業向けのランディングページ構築ツールで、コーディングスキルは不要で、自動的にコンバージョン率を最適化します。
AI技術を使用してソーシャルメディアコンテンツを自動化し、真のエンゲージメントを向上させ、受信者を増やします。
UshurはAI自動化企業で、人工知能技術を利用して顧客体験を向上させ、業務プロセスを簡素化し、パーソナライズされた対話と統合によってサービスを強化しています。
NiryoTeam
SmolVLAはコンパクトで効率的な視覚言語行動モデルで、計算コストを削減しながら競争力のある性能を実現し、消費者向けハードウェアにデプロイすることができます。このモデルはLeRobotによってトレーニングされ、ロボット技術タスク向けに設計されています。
BUT-FIT
SE-DiCoWは、BUT Speech@FITがJHU CLSP/HLTCOEおよびCMU LTIと共同開発した、ターゲット話者の多話者自動音声認識モデルです。このモデルはWhisper large-v3-turboをベースに、自己登録メカニズムと改良されたデータ拡張技術により、高度に重畳した多話者シナリオでの認識精度を大幅に向上させています。
GeniusJunP
SmolVLAはコンパクトで効率的な視覚-言語-行動モデルで、計算コストを削減しながらも競争力のある性能を維持でき、消費者向けハードウェアに適しています。このモデルはLeRobotフレームワークを使用してトレーニングされ、ロボット技術タスクに特化して最適化されています。
brandonbeiler
これはOpenGVLab/InternVL3_5-8Bのfp8動的(w8a8)量子化バージョンで、vLLMの高性能推論に対して最適化されています。FP8動的量子化技術を採用し、ビジュアル理解能力を維持しながら、メモリ使用量を大幅に削減し、推論速度を向上させます。
これはInternVL3_5-GPT-OSS-20B-A4B-PreviewモデルのFP8動的量子化バージョンで、w8a8技術を用いて最適化され、vLLMに特化した高性能推論デプロイが可能です。このモデルは、視覚言語理解能力を維持しながら、推論速度とメモリ効率を大幅に向上させています。
これはOpenGVLab/InternVL3_5-30B-A3Bのfp8動的(w8a8)量子化バージョンで、vLLM高性能推論に最適化されており、FP8動的量子化技術を採用しており、メモリ使用量が約50%削減され、推論速度が大幅に向上します。
nvidia
Cosmos-Predict2.5はNVIDIAが開発した、物理AI向けに設計された高性能の事前学習済み世界基礎モデルセットです。拡散モデル技術に基づいており、テキスト、画像、またはビデオの入力に基づいて、物理的な知覚を持つ高品質の画像とビデオを生成することができ、自動運転やロボットなどのアプリケーションに世界シミュレーション能力を提供します。
unsloth
Gemma 3nはGoogleが開発した軽量で最先端のマルチモーダルオープンモデルで、Gemini技術をベースに構築されています。低リソースデバイス向けに設計され、テキスト、画像、ビデオ、音声の入力をサポートし、テキスト出力を生成します。選択的パラメータ活性化技術を採用し、4Bパラメータ規模で効率的に動作します。
moojink
OpenVLA - OFTはOpenVLAモデルを最適化した視覚 - 言語 - 動作モデルで、微調整技術を通じてLIBEROタスクセット上で実行速度と成功率を大幅に向上させました。
lerobot
π0+FASTはロボット技術向けの効率的な動作トークン化スキームで、Physical Intelligenceによって設計され、視覚-言語-動作タスクに適しています。
stanfordnlp
MrT5はByT5の効率的な改良版で、動的トークン統合技術により入力シーケンス長を短縮し、処理効率を向上させます。
jeffmeloy
Qwen2.5-7Bに基づく最適化層結合(OLM)モデルで、自動化層再構成技術により性能を向上させます。
OpenVLA-OFT は、ロボットタスク用に設計された最適化されたビジュアル - 言語 - 動作モデルで、微調整技術により速度と成功率が向上しています。
OpenVLA-OFTは最適化された視覚 - 言語 - 動作モデルで、微調整技術により基礎となるOpenVLAモデルの性能と速度を大幅に向上させています。
OpenVLA-OFTは最適化された視覚 - 言語 - 動作モデルで、微調整技術により速度と成功率が大幅に向上しています。
OpenVLA - OFTは最適化された視覚 - 言語 - 動作モデルで、微調整技術により基礎となるOpenVLAモデルの実行速度とタスク成功率を大幅に向上させています。
DeepSeek-R1はLlamaアーキテクチャに基づく8Bパラメータ推論モデルで、1.58ビット+2ビット動的量子化技術を採用し精度を向上
Vision-CAIR
LongVUは長尺動画コンテンツを効率的に処理し、言語理解能力を向上させるための時空間適応圧縮技術です。
LongVUは長動画の言語理解に向けた時空間適応圧縮技術で、長動画コンテンツを効率的に処理することを目的としています。
openvla
これはLIBERO-ObjectデータセットでLoRAを使用して微調整されたOpenVLA 7B視覚-言語-動作モデルで、ロボット技術向けに設計されています。
n8nは、技術チーム向けのワークフロー自動化プラットフォームで、コードの柔軟性とノーコードの速度を兼ね備え、400以上の統合、ネイティブAI機能、公正なコードライセンスを提供し、自ホストまたはクラウドデプロイをサポートします。
GCPの自助型オーディットツールキットで、MCP技術を用いてリソースレポートを自動生成し、クラウド環境の管理効率を向上させます。
ミームコインオブザーバトリーMCPは、ソラナブロックチェーンを対象とした総合的な分析サーバーで、ミームコインのリアルタイムの動向、市場トレンドを追跡し、AI技術を通じて投資アドバイスとセキュリティスキャンを提供します。
チャック・ノリスMCPサーバーは、大規模言語モデル向けの強化プロンプトツールで、動的モード適応技術を採用してセキュリティ制限を回避し、主にセキュリティ研究と評価目的で使用されます。
これは石油天然ガス産業向けのMCP + RAG概念実証プロジェクトで、スマートルーティングによってユーザーのクエリを自動的に正しい領域サービス(掘削、生産、調達など)に配信し、ハイブリッド検索技術を組み合わせて文書から正確な情報を取得し、引用付きの回答を提供し、ドメインをまたがるデータの迅速かつ統一的なアクセスを実現します。
Geeker - Adminは、Vue3.4、TypeScriptなどの最新技術スタックをベースに開発された管理画面フレームワークで、ProTable、動的ルート、権限管理などの豊富なコンポーネントと機能を提供し、開発効率を大幅に向上させます。
Karakeep(旧称Hoarder)は、自ホスト型の万能ブックマークアプリで、データ収集家向けに設計されています。AI技術を組み合わせて、リンク情報の自動取得、スマートタグ、OCRなどの機能を備え、多プラットフォームのプラグインとモバイルアプリをサポートしています。