【AI日報】へようこそ!ここは、人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットな話題をお届けし、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用に関する情報を提供します。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、Claude3.5SonnetモデルがPDFファイル処理機能を追加

Anthropic社が最近発表したClaude3.5Sonnetモデルは、PDFファイル処理機能を追加しました。ユーザーはこのモデルを使用して、画像、グラフ、表などのテキストと視覚要素を含むPDFドキュメントを分析できます。様々な場面で活用できます。

【AiBase要約:】

📄 Claude3.5SonnetモデルはPDFファイル処理機能を追加し、テキストと画像の分析に対応。

🖼️ 処理手順は、テキスト抽出、ページを画像への変換、総合分析の3段階。

💰 処理費用はドキュメントの長さと内容の密度によって異なり、ファイルサイズとページ数に制限があります。

2、OpenAIのo1モデルの完全版が登場:超強力な機能で20万トークンを処理可能

最近公開されたOpenAIのo1モデルについて解説します。このモデルはOpenAI最強のモデルと呼ばれ、大量のテキスト処理と画像分析能力を備え、高度な推論や創造的なタスクに最適です。完全版は今年後半にリリース予定で、AI業界で大きな注目を集めています。ユーザーはo1モデルの体験に期待を寄せています。

image.png

【AiBase要約:】

🌟 o1モデルは短期間公開され、約20万文字の処理と画像分析が可能。

🚀 OpenAIはこれを「最強のモデル」と呼び、高度な推論や創造的なタスクに適していると説明。

📅 完全版はまだ公開されておらず、今年後半のリリース予定。

3、ランダム生成に別れを告げる!Runwayが高度なカメラ制御機能を発表 まるで監督のようにレンズを操る

Runwayが最近発表した高度なカメラ制御機能により、ユーザーは仮想空間でのレンズの動きを監督のように制御できるようになり、AIビデオ制作に前例のない柔軟性と制御性をもたらします。水平移動、円形撮影、位置探索、ループ撮影など、様々な効果を実現し、創作の可能性を大きく広げます。この機能は、デジタルカメラの操作方法を変え、シームレスな遷移とシーン構成の強化を実現します。

【AiBase要約:】

🎥 ユーザーは監督のように仮想空間でのレンズの動きを正確に制御し、水平移動、円形撮影など様々な効果を実現。

🔍 速度変化を組み合わせたループ撮影機能により、目を引く視覚的なループやトランジションを作成し、創作の可能性を大きく広げます。

📽️ 高度なカメラ制御機能により、ユーザーはシーンと主題の表現方法を正確に制御し、視聴者を生き生きとした、まるで3Dのような世界へと誘います。

詳細リンク:https://top.aibase.com/tool/runway

4、有料ユーザーわずか60名超え、月収は3万元!オープンソースAIチャットツールLobeChatの収益モデルを解明

LobeChatチームは、オープンソースAIチャットツールLobeChatのクラウドサービスの公衆テストで初期の成果を収め、月収が3万元を超えました。しかし、有料化の転換率の低さが課題となっています。チームは、差別化された機能とサブスクリプションモデルの調整により問題解決を目指し、製品設計上の課題解決にも取り組むと約束しています。収益性の限界を認識し、MRR指標に注目して持続可能な発展を確保します。

image.png

【AiBase要約:】

📈 LobeChatクラウドサービスは月収が3万元を超え、有料ユーザー数は60名を超え、商業化の可能性を示唆。

🔍 有料化転換率は1%未満と低く、市場競争の激化と機能の差が原因と考えられる。

💡 LobeChatチームは差別化された機能の導入とサブスクリプションモデルの調整を行い、MRR指標に注目して持続可能な発展を目指します。

詳細リンク:https://lobechat.com/welcome

5、Diffusionモデルも「応用学習」が可能に?アリババIC-LoRAが画像生成モデルにプロット記憶能力を追加

アリババの通義实验室の最新の研究によると、既存のテキストから画像を生成するDiffusion Transformerモデルは、特定の関係を持つ複数の画像を生成する能力を備えています。IC-LoRAの活用により、モデルはさらに高度になり、少量のサンプルで新しいスキルを習得できます。研究者たちはシンプルで効果的なプロセスを設計し、Diffusionモデルの「コンテキスト学習」能力を活性化させ、AIモデルのトレーニングコストを大幅に削減し、より多くの人がAI創作に参加できるようにしました。IC-LoRAの登場は、AI画像生成分野における画期的な進歩であり、誰もがアーティストになれる時代が到来しました。

image.png

【AiBase要約:】

🔍 既存のテキストから画像を生成するDiffusion Transformerモデルは、特定の関係を持つ複数の画像を生成する能力を備えている。

🧠 IC-LoRAの活用によりモデルが高度になり、少量のサンプルで新しいスキルを習得可能。

💡 シンプルで効果的なプロセスにより、Diffusionモデルの「コンテキスト学習」能力が活性化。

詳細リンク:https://ali-vilab.github.io/In-Context-LoRA-Page/

6、ビデオ編集に革命を起こす!オープンソースツールComfyUI-MochiEditがビデオからビデオへの変換と部分編集に対応

まるでテキストを操作するようにビデオを編集できることを想像したことがありますか?今やそれが現実になりました。ComfyUI-MochiEditは、ComfyUIとGenmo Mochiをベースにしたオープンソースのビデオ編集ツールで、ビデオをノイズに変換し、ターゲットプロンプトでノイズを再サンプリングして新しいビデオを生成するという、全く新しいビデオ編集手法を提供します。この方法により、部分的な編集とビデオからビデオへの変換が可能になり、ユーザーはビデオ全体を処理することなく、ビデオの一部を簡単に修正できます。

【AiBase要約:】

⚙️ ビデオをノイズに変換して再サンプリングすることで、部分編集とビデオからビデオへの変換を実現。

🎨 入力ビデオを特定のスタイルや内容を持つ新しいビデオに変換可能。

🔧 ノードパラメーターを調整することで、最終的なビデオ効果を制御可能。

詳細リンク:https://github.com/logtd/ComfyUI-MochiEdit?tab=readme-ov-file#mochi-unsampler

7、AIブームが後押し!PythonがJavaScriptを抜きGitHubで最も人気のあるプログラミング言語に

PythonはGitHub開発者プラットフォームでJavaScriptを抜き、最も人気のあるプログラミング言語となりました。これは、生成AIブームが主な要因です。GitHubは、AIによってオープンソースプロジェクトのコード品質が低下したわけではなく、むしろAIプロジェクトへの貢献が増加したと指摘しています。開発者はAIモデルをツールチェーンに統合する傾向が高まり、小型で効率的なモデルとAIエージェントによる自動化に注目が集まっています。2024年に最も注目を集めたオープンソースAIプロジェクトは「ollama/ollama」であり、AI分野の急速な発展を示しています。

image.png

【AiBase要約:】

🌟 PythonがJavaScriptを抜き、GitHubで最も人気のあるプログラミング言語に。生成AIブームがその要因。

📈 生成AIプロジェクトへの貢献は59%増加、総数は98%増加し、AI分野の発展を促進。

🤖 GitHubはAIによってオープンソースプロジェクトのコード品質が低下したわけではなく、開発者は小型で効率的なモデルとAIエージェントによる自動化に強い関心を示している。

8、Metaの最新技術:Sparshがロボットに「人間レベル」の触覚を与え、巧みな操作が夢ではなくなる!

Meta FAIR研究所は最近、「Sparsh」と呼ばれる人工多モーダル指先触覚感知技術を発表しました。ロボットに人間に近い触覚感知能力を与え、ロボット操作分野に革命的な変化をもたらします。この技術は自己教師あり学習を採用し、46万枚以上の触覚画像を使用して事前学習を行い、様々な視覚触覚センサーに対応し、触覚感知タスクにおけるロボットのパフォーマンスを大幅に向上させます。発表されたSparshモデルは、AI触覚感知分野における大きなブレークスルーであり、将来、ロボットと物理世界の相互作用方法を変える可能性を秘めています。

【AiBase要約:】

🤖 Sparshモデルは自己教師あり学習を採用し、46万枚以上の触覚画像を使用して事前学習を行い、人工によるデータのラベル付けは不要。一般的な触覚表現を学習。

👆 SparshモデルはDIGIT、GelSight2017、GelSight Miniなど、様々な視覚触覚センサーに対応し、触覚感知タスクにおけるロボットのパフォーマンスを向上。

🌟 SparshモデルはTacBenchベンチマークテストプラットフォームで優れた性能を発揮し、力推定、スリップ検知などのタスクにおいて、わずか1%のラベル付きデータでも満足のいく結果を得ることが可能。

詳細リンク:

https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/464969941_1107633400780143_7479102347328147009_n.pdf?_nc_cat=103&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=y8Ui1HEw3BQQ7kNvgFe-ePu&_nc_zt=14&_nc_ht=scontent-sjc3-1.xx&_nc_gid=AeaFsuZziasVwPfMQsEoZqu&oh=00_AYAMqxGq0ATCySDxZWB0ZT8BgSkogYmj13c9f3ytVtkmSg&oe=672DEEE4

9、新しいオープンソースオーディオモデルHertz-Devが登場:超低遅延でAIリアルタイム会話を実現

現代のテクノロジーの波の中で、対話型AIは私たちの生活において重要な一部となっています。Standard Intelligence Labが発表したオープンソースオーディオモデルHertz-Devは、超低遅延のリアルタイム対話AIを実現し、人と機械のインタラクションに新たな希望をもたらします。

image.png

【AiBase要約:】

🌟 Hertz-Devは8.5億パラメーターのオープンソースオーディオモデルで、理論上の遅延はわずか80ミリ秒、実際の遅延は120ミリ秒と、リアルタイム対話体験を大幅に向上。

💡 独立系開発者や研究者は、大規模なハードウェアを必要とせずに、高度なリアルタイム対話AI技術を容易に使用可能。

🚀 Hertz-Devの幅広い応用は、顧客サポートやスマートホームなどの人工知能分野の発展を促進し、人と機械のインタラクションをより自然なものにします。

詳細リンク:https://github.com/Standard-Intelligence/hertz-dev

10、元小鵬幹部がAIコンパニオンロボット企業を設立、数千万元の資金調達に成功!

元小鵬ロボット製品設計責任者の孫兆治氏が設立した上海珞博智能科技有限公司は、数千万元規模のエンジェルラウンドの資金調達に成功しました。同社はAIコンパニオンロボット分野に特化し、「AIチャオワン(AI玩具)」を製品として位置づけ、デスクトップとウェアラブルの両方のシナリオに対応し、様々な革新的な機能を備えています。

【AiBase要約:】

🚀 珞博智能は業界投資家から数千万元規模のエンジェルラウンドの資金調達に成功。

💡 2024年1月に設立され、最初の製品は「AIチャオワン」として位置付けられ、最初の3つのプロトタイプ設計開発が完了。