Meta AIは、PDF文書をMultiMarkdownに変換し、複雑な数式も正確に認識・変換できるOCRツール「Nougat」を発表しました。
Nougatは、スキャンしたテキストや表も処理し、正確なフォーマットの文書を生成します。学術研究者にとって朗報と言えるこのツールは、学術論文の閲覧や処理効率を大幅に向上させます。
Meta AIは、PDF文書をMultiMarkdownに変換し、複雑な数式も正確に認識・変換できるOCRツール「Nougat」を発表しました。
Nougatは、スキャンしたテキストや表も処理し、正確なフォーマットの文書を生成します。学術研究者にとって朗報と言えるこのツールは、学術論文の閲覧や処理効率を大幅に向上させます。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
Stability-AIが新たな3D再構築モデル「SPAR3D」を発表。単一画像から0.7秒で3D再構築可能。点群生成とメッシュ化の2段階アーキテクチャを採用し、従来手法を上回る精度を実現。オープンソース化され、3D分野に革新をもたらす。....
【AIニュース速報】本日のAI分野では複数の進展がありました。1) 月の暗面がKimiオープンプラットフォームにPlaygroundをリリースし、AIを対話アシスタントからスマートアシスタントへとアップグレードしました。2) OpenAIがタスクを自動的に実行できるChatGPT Agentを発表しました。3) Suno v4.5+がボーカル置換などの革新的な音楽機能を導入しました。4) グーグルがVeo3動画生成モデルのAPIを公開しましたが、コストは高めです。5) 最初のリアルタイムビデオ変換AIモデルMirageLSDが登場しました。6) VSC
テスラは新世代のDojo2チップを発表しました。性能は初代の10倍に向上し、演算能力はインテルB200に近づきました。このチップは台湾積電によって製造され、高度なパッケージング技術を採用しており、消費電力などの問題を解決しています。Dojo2はテスラのFSD自動運転システムのトレーニングをサポートし、毎日1600億フレームのビデオデータを処理し、技術の自給自足を実現します。マスク氏は来年にはさらに強力なDojo3を発表すると明らかにし、ドジョー2は1秒間に10億フレームで『Crysis』を動作させられると冗談を言いました。この突破により、テスラがインテルへの依存を減らし、外部にも提供する可能性があります。
Suno AI音楽生成モデルv4.5+が3つの新機能を追加:「Add Vocals」でボーカル追加、「Add Instrumentals」で伴奏自動生成、「Inspire」でプレイリストからインスピレーション取得。音質向上と8分制限に対応。有料ユーザー限定。....
SteamプラットフォームのAIゲーム数が800%急増、生成AI技術を使用したゲームは約8000本(全体の7%)。2025年には新作の20%がAIを活用する見込み。....
中国AI企業MiniMaxが香港IPOを秘密裏に申請、目標評価額40億ドル超。上海国有基金主導で3億ドル調達済み。汎用AIプラットフォーム開発に注力。....
OpenAIはmacOS有料ユーザー向けにChatGPT音声文字起こし機能をリリース。120分の録音を文字化し、タイムスタンプ付きの記録と要約を自動生成。GPT-4o契約者のみ利用可能で、録音データは自動削除される(改善オプション有効時を除く)。企業/教育ユーザーはデフォルトでトレーニング対象外。Windows/Android/Web版は未対応。....
OpenAIはChatGPTで商品販売と手数料収益を計画。Shopifyと連携し、決済システムを開発中。無料ユーザーからも収益化し、Googleのビジネスモデルに挑戦。戦略転換を示す。....
华为と雲南交投、長安大学が「緑美通道・交通大モデル」を発表。AI算力とデータ活用で交通業界のデジタル化推進。84%の精度を達成し、35のエッジノードを設置。30以上のAIアプリ開発予定。....