Make-An-Audio 2

Technologie de génération audio-à-partir-de-texte basée sur un modèle de diffusion

Produit OrdinaireAutreTexte-à-audioModèle de diffusion

Make-An-Audio 2 est une technologie de génération audio-à-partir-de-texte basée sur un modèle de diffusion, développée conjointement par des chercheurs de l'Université de Zhejiang, ByteDance et l'Université chinoise de Hong Kong. Cette technologie utilise des grands modèles linguistiques pré-entraînés (LLM) pour analyser le texte, optimisant ainsi l'alignement sémantique et la cohérence temporelle, ce qui améliore la qualité de l'audio généré. Elle intègre également un débruiteur de diffusion basé sur un transformateur feed-forward pour améliorer les performances de la génération audio de longueur variable et renforcer l'extraction des informations temporelles. De plus, en utilisant les LLM pour convertir un grand nombre de données d'étiquetage audio en un jeu de données audio-texte, le problème de la rareté des données temporelles est résolu.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

LLM API Proxy Checker

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Make-An-Audio 2

Make-An-Audio 2 Dernière situation du trafic

Make-An-Audio 2 Tendance des visites

Make-An-Audio 2 Distribution géographique des visites

Make-An-Audio 2 Sources de trafic

Make-An-Audio 2 Alternatives

Make-An-Audio 2 — Technologie de génération audio-à-partir-de-texte basée sur un modèle de diffusion

Classement des grands modèles linguistiques ouverts — Classement des grands modèles linguistiques ouverts

Classement des grands modèles linguistiques OpenCompass 2.0 — Classement des grands modèles linguistiques, évaluation en temps réel des performances des modèles.

Application Android MNN pour grands modèles linguistiques — Application Android polyvalente pour grands modèles linguistiques prenant en charge les fonctionnalités multimodales.

EzAudio — Modèle de haute qualité pour la génération texte-à-audio.

Le palmarès des grands modèles de Linge — Classement des grands modèles adaptés aux besoins des enfants chinois

FP6-LLM — Solution performante pour les grands modèles linguistiques

Fish Speech V1.4 — Modèle de conversion texte-à-parole multilingue

Modèle de diffusion avec perte perceptive — Modèle de diffusion basé sur une perte perceptive

Modèles Phi Open — Modèles Phi Open : des modèles linguistiques petits, puissants, économiques et à faible latence.

StyleTTS 2 — Modèle de synthèse vocale à partir de texte (TTS) de qualité humaine.

Tableau des Modèles — Liste détaillée et informations sur les grands modèles de langage

fastc — Outil de classification de texte léger utilisant des embeddings de grands modèles linguistiques.

OuteTTS-0.1-350M — Modèle de synthèse vocale texte-à-parole basé sur un modèle linguistique pur.

Serveurs de protocoles de contexte de modèle — Ensemble de serveurs de référence et contributions communautaires pour le protocole de contexte de modèle.

Aliyun Bailian — Plateforme de services de grands modèles linguistiques tout-en-un

La Maison des Grands Modèles — Fournit des informations complètes sur l'industrie des grands modèles d'intelligence artificielle et des recherches sur la valeur de l'innovation.

Plateforme Ouverte de Grands Modèles Linguiistiques LingYi — Plateforme ouverte offrant un accès aux grands modèles linguistiques de haute qualité de la série Yi via une API.

Application supervisée — Plateforme sans code pour la construction de grands modèles linguistiques supervisés

Parsera — Bibliothèque Python légère pour l'extraction de données web à l'aide de grands modèles linguistiques.

EAGLE — Exploration de l'espace de conception des grands modèles linguistiques multimodaux

Modèle de Personnage Baichuan — Modèle de personnage intelligent, pour construire la base de modèles de langage les plus performants.

SLD (Modèles de diffusion autocorrecteurs contrôlés par LLM) — Implémentation officielle des modèles de diffusion autocorrecteurs contrôlés par LLM.

OptiSpeech — Modèle texte-à-parole léger et de bout en bout

Nemotron-4-340B-Reward — Modèle de récompense multidimensionnel pour la création de grands modèles linguistiques personnalisés.

Modèles linguistiques de grande taille auto-adaptatifs — Un framework de modèles linguistiques de grande taille (LLM) auto-adaptatif s'ajustant en temps réel aux tâches inconnues.

Seed-ASR — Technologie de reconnaissance vocale basée sur les grands modèles linguistiques.

MInference — Accélère le processus d'inférence des grands modèles linguistiques à long contexte.

LLM Price Check — Outil d'optimisation budgétaire IA permettant de comparer et de calculer les prix actuels des API des grands modèles linguistiques.

Make-An-Audio 2

Make-An-Audio 2 Dernière situation du trafic

Make-An-Audio 2 Tendance des visites

Make-An-Audio 2 Distribution géographique des visites

Make-An-Audio 2 Sources de trafic

Make-An-Audio 2 Alternatives

Make-An-Audio 2 — Technologie de génération audio-à-partir-de-texte basée sur un modèle de diffusion

Classement des grands modèles linguistiques ouverts — Classement des grands modèles linguistiques ouverts

Classement des grands modèles linguistiques OpenCompass 2.0 — Classement des grands modèles linguistiques, évaluation en temps réel des performances des modèles.

Application Android MNN pour grands modèles linguistiques — Application Android polyvalente pour grands modèles linguistiques prenant en charge les fonctionnalités multimodales.

EzAudio — Modèle de haute qualité pour la génération texte-à-audio.

Le palmarès des grands modèles de Linge — Classement des grands modèles adaptés aux besoins des enfants chinois

FP6-LLM — Solution performante pour les grands modèles linguistiques

Fish Speech V1.4 — Modèle de conversion texte-à-parole multilingue