Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Sesame CSM

Un modelo para generar voz conversacional, que admite la generación de voz de alta calidad a partir de texto y entrada de audio.

Nuevo Producto PremiumProductividadSíntesis de vozInteligencia artificial

Abrir sitio web

CSM es un modelo de generación de voz conversacional desarrollado por Sesame, capaz de generar voz de alta calidad a partir de texto y entrada de audio. Este modelo se basa en la arquitectura Llama y utiliza el codificador de audio Mimi. Se utiliza principalmente para la síntesis de voz y aplicaciones de voz interactivas, como asistentes de voz y herramientas educativas. Las principales ventajas de CSM son su capacidad para generar voz natural y fluida, y la posibilidad de optimizar la salida de voz mediante información contextual. Actualmente, este modelo es de código abierto y está disponible para fines de investigación y educativos.

Abrir sitio web

Sesame CSM Situación del tráfico más reciente

Total de visitas mensuales

492133528

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:33

Sesame CSM Tendencia de visitas

Sesame CSM Distribución geográfica de las visitas

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Sesame CSM

Sesame CSM Situación del tráfico más reciente

Sesame CSM Tendencia de visitas

Sesame CSM Distribución geográfica de las visitas

Sesame CSM Fuentes de tráfico

Sesame CSM Alternativas

Sistema de Avatares Digitales con IA de Código Abierto AIGCPanel — Sistema integral de avatares digitales con IA que admite la síntesis de vídeo, la síntesis de voz y la clonación de voz.

conversor-voz-a-voz — Módulo de conversión de voz a voz de código abierto

Whisper Speech — Sistema de texto a voz de código abierto

Definición de IA de Código Abierto — Definición de Inteligencia Artificial de Código Abierto, impulsando la apertura y la colaboración en el campo de la IA.

Orpheus TTS — Un sistema de texto a voz de código abierto, dedicado a lograr una naturalización del habla humana.

MegaTTS 3 — Un modelo de síntesis de voz eficiente que admite chino, inglés y clonación de voz.

Modelos de Código Granite — Modelos básicos de código abierto para tareas de inteligencia de código, compatibles con 116 lenguajes de programación.

Llasa-1B — Llasa-1B es un modelo de texto a voz (TTS) basado en LLaMA, que admite la síntesis de voz en chino e inglés.

sherpa-onnx — Proyecto de código abierto que admite múltiples funciones de reconocimiento y síntesis de voz.

Biblioteca de Visión Artificial de Código Abierto — Biblioteca de visión artificial de código abierto

Octogen: Un Intérprete de Código Abierto — Intérprete de código abierto impulsado por GPT-4 y CodeLlama

Herramientas de LLM de Código Abierto — Conjunto de herramientas de modelos lingüísticos grandes (LLM) de código abierto

Mini-Omni — Modelo de lenguaje grande multi-modal de código abierto, compatible con entrada de voz en tiempo real y salida de audio en streaming.

CosyVoice Generación de Voz Modelo grande 2.0-0.5B — Modelo de síntesis de voz eficiente y multilingüe

Plataforma Abierta de Voz de YITU — Ofrece capacidades de IA de voz, incluyendo reconocimiento y síntesis de voz.

Llasa-3B — Llasa-3B es un modelo de síntesis de texto a voz (TTS) basado en LLaMA, que admite la generación de voz en chino e inglés.

Plataforma Abierta de Inteligencia Artificial OLAMI — OLAMI es una plataforma abierta de inteligencia artificial.

Motor de Voz — Genera audio de voz realista a partir de una pequeña muestra de voz.

Bot Generador de Voz con IA — Convierte texto a audio usando inteligencia artificial.

Summme - Texto a Voz (TTS) para Chatbots de IA — Agrega funcionalidad de síntesis de voz con lenguaje natural a tus chatbots de IA.

VALL-E 2 — Tecnología de síntesis de voz desarrollada por Microsoft Research Asia.

EmotiVoice — Motor de síntesis de voz multi-idioma impulsado por emociones

LLaSA_training — LLaSA: Amplía el tiempo de entrenamiento y la carga computacional de tiempo de prueba del sistema de síntesis de voz basado en LLaMA.

CloneGen — Experimenta aplicaciones de clonación de voz y texto a voz utilizando tecnología avanzada de inteligencia artificial.

Sesame CSM — Un modelo para generar voz conversacional, que admite la generación de voz de alta calidad a partir de texto y entrada de audio.

Guía de Desarrollo de Zhiyuan Lingxi X1 — Robot completamente de código abierto

Zonos-v0.1-híbrido — Zonos-v0.1-híbrido es un modelo de texto a voz (TTS) de código abierto líder que ofrece servicios de síntesis de voz de alta calidad.

Demostración de Aura TTS de Deepgram — Demostración de Aura TTS de Deepgram, que muestra tecnología de síntesis de voz avanzada.

Llama 3.2 3b Voice — Herramienta de síntesis de voz basada en el modelo Llama.

AigcPanel — Sistema integral de personajes digitales con IA, que admite la síntesis de video, la síntesis de voz y la clonación de voz.