アリババの通義大規模モデル「百聆」音声モデルが大幅アップデート。わずか3秒の音声で9言語・18方言にシームレス切替可能。標準中国語、広東語、日本語、英語などをサポートし、喜びや怒りなど多様な感情も再現。Fun-CosyVoice3モデルは特に改善が顕著で、初回応答遅延50%削減、日中混合話法の認識精度大幅向上。....
百聆はGPT-4oに類似した音声対話型ロボットです。ASR+LLM+TTSにより実現されており、低スペック環境でも動作し、割り込みも可能です。
Baidu
-
入力トークン/百万
出力トークン/百万
128
コンテキスト長
32
Alibaba
$15
1k
$1
$4
64
Baichuan
$16
192