Latest News Yesterday News Quote List Topic List Quote List

阿里通义百聆再升级 3 秒录音能无缝切换语种、方言与情绪

阿斯达克财经网

2025.12.15 08:49

阿里 (09988.HK) 旗下通义大模型公布，通义百聆再升级，只需 3 秒录音，就能让你的声音无缝切换语种、方言与情绪——中、粤、日、英、开心、愤怒，并包含 9 种通用语言及 18 种方言。一段嘈杂环境下的会议录音，AI 也能毫秒级输出文字，绕口令、RAP、背景音乐干扰。

当中，Fun-CosyVoice3 模型升级，首包延迟降低 50%，中英混字准确率翻倍，支援 9 语种 18 方言口音；Fun-CosyVoice3 (0.5B) 正式开源，提供 zero-shot 音色克隆能力，支援本地部署与二次开发；Fun-ASR 模型能力增强，噪声场景准确率 93%、支援歌词与说唱识别、31 语种自由混说、方言口音覆盖，并将流式识别模型的首字降低到 160ms；Fun-ASR-Nano (0.8B) 开源，Fun-ASR 的轻量化版本，推理成本更低，模型开源，支援本地部署与定制化微调。