
阿里通义百聆再升级 3 秒录音能无缝切换语种、方言与情绪
阿里 (09988.HK) 旗下通义大模型公布,通义百聆再升级,只需 3 秒录音,就能让你的声音无缝切换语种、方言与情绪——中、粤、日、英、开心、愤怒,并包含 9 种通用语言及 18 种方言。一段嘈杂环境下的会议录音,AI 也能毫秒级输出文字,绕口令、RAP、背景音乐干扰。
当中,Fun-CosyVoice3 模型升级,首包延迟降低 50%,中英混字准确率翻倍,支援 9 语种 18 方言口音;Fun-CosyVoice3 (0.5B) 正式开源,提供 zero-shot 音色克隆能力,支援本地部署与二次开发;Fun-ASR 模型能力增强,噪声场景准确率 93%、支援歌词与说唱识别、31 语种自由混说、方言口音覆盖,并将流式识别模型的首字降低到 160ms;Fun-ASR-Nano (0.8B) 开源,Fun-ASR 的轻量化版本,推理成本更低,模型开源,支援本地部署与定制化微调。

