(资料图片)
文/观察未来科技
近日,微软研究人员发布了一种新的语音合成AI模型 VALL-E,给出3秒样音就可以精确地模拟一个人的声音。一旦它学会了一个特定的声音,VALL-E可以复制说话者的情绪和语气,即使说话者本人从未说过的单词也可以模仿。
微软称VALL-E为“神经编解码器语言模型”,它建立在Meta于2022年10月宣布的一项名为EnCodec的技术之上。
与其他通常通过操作波形合成语音的文本转语音方法不同,VALL-E从文本和声学提示生成离散音频编解码器代码。它基本上分析一个人的声音,通过EnCodec将这些信息分解成离散的组件,并使用训练数据来匹配它“知道”的声音。
为了合成个性化语音,VALL-E生成相应的声学令牌,条件是3秒注册录音和音素提示的声学令牌,分别约束扬声器和内容信息。最后,使用生成的声学标记与相应的神经编解码器解码器合成最终波形。
简单来说,相比传统模型采用梅尔频谱提取特征,VALL·E直接将语音合成当成了语言模型的任务,前者是连续的,后者是离散化的。传统语音合成流程往往是“音素→梅尔频谱→波形”这样的方式。但VALL·E将这一流程变成了“音素→离散音频编码→波形”。
微软在Meta组装的名为LibriLight的音频库上训练了VALL-E的语音合成能力。它包含来自7000多名演讲者的60000小时的英语演讲,其中大部分来自LibriVox公共领域的有声读物。为了使VALL-E生成良好的结果,三秒样本中的语音必须与训练数据中的语音紧密匹配。
一方面,包括微软语音合成AI模型VALL-E在内的AI语音合成技术的进步,也带来了更多高质量的文本转语音应用程序、语音编辑的应用。合成人声的用途相当广泛,我们熟知的便是手机中的语音助手,用户可通过简单的人机对话,获知天气、路况等实时信息,也可命令手机完成拨号、查询等任务。而如果将VALL·E和ChatGPT结合起来,我们或许很快就能拥有一个更具人性的聊天机器人。
另一方面,由于VALL-E可以合成符合说话人身份的语音,因此滥用模型可能会带来潜在风险,比如,欺骗语音识别或冒充特定说话人。
可以预见,伴随着相关技术的发展,智能语音在个人及商业领域中的应用场景将更加丰富,不断细分的合成语音服务也会给我们带来更多的体验和惊喜。但与此同时,技术在进步的同时也需要预防可能出现的风险,包括从技术角度给技术使用留有余地和退路。
-
今日最新!国信证券:2023年锂价可能会出现回落 但整体或是缓跌的格局国信证券指出,展望2023年,全球锂盐供需基本面会出现一定的反转,从2022年的供需短缺转为2023年的供需过剩,但预计过剩幅度...
-
世界滚动:【环球财经】市场预期美国CPI环比持平 纽约股市三大股指11日上涨投资者对即将公布的美国12月消费者价格指数保持乐观预期,纽约股市三大股指在11日高开,盘中震荡走高,收盘时纽约股市三大股...
-
北交所新股调整发行底价有因 目的:增大询价空间、防止破发据接近监管层的人士介绍,北交所新股发行底价调整到每股净资产水平,主要是为了增大新股发行询价的空间,让市场化博弈更加充...
-
天天视点!头部私募频频加仓 多位明星基金经理发声看多近日,多家明星私募2022年12月月报出炉,其对2023年的布局也随之曝光。
-
全球关注:【读财报】2022年纯债基金透视:总规模突破6万亿元 宝盈、鑫元基金等旗下产品收益率告负数据显示,公募市场披露存续的2012只纯债型基金产品中,2022年平均回报率为2 09%。值得关注的是,由于债市震荡回调,四季度...
-
今日最新!国信证券:2023年锂价可能会出现回落 但整体或是缓跌的格局
2023-01-12 09:33:34
-
世界滚动:【环球财经】市场预期美国CPI环比持平 纽约股市三大股指11日上涨
2023-01-12 08:35:36
-
北交所新股调整发行底价有因 目的:增大询价空间、防止破发
2023-01-12 08:34:23
-
天天视点!头部私募频频加仓 多位明星基金经理发声看多
2023-01-12 08:23:01
-
全球关注:【读财报】2022年纯债基金透视:总规模突破6万亿元 宝盈、鑫元基金等旗下产品收益率告负
2023-01-12 07:24:30