【48812】喜马拉雅珠峰语音生成技能完结5秒极速克隆 露脸云栖大会

时间: 2024-07-23 18:45:37 |   作者: 爱游戏体育官方网站

  喜马拉雅于2023年10月31日至11月2日露脸2023云栖大会,喜马拉雅在本次大会上展现了最新的自研语音技能效果,包括喜马拉雅珠峰语音生成式大模型和第二代智能语音交互体系,为参会者展现AIGC与文娱音频工业深层次地交融的最新效果。

  据了解,喜马拉雅珠峰语音生成式大模型是喜马拉雅的一项立异性技能,具有快速完结语音音色和风格定制的才能。这一技能上的支撑丰厚场景下的音色实时转化,为声响赋予了创造性的“变声”才能,宛如给声响涂上不同的“画皮”。此前,喜马拉雅珠峰实验室团队现已过AIGC方法创造了超越3.7万部有声书专辑,而AIGC著作的每日播映时长已超越250万小时。

  记者在云栖大会现场看到,喜马拉雅展现了其自研的珠峰语音生成式大模型。该大模型由喜马拉雅珠峰智人团队与西北工业大学aslp lab打开协作,根据自研结构,完结音频与文本在一致结构下的稠密练习,用于语音生成使命,可以在必定程度上完结语音风格和音色的 zero shot 的学习和搬迁,完结风格和音色的恣意组合,一起,喜马拉雅根据阿里云数据湖3.0构建的云原生大数据渠道为语音大模型练习供给了海量高质量数据,是喜马拉雅语音大模型不可或缺的“数据引擎”。

  据喜马拉雅首席科学家、珠峰实验室负责人卢恒介绍,“喜马拉雅语音生成式大模型现在现已取得了明显的打破,在音色定制方面完结了5秒内的‘极速克隆’声响。经过极少量的数据,该模型可以克隆出具有90%类似度的根本音色,并在短短的10秒内快速生成定制音频。未来,这项技能在短视频创造、数字人配音、人机交互对话、名人IP复刻等范畴有望发挥出巨大的潜在价值,有用处理商业场景中的交流需求痛点。”

  喜马拉雅珠峰实验室资深产品专家吕睿韬现场介绍到:该语音大模型选用根据语音向量和语义符号的新式语音编解码器,其间语音向量包括用于高保真语音重建的声学细节,而语义符号(LLM)则侧重于言语建模的语音的言语内容,终究完结高效生成最富有言语表现力和最高保真度的语音(对话)内容。使用场景上,该语音大模型可使用于语音内容生成、白话对话、语音音色实时转化、说话风格搬迁、语音到语音跨语种翻译、说话人匿名化等各种使命。

  据悉,喜马拉雅还将在云栖大会上展现其第二代智能语音交互体系,这一体系以阿里云的“通义千问”大模型为根底,以喜马拉雅儿童形象代言人“波波”为中心,增强了他的天然连接对话才能,凸显了“波波”这一IP形象的特征。该智能语音交互体系现已过喜马拉雅儿童APP和喜马拉雅供给服务,波波球为家庭亲子用户更好的供给陪同对话功用。

返回
实验室仪器型号