互联网

晴数智慧语音合成数据集助力中国Voice Engine语音大模型乘风破浪

来源:互联网    作者:      2024年04月01日 16:45

导语:

近日,OpenAI在官网首次展示了全新自定义音频模型“Voice Engine”。用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。

除了语音合成之外,Voice Engine还能提供视频翻译功能,可以将一种视频语音无差别的翻译成多国语言。此外,OpenAI首席技术官Mira Murati在前不久接受的采访时表示,未来Sora生成的视频会带声音的,很可能为其提供声音的就是Voice Engine。

我们可以期待voice engine在未来将有广阔的应用场景,包括:配合Sora视频生成的功能,为视频配音,赋能内容创作、教育和娱乐等领域;支持语音交互的个人智能助理。这类个人助理它不同于简单的语音合成或者语音识别,而是根据用户的输入进行语音的响应:用户可以通过文本、语音来输入,然后服务直接用语音回复结果。

从技术角度来说,传统的语音助理应该是先通过ASR识别用户的语音,然后转成文本,GPT再根据文本生成答案,再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性!三个步骤,每个步骤准确率90%,最终的回复准确率可能只有72.9%了!同时,在自然对话中,标准反应间隔时间约为300毫秒。如果这是一个语音端到端的模型(符合OpenAI当前的技术趋势),那么时延和准确性都值得期待!

所以,语音端到端技术,将从根本上优化人工智能和人类对话的效果和响应速度,成为未来AIoT的标配。在这项技术中,高质量的语音数据将是决胜关键

晴数智慧在去年全球首发了中文高质量复刻数据集,得到了广大企业的认可。今年我们再接再厉,为中国大模型落地各行业、并适配各地交流的刚需,再次首发“多方言超拟人语音合成大模型数据集”,助力中国Voice Engine语音大模型乘风破浪!

多方言超拟人语音合成大模型数据集具备48k高采样率,安静环境采集,方言语种多样,声音来源丰富,筛选来自不同地区、年龄、性别、社会背景人员录制以确保声音多样化。自由对话风格具有高表现力和情感色彩,能够使语音合成模型生成出方言语音更加生动、自然。主题丰富多样,涵盖了日常生活中的各种场景和话题,为精准、自然的语音生成提供了强有力的数据支持。

image.png


(文章为作者独立观点,不代表艾瑞网立场)
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
     关于艾瑞| 业务体系| 加入艾瑞| 服务声明| 信息反馈| 联系我们| 合作伙伴| 友情链接

Copyright© 沪公网安备 31010402000581号沪ICP备15021772号-10

扫一扫,或长按识别二维码

关注艾瑞网官方微信公众号