微软在Build 2024上发布了Azure AI Speech的升级

2024-05-22 14:16来源:大国新闻网

在周二举行的年度Build开发者大会上,微软宣布了其Azure AI Speech服务的新功能,增强了支持语音的、生成式AI驱动的应用程序开发。

微软在发布会上表示,Azure人工智能语音已经被用于“各种用例,包括呼叫分析(音频、文本)、医疗转录(音频、视觉、文本)、字幕(音频/视频、转录、翻译)和聊天机器人(音频、GPT)”。到目前为止,这项服务有许多功能,包括将音频转换为广播的文本字幕,或者提取电话中提到的地址。

OpenAI上周发布的gpt - 40的一大亮点是改进了语音模式,重点是提高了程序响应的语音质量。为了跟上潮流,微软宣布将全面推出个人语音服务。

该功能允许用户“为各种应用创建和使用自己的人工智能语音,如语音助手、语音翻译和视频内容创作,”发布解释说。

另一个新功能是语音分析,现在可以预览。它可以在Adobe的开发环境Azure AI Studio中访问,旨在解决该公司所谓的电话或其他音频源的“软”分析。调用的软元素可能是语义内容,或者调用者的感觉,这可能比调用本身的内容更微妙。

该新闻稿解释说,情绪分析可以检测到诸如“表现出的同理心程度、参与者的投入程度和论点的强度,甚至可以预测可能的对话流程”等细节。

例如,在一份电话记录中,可以给每个发言者的短语贴上“积极”、“消极”或“中性”的等级标签。你可以在这里查看交互式演示。

为了使快速分析成为可能,微软还推出了Fast Transcription,该公司声称这是“整个转录领域的游戏规则改变者”,因为“它现在的转录速度比实时转录快40倍(实时因子<1)。”

据该公司介绍,快速转录可以节省呼叫中心座席“数千小时”的时间,因为无需手动记录通话记录,医生和护士可以在几秒钟内分析与患者的对话。“媒体和内容创作者可以在播客或采访完成后立即分析和提取见解,”该新闻稿继续说道。

微软表示,该功能将于下个月推出。

为了满足内容在全球传播的需求,微软还调侃了自动视频配音,即翻译内容,合成目标语言的声音,并将其同步到说话者的视频中。

此外,该公司还宣布更新其多语言翻译功能,例如在观看广播时可以切换字幕的语言。

多讯网声明:未经许可,不得转载。
汽车
地球与环境