阿里云工作学习人工智能(AI)助手“通义听悟”发佈多项新功能,包括上线音视频问答助手,基于纪录内容回答用户查询,并可一键跳转回顾原文。用户还可以针对超长网课、会议等音视频内容提问,利用AI能力总结知识点、将口语化表达润色成书面表达,并制作可视化脑图等。
音视频承载讯息密集,但查找、回顾与提炼信息十分耗时。阿里云“通义听悟”产品负责人杨帆表示,作为一款工作学习AI助手,“通义听悟”希望能够让高知识附加值的音视频被轻鬆阅读、整理和分享。

“通义听悟”此次推出的音视频问答助手“小悟”可以根据纪录内容,回答用户提问的相关话题。“小悟”支持单个纪录,多个纪录和多种语言自由问答,并提供原文位置,用户可以一键跳转回顾。用户还可以请“小悟”整理金句、梳理结论、整理会议纪要。
此外,根据用户需求,“通义听悟”还上线了一键AI改写以及生成思维导图的功能。一键AI改写可以将口语化表达的内容在保持原意的基础上,快速转化成更具逻辑性、规范性和可读性的书面格式,尤其适合整理会议和採访内容。而脑图则是通过AI以逻辑的方式可视化内容,还可以导出多种格式,方便保存和分享,还能帮助激发用户灵感,拓展思维。
今次“通义听悟”新功能发佈,背后是一系列的技术提升。作为AI音视频产品,“通义听悟”通过优化複杂多语言理解和多模态检索、长篇内容建模理解、个性化指令生成和动态意图检索增强,提升了精准内容定位、高效问题引导、订制化摘要与高质量答案回覆等综合能力,从而提升用户体验。
依託“通义千问”大模型,于去年6月升级的“通义听悟”专注音视频实时文本转写,并能精准、高效地理解和分析多媒体内容,助力个人与企业提升工作和学习效率。“通义听悟”音频语言目前支持识别普通话、粤语、英语和日语,翻译支持中文、英文和日语,韩语预计于4月初上线。支持转写单个文档时长最高达6小时。
“通义听悟”目前累积服务用户数量超过百万,来自各行各业,包括学生、教师、白领、媒体、金融分析师等。活跃用户日均转写音视频3次以上,平均每天处理字符数约20亿字。企业和开发者可以通过“通义听悟”API集成其AI能力,应用场景包括企业办公、在线教育、金融服务和新闻媒体等。
“通义听悟”融合了10多项AI能力,包括转写、翻译、发言人角色分离、全文摘要、章节速览、发言总结、PPT提取等,并支持标重点、记笔记,大幅提高从音视频提取知识的效率。