通义听悟是阿里云于2023年6月推出的基于大模型的工作学习AI助手,系通义家族首个面向消费级用户的产品。该产品依托通义千问大模型与语音AI技术,可实现音视频内容转写、全文摘要、章节速览及发言总结,支持会议、讲座、培训、访谈、课堂等场景的信息提炼与知识资产沉淀,并与阿里云盘深度打通,支持云盘内音视频分析及字幕匹配。
在技术能力上,通义听悟的核心是高精度语音识别与大语言模型理解的融合。前端采用阿里云前沿语音AI技术,能够将实时音频流或音视频文件中的语音转写成文字,支持中文、英文等多语言,并自动区分发言人。后端依托通义千问大语言模型的强大理解能力,对转写内容进行全文摘要提炼、章节速览和发言总结,自动提取关键词、核心问题和待办事项。
2024年3月,通义听悟重磅升级,音视频问答助手“小悟”正式上线,在业界首次实现单记录、跨记录、多语言自由提问,支持对单个最长6小时、一次性上百条音视频内容的理解问答。用户上传学习资料或会议录像后,可直接向AI提问关键信息,不必完整通读全文。通义听悟已与阿里云盘打通,支持云盘内音视频在线播放时自动匹配字幕,用户可将所有音视频文件存储在云盘中统一管理。
通义听悟的产品形态包括Web端、钉钉小程序等入口,其AI能力也已集成至阿里巴巴内部各类应用,如“钉钉闪记”。个人用户可通过官网免费体验基础功能,企业用户可通过API调用进行二次开发和深度集成。作为通义家族首个面向消费级用户的产品,通义听悟正在将音视频内容从“被动观看”转变为“高效阅读”,帮助用户实现知识资产的数字化沉淀。
用户评论
分享你的使用体验,帮助更多人选择合适的 AI 工具