技术应用 | 通义听悟:音频和视频记录与阅读全新体验

分享

其他推荐

技术应用 | 通义听悟:音频和视频记录与阅读全新体验

 陈毅强 翻译技术教育与研究

 

2024年10月03日 00:14 

通义听悟是在人工智能技术飞速发展,特别是自然语言处理领域取得重大突破的背景下诞生的。它旨在通过深度学习等先进技术,更精准地理解用户需求,提供更人性化的智能对话与信息服务,拉近人与信息、服务、知识的距离,提升交互体验,服务于广泛的社会场景。本文旨在探索通义听悟的功能与应用。
说明
本文准备期间,通义听悟以升级为通义效率,网页版使用:https://tongyi.aliyun.com/efficiency/home

 

介绍
作为通义家族的一员,通义听悟依托通义千问语言模型、音视频AI模型能力,为用户带来音频和视频内容记录和阅读的全新体验,成为在工作和学习中的AI助手,让每个人都能亲身去体验AI功能给我们带来的效率提升和灵感迸发。主要面向以下五类场景:
• 企业办公:OAIMCRM等各类办公系统中集成通义听悟,可为企业提高会议、面试、访谈、培训、客户交流等场景的信息提取效率。交流内容可回溯、交流重点可查询、相关内容快速定位。
• 在线教育:可将在线课程进行知识点总结、授课主题划分、添加课程字幕。尤其在录播课场景,快速定位回看,一学期的知识点可快速检索定位。二次挖掘授课视频的价值,提高复习的针对性。
• 网盘及媒资库:对存储的音视频内容进行转写、翻译,并提炼核心内容与章节定位,阅读音视频文件,提高信息转化效率。
• 金融与媒体:访谈、演讲、路演等交流内容的转写与总结。
• 电话销售:对通话音频内容进行转写,并提取客户需求程度、购买意向,以及问题反馈等重要信息,提升销售成交率。
个人直接使用,手机号注册登录即可免费使用,支持网站、钉钉和微信小程序。
功能介绍
本文为您介绍通义听悟API产品核心优势。具有语音、语言、视觉多模态等17AI功能灵活搭配。支持音视频信息处理与提取,所需的多种AI能力。除语音识别外,还包括如大模型摘要,说话人分离,智能纪要(关键词抽取、章节抽取、值得关注、智能待办事项),翻译等功能。

点击图片可查看完整电子表格

应用场景
办公场景
• 实时会议记录:线上、线下会议使用通义听悟实时呈现多语言字幕;会后检索关键内容,可结合录音反复听取其中含义。完整会议录音和语音转文字结果,保证会议内容不被遗漏;音频与转写结果逐字对应,确保纪要撰写理解正确。待办事项提取可辅助会后任务跟进。
• 录音转写:使用智能工牌、手机、录音笔进行的录音,可通过通义听悟进行离线转写,并可分离发言人、查看全文概要、章节速览、发言总结。对门店服务、电话坐席进行内容分析与总结。
• 面试:实时记录一对一沟通交流的内容,避免因记录导致交流不畅或遗漏访谈内容,提高访谈效率和面试体验。
• 拜访纪要:智能纪要关键词和重点内容提取帮助销售人员快速了解交流重点;章节速览还原交流过程;待办事项保证客户的每项要求都不遗漏、可跟进。
• 企业培训:实时添加语言字幕,并能将培训关键词、主题进行提取,方便后续检索与定位。方便无法实时参加的人员在后续进行回看,提升培训内容在企业内部的持续价值。
学习场景
• 教学视频分析:批量上传教学视频文件,可转写文字、知识点提取、教学内容分割,方便快速检索、定位、回看教学视频,学习更轻松。通过关键词总结,可分析教师授课的知识点覆盖度。
• 外语资料学习:英文或日语的音视频教学内容,实时转写并翻译成中文,拓宽学生的知识来源。尤其在出国留学的准备期,对提升听力有很大帮助。
网盘与媒资库
• 增量文件分析:识别增量音视频文件的内容分类与主题,方便资料入库与管理。快速理解视频内容,提高音视频文件的消费效率。
• 存量文件处理:在媒资库管理完善前的海量数据,进行分析与分类。完善历史数据内容,二次挖掘价值。
• 内容检索:关键词、章节或摘要等各类提取信息,丰富检索维度,提高在内容管理与检索领域的竞争力。
金融与媒体交流
• 访谈:客户或重要人物访谈中,可以将完整信息记录并留档保存。同时提取问答摘要和发言总结,快速确定交流内容,便于后续资料整理。
• 路演与演讲:企业路演中,往往包含大量业务信息,通过通义听悟进行章节速览与关键句提取,挖掘其中的重要信息,为传播文稿或投资者提供决策辅助。
快速入门
通义听悟的使用十分简便,有如下步骤:准备账号,创建AccessKey,开通服务,创建项目,测试效果(可选),开发接入。具体详细操作流程见网页:https://help.aliyun.com/zh/tingwu/getting-started-1?spm=a2c4g.11186623.0.0.149b563aoCCHvm
使用体验
从通义效率网页进入功能区,我们针对听课开会办公提效学习工具做了一些实际操作,详细了解每一个功能的使用。
实时记录
进入实时记录页面,根据需要选择录音语言(录音可以选择单人,双人,多人模式,可区分发言人),是否进行翻译(可选择不翻译、英语、日语)。

录音结束后,显示录音原文,并可进行智能速览,关键词提取,翻译等功能。翻译功能可以选择双语显示或纯译文显示。在页面右边还有记录区,可以插入图片和表格等。任务结束后,也可选择将文本(含译文)、智能速览和音视频导出。我们做了一段中文朗读,体验感不错,识别准确度很高。针对需要语音转写和总结,以及翻译的场景,十分友好。

 

也可以选择直接上传音视频文件,或自由说,并区别发言人进行转写。

 

办公提效
办公提效包含文档阅读和网页阅读两个功能。点击或者拖曳文件上传,或添加网页地址即可使用。支持多种文档格式。

 

我们选择了一份文件进行测试。可以对文档进行全文概述、关键要点和文档速度,同时还可以选择翻译。网页也是同样操作。

学习工具

学习工具中,通义听悟提供了论文阅读和图书阅读功能。在论文阅读中,可以上传论文,提炼出论文中最有价值的知识。图书阅读也可以导入电子书籍,分章节整理书中的要点。我们选择了学术论文和电子书籍进行测试。操作方式与前面相同,上传文件。

我们用期刊论文(https://doi.org/10.1080/02602938.2024.2309963)做了尝试,全文摘要对论文做了总结,在论文速读部分,工具对文中的论文方法:方法描述、方法改进、解决的问题论文实验:实验描述、数据描述以及论文总结:文章优点、方法创新点、未来展望等各个部分进行了提炼。总体体验还是非常方便和准确的。工具还能将全文进行翻译,有5次免费使用的权限。我们用同样的方法对电子书籍也进行了尝试(The Handbook of Clinical Linguistics-Blackwell Publishing Ltd (2008))。

图片
查询

在工具栏我的记录可以随时查询任务列表,或建立文件夹对已处理任务进行管理。

发现栏,通义听悟还提供了13个频道的订阅源,包含订阅信息的智能速览语音转文字简介等功能。

通义听悟作为一款优秀的效率工具,在语音识别、大模型摘要、说话人分离,智能纪要(关键词抽取、章节抽取、值得关注、智能待办事项)及翻译等各个方面变现出色。总的来说,通义听悟具备不少优势:高效理解(通义效率在理解复杂指令和多样化的语言表达上表现出色,能够准确把握用户意图),快速响应(凭借强大的计算资源和优化的算法,能够实现几乎即时的回答,提升用户体验),广泛知识(集成大量数据和信息,覆盖广泛的知识领域,提供全面而深入的内容)。相信后期在深化情感智能、个性化定制以及支持多语处理能力方面,做出更多努力,通义听悟将成为一款更加完善的效率产品。

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

Was it helpful ?

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注