语音识别技术

其他推荐

从翻译视角看跨文化词汇的流转 | Typhoon 一词的由来

2025年8月4日

翻译时，警惕这些“假朋友”！（一）

2025年8月4日

阿里巴巴AI实时翻译拓展至119种语言

2025年8月4日

2025年语言行业趋势展望 | 未来何处？

2025年8月4日

“AI赋能翻译教育”系列专访 | 对话黑龙江大学孙超院长：探秘DTI建设与课程创新

2025年8月4日

Loc World专栏 | 利用人工智能提升本地化质量与效率（文末PDF领取）

2025年8月4日

【王华树教授团队推荐】人工智能领域50本精选书单（收藏）

2025年8月4日

即将开课｜大语言模型赋能外语专业教育创新研修班【西安】

2025年8月4日

翻译院校篇 | 罗格斯大学

2025年7月29日

如何为译文“赋魂”？

2025年7月29日

Luna
21 12 月, 2023
10:24 上午

语音识别技术

1. 基础知识

1.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程([1])。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，其研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域，是一个多学科综合性研究领域([2])。

1.2语音识别分类

语音识别系统根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统、连接字语音识别系统和连续语音识别系统；根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统；根据词汇量大小可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统([3])。

2. 发展趋势

20世纪50年代：

语音识别的研究从上个世纪50年代开始，1952年，三位贝尔实验室的研究人员研究出了世界上第一个能识别10个英文数字发音的系统——Audry系统。该系统被普遍认为是自动语音识别系统的开端。

20世纪60年代：

60年代计算机的应用推动了语音识别的发展。其中动态规划（DP）和线性预测分析技术（LP）等技术的提出和运用对语音识别的发展产生了深远影响。

20世纪70年代：

70年代LP技术得到进一步发展，动态时间归正技术（DTW）基本成熟。特别是矢量量化（VQ）和隐马尔可夫模型（HMM）理论在实践上的运用初步实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

20世纪80年代：

20世纪80年代随着HMM模型和人工神经元网络（ANN）等技术在语音识别中的成功应用人们终于在实验室突破了大词汇量、连续语音和非特定人这三大语音识别障碍。首次把这三个特性都集成在一个系统中，比较有代表性的是卡耐基梅隆大学研发的Sphinx系统。

20世纪90年代

90年代之后语音识别与自然语言处理相结合发展到基于自然口语识别和理解的人机对话系统。与机器翻译技术相结合逐步发展出面向不同语种人类之间交流的直接语音翻译技术。语言识别技术在中国的发展

我国的语音识别研究工作一直紧跟国际水平国家也很重视并把大词汇量语音识别的研究列入“863”计划由中科院声学所、自动化所及北京大学等单位组织研究开发。目前国内也涌现出了诸如科大讯飞和北京捷通等专业研究和开发语音识别产品的高科技公司([3])。

3. 主流工具

语言转写：

字幕生成：

3.1 具体案例应用

工具1：AppTek

描述：

为人类语言技术提供了前沿的机器学习、生成式人工智能支持，覆盖超过80种语言和方言。

主要功能：

1.自动语音识别（Automatic speech recognition ASR)

2.文段切分字幕生成

1) Automatic captioning 实时生成字幕

2) Post-editing transcription 后期编辑

3) Digital Assent Management 数字资产管理

4) Accessibility Solutions for Deaf/Hard of Hearing 对听力障碍者友好

3. 自然语言理解 (Natural Language Understanding NLU)

具体实例：

We should meet tomorrow at the booth at 2 pm.

Step 1: Named Entity Recognition

We (person) should meet tomorrow (date) at the booth (location) at 2 pm (time).

Step 2: Intent Classification

We (person) should (modifier) meet (action) tomorrow (date) at the booth (location) at 2 pm (time).

Step 3: Inverse Text Normalization

We (person) should (modifier) meet (action) tomorrow (date) at the booth (location) at 2 pm (time—13:00:00 UTC).

Step 4: Reasoning

Step 5: Dialog

We should meet tomorrow at the booth at 2 pm.
How about Tuesday?

Step 6: Knowledge Graph

How about Tuesday? (Tuesday=Nov.21)

Step 7: Sentiment Analysis

We should meet tomorrow at the booth at 2 pm.
How about Tuesday?
You know that’s not possible! (sentiment: negative)

工具2：IFlytek（科大讯飞）

操作步骤：

1. 导入音频/智能硬件：

来自手机文件的音频

连接录音笔使用（有免费的转写权益）

2. 悬浮字幕

3. 转文字（付费/录音笔免费）：支持多语种、多个说话人、转写后编辑

注：科大讯飞转写准确度也有待加强，在上下文语境充分的情况下，也会出现“识别错误”“语法错误”等基础错误。如图中的：COVID-19被识别成了Covey 19；If compared to the developed countries around the world被转写成了It compared to the developed countries

在软件转写准确性有待提高的情况下，人工后续的编辑成本就会上升。

4. 总结与启发

语音识别技术未来市场潜力巨大。目前已广泛应用在日常生活中的语音操作、人机交流等领域。对于翻译从业者来说，语音识别技术的发展可以实现口语识别技术、翻译技术和语音合成技术等([4])，帮助译者降低部分认知和输出负荷，进而提升翻译的效益和整体质量。

参考文献：

[1] 中华人民共和国国家质量监督检验检疫总局.GB/T21023 ⁃ 2007 中文语音识别系统通用技术规范[S].北京：中国标准出版社，2007.

[2] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津：天津大学，2008.

[3] 马志欣，王宏，李鑫.语音识别技术综述[J].昌吉。学院学报，2006(3)：93⁃97.

[4] 禹琳琳.语音识别技术及应用综述.现代电子技术 36.13(2013):43-45.

特别说明：本文仅供学习交流，如有不妥欢迎后台联系小编。

– END –

原创来源：北外CAT课程展示-张莹玥

推文编辑：张莹玥

Was it helpful ?

还有问题？我们能帮忙吗？