首页 » 脚本文章 » 语音识别技术(语音识别技术语音词汇量识别系统)「语音识别技术百度百科」

语音识别技术(语音识别技术语音词汇量识别系统)「语音识别技术百度百科」

乖囧猫 2024-07-23 18:35:53 脚本文章 0

扫一扫用手机浏览

文章目录 [+]

1.2语音识别分类语音识别系统根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统、连接字语音识别系统和连续语音识别系统;根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;根据词汇量大小可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统([3])。
2. 发展趋势20世纪50年代:语音识别的研究从上个世纪50年代开始,1952年,三位贝尔实验室的研究人员研究出了世界上第一个能识别10个英文数字发音的系统——Audry系统。
该系统被普遍认为是自动语音识别系统的开端。
20世纪60年代:60年代计算机的应用推动了语音识别的发展。
其中动态规划(DP)和线性预测分析技术(LP)等技术的提出和运用对语音识别的发展产生了深远影响。
20世纪70年代:70年代LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟。
特别是矢量量化(VQ)和隐马尔可夫模型(HMM)理论在实践上的运用初步实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。
20世纪80年代:20世纪80年代随着HMM模型和人工神经元网络(ANN)等技术在语音识别中的成功应用人们终于在实验室突破了大词汇量、连续语音和非特定人这三大语音识别障碍。
首次把这三个特性都集成在一个系统中,比较有代表性的是卡耐基梅隆大学研发的Sphinx系统。
20世纪90年代:90年代之后语音识别与自然语言处理相结合发展到基于自然口语识别和理解的人机对话系统。
与机器翻译技术相结合逐步发展出面向不同语种人类之间交流的直接语音翻译技术。

语言识别技术在中国的发展

我国的语音识别研究工作一直紧跟国际水平国家也很重视并把大词汇量语音识别的研究列入“863”计划由中科院声学所、自动化所及北京大学等单位组织研究开发。
目前国内也涌现出了诸如科大讯飞和北京捷通等专业研究和开发语音识别产品的高科技公司([3])。
3. 主流工具语言转写:字幕生成:3.1 具体案例应用工具1:AppTek描述:为人类语言技术提供了前沿的机器学习、生成式人工智能支持,覆盖超过80种语言和方言。
主要功能:自动语音识别 (Automatic speech recognition ASR) 文段切分字幕生成1) Automatic captioning 实时生成字幕2) Post-editing transcription 后期编辑3) Digital Assent Management 数字资产管理4) Accessibility Solutions for Deaf/Hard of Hearing 对听力障碍者友好3. 自然语言理解 (Natural Language Understanding NLU) 具体实例:

We should meet tomorrow at the booth at 2 pm.

Step 1: Named Entity Recognition

We (person) should meet tomorrow (date) at the booth (location) at 2 pm (time).

语音识别技术(语音识别技术语音词汇量识别系统) 语音识别技术(语音识别技术语音词汇量识别系统) 脚本文章
(图片来自网络侵删)
Step 2: Intent Classification

We (person) should (modifier) meet (action) tomorrow (date) at the booth (location) at 2 pm (time).

Step 3: Inverse Text Normalization

We (person) should (modifier) meet (action) tomorrow (date) at the booth (location) at 2 pm (time—13:00:00 UTC).

语音识别技术(语音识别技术语音词汇量识别系统) 语音识别技术(语音识别技术语音词汇量识别系统) 脚本文章
(图片来自网络侵删)
Step 4: ReasoningStep 5: Dialog

We should meet tomorrow at the booth at 2 pm.

How about Tuesday?

Step 6: Knowledge Graph

How about Tuesday? (Tuesday=Nov.21)

Step 7: Sentiment Analysis

We should meet tomorrow at the booth at 2 pm.

How about Tuesday?

You know that’s not possible! (sentiment: negative)

工具2:IFlytek(科大讯飞)操作步骤:1. 导入音频/智能硬件:来自手机文件的音频连接录音笔使用(有免费的转写权益)2. 悬浮字幕3. 转文字(付费/录音笔免费):支持多语种、多个说话人、转写后编辑

注:科大讯飞转写准确度也有待加强,在上下文语境充分的情况下,也会出现“识别错误”“语法错误”等基础错误。
如图中的:COVID-19被识别成了Covey 19;If compared to the developed countries around the world被转写成了It compared to the developed countries

在软件转写准确性有待提高的情况下,人工后续的编辑成本就会上升。

4. 总结与启发

语音识别技术未来市场潜力巨大。
目前已广泛应用在日常生活中的语音操作、人机交流等领域。
对于翻译从业者来说,语音识别技术的发展可以实现口语识别技术、翻译技术和语音合成技术等([4]),帮助译者降低部分认知和输出负荷,进而提升翻译的效益和整体质量。
参考文献:[1] 中华人民共和国国家质量监督检验检疫总局.GB/T21023 ⁃ 2007 中文语音识别系统通用技术规范[S].北京:中国标准出 版社,2007.[2] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津 大学,2008.[3] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉。
学院学报,2006(3):93⁃97.[4] 禹琳琳.语音识别技术及应用综述.现代电子技术 36.13(2013):43-45.

特别说明:本文仅供学习交流,如有不妥欢迎后台联系

- END -

原创来源:北外CAT课程展示-张莹玥

推文编辑:张莹玥

标签:

相关文章