2017年春节,Interspeech 2019 | 阿里达摩院语音实验室:联合CTC和Transformer的主动中文纠错模型-南方和北方人,生活差异,南北方新闻发布

车世界 admin 2019-09-16 301 次浏览 0个评论
网站分享代码

机器之心专栏

论文作者:Shiliang Zhang、Lei Ming、Zhijie Y2017年新年,Interspeech 2019 | 阿里达摩院语音试验室:联合CTC和Transformer的自动中文纠错模型-南边和北方人,日子差异,南北方新闻发布an

语音范畴尖端学术会议 Interspeech 2019 将于 9 月 15-19 日在奥地利格拉茨开幕。本文介绍了阿里巴巴达摩院机器智能-语音试验室被此大会接纳的一篇论文,作者们提出了一种自动纠错模型,该模型选用 Transformer 作为纠错器,将前端根据 CTC 的语音辨认体系的辨认成果作为输入,能够自动纠正许多的辨认过错2017年新年,Interspeech 2019 | 阿里达摩院语音试验室:联合CTC和Transformer的自动中文纠错模型-南边和北方人,日子差异,南北方新闻发布,特别是辨认成果中的替换过错。

语音范畴尖端学术会议 Interspeech 2019 将于 9 月 15-19 日在奥地利格拉茨开幕。本文介绍了阿里巴巴达摩院机器智能-语音试验室被此大会接纳的一篇论文,作者们提出了一种自动纠错模型,该模型选用 Transf6个月宝宝辅食ormer 作为纠错器,将前端根据 CTC 的语音辨认体系的辨认成果作为输入,能够自动纠正许多的辨认过错,特别是辨认成果中的替换过错。

INTERSPEECH 是语音科学和技能范畴最大、最全面的世界学术会议, 本年的大会将在奥地利第二大城市格拉茨举行。

在 INTERSPEECH 会议期间,来自全polite球学术界和产业界的研讨人员齐聚一堂,评论语音范畴的新技能,包括语音组成、语音辨认、语音增强这些细分领,在会议上展现的研讨成果代表着语音相关范畴的最新研讨水平缓未来的发展趋势。

本年也恰逢 INTERSPEECH 20 周年。

在此篇被 Interspeech 接纳的论文中,来自阿里巴巴达摩院-机器智能技能团队的研讨者们提出了一种自动纠错模型(Listener-Decoder-Speller,LDS),该模型选用 Transformer 作为纠错器,将前端根据 CTC 的语音辨认体系的辨认成果作为输入,能够自动纠正许多的辨认过错,特别是辨认成果中的替换过错。

论文地址: https://arxiv.org2017年新年,Interspeech 2019 | 阿里达摩院语音试验室:联合CTC和Transformer的自动中文纠错模型-南边和北方人,日子差异,南北方新闻发布/pdf/1904.10045.pdf

近年来,根据端到端的语音辨认体系开端渐渐成为干流,其间两个具有代表性的结构是:1)CTC(Connectionist Temporal Classification)原则及其变形;2)根据注意力机hk416制的编解码模型(Attention-Encoder-Decoder)。这两个结构都将语音辨认当作一个序列到序列的映射问题,一起提出不等长输入序列和输出序列之间的对齐办法。C冬青TC 经过引进空字符(b孙元峰lank)来进行序列的扩展,Attention-Encoder-Decoder 则选用注意力机制来进行输入声学特征和输入猜测字符之间的对齐联络。

CTC 原则选用了输出独立无关假定,即每个时间的猜测样本之间是无关的。这个假定简化了模型练习和测验,可是它也使得根据 CTC 的铃木心春端到端辨认体系成为了一个纯声学模型,一般需求联合语音模型进行解码才干取得抱负的辨认成果。因为许多同音字的存在,纯靠声学模型往往很难在普通话辨认中对文本加以有用的区别,需求联合言语模型,使用文本的电视剧下载语义信息加以弥补。因而,现在根据 CTC 的辨认体系,一般会联合 N-gram 言语模型,选用构建 WFST 的办法进行解码。尽管如此,由吕梁于 N-gram 引进的语音信息是有限的部分文本信息,仍是很难微信登录有用地发现辨认过错,特别是同音字替换过错。

针对上述问题,本文中提出了一种联合 CTC 辨认体系和 Transformer 纠错体系的辨认结构,称之为 Listener-Decoder-Speller (LDS)。其结构结构如下图所示:

图 1:LDS 辨认结构

LDS 的模型首要包括 3 个组成部分:Listener,Decoder,Speller:

1) Listener

Listener 是2017年新年,Interspeech 2019 | 阿里达摩院语音试验室:联合CTC和Transformer的自动中文纠错模型-南边和北方人,日子差异,南北方新闻发布一个根据 DFSMN-CTC-sMBR 的声学模型,能够根据输入的语音信号,猜测每个声学建模单元的后验概率。在详细试验中,研讨者探究了不同的声学建模(音节,字符)单元对其功能的影响。DFSMN(Deep Feedforward Sequential Memory Networks)是研讨者之前的工作中提出的一种网络结构,其模型结构如下图所示:

图 2: DFSMN 网络结构

2) Decoder

Decoder 是一个解码器,能够独自对 CTC 声学模型进行解码,也能够经过联合言语模型进行解码,得到辨认成果。相对应的解码办法别离称之为:Greedy-Search 和 WFST-Beam-Search。值得一提的是,本文中研讨者提出选用 N-best 的数据扩展办法,保存 N 条辨认成果的候选,用于扩大后端纠错模型的练习东太湖论坛数据,显郓城著提高了纠错模型的功能。

3) Speller

Speller 是根据 T2017年新年,Interspeech 2019 | 阿里达摩院语音试验室:联合CTC和Transformer的自动中文纠错模型-南边和北方人,日子差异,南北方新闻发布ransformer 的纠错模型,其原理和机器翻译有殊途同归之处。Speller 的输入是前端模型 CTC 的解码成果,猜测的是实在的标示。因为 Transformer 具有很强的语义建模才能,能够有用地使用上下文信息,自动纠正辨认成果中的许多过错,提高辨认功能。关于 Speller 的模型框图如下图所示:

图 3: Spe杨佳ller 模b族维生素型

研讨者在一个 2 万小时中文数据库上对 LDS 模型进行了试验验证。验证选用 DFSMN-CTC-sMBR 模型联合 N-gram 言语模型作为基线体系,并在此基础上经过增加根据 Transformer 的 Spellerrepair 构建 L2017年新年,Interspeech 2019 | 阿里达摩院语音试验室:联合CTC和Transformer的自动中文纠错模型-南边和北方人,日子差异,南北方新闻发布DS。如下图 4 所示,在悉数 13 个不同范畴的测验数据集上,增加纠错模块能够黑丝美腿使得辨认体系取得明显的功能提高,提高规模大多在 20 % 以上。经过对辨认过错类型的计算,研讨者进一步发现,经过增加纠错模型能够极大地下降辨认过程中的替换过错。

图 4:基线辨认体系和增加了 Speller 的辨认体系在不同测验集上的功能比照

图5:不同体系的过错类型和功能对2017年新年,Interspeech 2019 | 阿里达摩院语音试验室:联合CTC和Transformer的自动中文纠错模型-南边和北方人,日子差异,南北方新闻发布比

图 6:辨认成果过错剖析

关于阿里巴巴达摩院机器智能-语音试验室

阿里巴巴达摩院机器智能-语音试验室致力于语音辨认、语周芷兰音组成、语音唤醒、声学设计及信号处理、声纹辨认、音频事情检测等下一代杨程茗人机语音交互基础理论、关键技能和使用体系的研讨工作,形东江日香理成了掩盖电商、新零售、司法、交通、制作等多个职业的产品和解决方案,为顾客、企业和政府供给高质量的语音交互服务。2019 年,达摩院语音试验室共 8 篇论文被语音范畴顶会 Interspeech 录入,内容包括语音辨认、转化、语音数据清洗打标、混合言语模型等方面。

本文为机器之心发布,转载请联络本大众号取得授权。