發(fā)布時間:2017/9/8 17:41:23 來源:鳳凰網(wǎng) 編輯:中國家裝家居網(wǎng)
作為一名媒體從業(yè)者,小編在工作中少不得要和錄音筆打交道,有時還要親自帶著錄音筆去采訪。雖說有了錄音筆,讓采訪過程的記錄更為輕松,但回到公司,面對動輒四五十分鐘的錄音,小編常常欲哭無淚。也正是因?yàn)檫@種體驗(yàn),所以小編一直對語音識別技術(shù)的發(fā)展較為關(guān)注。
語音識別的終極夢想,是真正能夠理解人類語言甚至是方言環(huán)境的系統(tǒng)。但幾十年來,人們并沒有一個有效的策略來創(chuàng)建這樣一個系統(tǒng),直到人工智能技術(shù)的爆發(fā)。
在過去幾年中,人們在人工智能和深度學(xué)習(xí)領(lǐng)域的突破,讓語音識別的探索跨了一大步。

技術(shù)原理
所謂語音識別,就是將一段語音信號轉(zhuǎn)換成相對應(yīng)的文本信息,系統(tǒng)主要包含特征提取、聲學(xué)模型,語言模型以及字典與解碼四大部分,其中為了更有效地提取特征往往還需要對所采集到的聲音信號進(jìn)行濾波、分幀等預(yù)處理工作,把要分析的信號從原始信號中提取出來;之后,特征提取工作將聲音信號從時域轉(zhuǎn)換到頻域,為聲學(xué)模型提供合適的特征向量;聲學(xué)模型中再根據(jù)聲學(xué)特性計(jì)算每一個特征向量在聲學(xué)特征上的得分;而語言模型則根據(jù)語言學(xué)相關(guān)的理論,計(jì)算該聲音信號對應(yīng)可能詞組序列的概率;最后根據(jù)已有的字典,對詞組序列進(jìn)行解碼,得到最后可能的文本表示。
作為語音識別的前提與基礎(chǔ),語音信號的預(yù)處理過程至關(guān)重要。在最終進(jìn)行模板匹配的時候,是將輸入語音信號的特征參數(shù)同模板庫中的特征參數(shù)進(jìn)行對比,因此,只有在預(yù)處理階段得到能夠表征語音信號本質(zhì)特征的特征參數(shù),才能夠?qū)⑦@些特征參數(shù)進(jìn)行匹配進(jìn)行識別率高的語音識別。若果讓小編用一句話來進(jìn)行總結(jié)就是:對語音識別來說,給它足夠的數(shù)據(jù)量進(jìn)行學(xué)習(xí)是關(guān)鍵。
應(yīng)用案例
近日,搜狗召開發(fā)布會,正式推出其自研的速記神器——搜狗聽寫。這是一款能夠?qū)⒄Z音實(shí)時轉(zhuǎn)變成文字的速記工具,擁有轉(zhuǎn)寫和聽寫兩種模式,主要面向文字工作者。
搜狗語音交互技術(shù)中心總經(jīng)理王硯峰表示,搜狗聽寫中涉及到了大量前沿技術(shù),例如大規(guī)模的優(yōu)質(zhì)語音數(shù)據(jù)訓(xùn)練和深度學(xué)習(xí)的技術(shù)能力積累等,不僅可應(yīng)用于多個場景,其語音識別準(zhǔn)確率也高達(dá)97%以上。搜狗聽寫可提供兩種服務(wù),語音轉(zhuǎn)寫和語音聽寫。此外,它還同時具備了邊聽邊改、無線標(biāo)重點(diǎn)、多端同步、信息分享等多個功能。
微軟公司近日宣布,其對話式語音識別系統(tǒng)的出錯率達(dá)到5.1%,創(chuàng)下目前為止的最低水平,超過了去年微軟人工智能及研究事業(yè)部一組研究人員所實(shí)現(xiàn)的5.9%出錯率,達(dá)到了專業(yè)速錄員的同等水平。在此次研究中,專業(yè)速錄員具備重復(fù)收聽錄音等優(yōu)勢。
與此同時,市面上玲瑯滿目的產(chǎn)品也反映了這種飛躍式發(fā)展,例如亞馬遜Echo、蘋果Siri等等。
語音識別成關(guān)鍵
在智能 家居 ,不管是智能家電還是機(jī)器人,語音識別技術(shù)都是必備的基本功能之一。據(jù)知名市場調(diào)研公司MarketsAndMarkets發(fā)布的調(diào)查報(bào)告稱,全球智能 家居 市場規(guī)模將在2022年達(dá)到1220億美元,2016-2022年年均增長率預(yù)測為14%。而在機(jī)器人方面,研究機(jī)構(gòu)IDC預(yù)測,至2020年,全球機(jī)器人與相關(guān)服務(wù)市場規(guī)模將由2016年的915億美元增至1880億美元。從這兩點(diǎn)數(shù)據(jù)來看,可想而知未來智能 家居 的市場之大。
在控制方式上,除了部分智能家電之外,語音控制已經(jīng)成為了市場的主流,而這就是語音識別市場的商機(jī)。未來,作為人機(jī)自然交互的前提之一,語音識別必然是智能 家居 的發(fā)展趨勢,只有語音識別的準(zhǔn)確率接近完美,人機(jī)的自然交互才能繼續(xù)開展。在智能 家居 市場的推動下,語音識別技術(shù)必將成為重點(diǎn)發(fā)展對象。
三大挑戰(zhàn)
首先就是對象識別的準(zhǔn)確性。現(xiàn)在,在應(yīng)用上,我們看見語音識別多是在智能 家居 領(lǐng)域,包括智能家電和服務(wù)機(jī)器人。此時,我們就要考慮一個問題了,當(dāng)多個家庭成員同時講話時,智能家電和服務(wù)機(jī)器人該執(zhí)行誰的命令呢?它們又如何能在眾聲音中找出自己主人的命令?這些都是當(dāng)前語音識別所需要解決的問題,畢竟我們通常所說的語音識別不僅僅只是單純的對語音內(nèi)容進(jìn)行識別。
第二個必須解決的問題是語言擴(kuò)展:世界上大約有7000種語言,絕大多數(shù)語音識別系統(tǒng)能夠支持的語言數(shù)量大約是八十種。擴(kuò)展系統(tǒng)帶來了巨大的挑戰(zhàn)。此外,我們?nèi)鄙僭S多語言的數(shù)據(jù),而且匱乏數(shù)據(jù)資源則難以創(chuàng)建語音識別系統(tǒng)。
還要降低周邊環(huán)境的干擾。對于人類來講,在嘈雜環(huán)境中聽別人說話或是從眾多聲音中找出自己想聽的內(nèi)容還是一件較為簡單的事,而與此相反,這件事在機(jī)器這里并沒有那么容易。
編者總結(jié)
隨著智能 家居 市場的擴(kuò)大,應(yīng)用語音識別的產(chǎn)品和場景越來越多,同時也是對它的一個挑戰(zhàn)。如果連準(zhǔn)確性都無法保證的話,那么人機(jī)交互也無從談起。語音識別技術(shù)在2017年前半年發(fā)展足夠迅速,至于未來會如何,讓我們拭目以待吧!