語(yǔ)音識別系統使用的聲學(xué)模型
來(lái)源:投稿網(wǎng) 時(shí)間:2023-08-18 10:00:07
語(yǔ)音識別是一門(mén)交叉學(xué)科。語(yǔ)音識別研究經(jīng)歷了50多年的研究過(guò)程,經(jīng)過(guò)50多年的積累研究,取得了巨大的進(jìn)展。特別是在過(guò)去的20年里,語(yǔ)音識別技術(shù)取得了顯著(zhù)的進(jìn)展,并逐漸進(jìn)入市場(chǎng)。在未來(lái),語(yǔ)音識別技術(shù)將得到更廣泛的應用。本文簡(jiǎn)要闡述了語(yǔ)音識別的發(fā)展和趨勢。
語(yǔ)音技術(shù)的發(fā)展歷史。
20世紀50年代,大多數研究人員致力于聲學(xué)和語(yǔ)音學(xué)的基本概念。1952年,在A(yíng)T&TBell實(shí)驗室,實(shí)現了10個(gè)英文數字的語(yǔ)音識別系統,單個(gè)發(fā)音人孤立發(fā)音,主要用于測量每個(gè)數字的元音段的共振峰。1956年,RCAlab進(jìn)行了另一項獨立研究,試圖識別10個(gè)不同音節的單個(gè)發(fā)音,也采用了測量共振峰的方法。1959年,英國UniversityCollege的研究人員開(kāi)始嘗試另一個(gè)想法,通過(guò)譜分析和模板匹配構建音素識別器,用于識別4個(gè)元音和9個(gè)輔音。20世紀60年代,語(yǔ)音識別的幾個(gè)重要思想相繼出現和發(fā)表。1962年,東京大學(xué)嘗試實(shí)現另一個(gè)音素識別器的硬件。它使用零率方法分離語(yǔ)音信號的不同部分。1963年,日本NECLab嘗試數字語(yǔ)音識別是最值得注意的工作,因為它不僅是NEC語(yǔ)音識別研究的開(kāi)始,也導致了一個(gè)長(cháng)期而有效的研究計劃。20世紀60年代,三個(gè)研究項目的發(fā)展對未來(lái)20年的語(yǔ)音識別研究和發(fā)展產(chǎn)生了重大影響。第一個(gè)研究項目始于20世紀60年代末研究項目始于20世紀60年代末,旨在研究語(yǔ)音事件時(shí)間不均勻性的實(shí)際解決方案。在可靠檢測語(yǔ)音事件開(kāi)始和結束的基礎上,開(kāi)發(fā)了一套時(shí)間糾正的基本方法。
2.語(yǔ)音識別技術(shù)的發(fā)展現狀。
通過(guò)全球科學(xué)家的共同努力,經(jīng)過(guò)半個(gè)多世紀的研究,語(yǔ)音識別技術(shù)已經(jīng)發(fā)展到接近實(shí)踐的階段。在實(shí)驗室環(huán)境中,寬帶語(yǔ)音信號的平均識別率可達90%以上。在正式獲得如此高的識別率后,語(yǔ)音識別技術(shù)逐漸從實(shí)驗室演示系統轉向實(shí)用商品。以IBMViavoice和Dragondictation為代表的兩個(gè)聽(tīng)寫(xiě)機系統的出現,使語(yǔ)音識別逐漸進(jìn)入公眾視野,引起了廣泛的社會(huì )關(guān)注。
由于校對和糾正識別錯誤是非常麻煩和浪費時(shí)間,因此降低了語(yǔ)音識別的優(yōu)勢。同時(shí),由于使用環(huán)境或口音習慣等因素的影響,語(yǔ)音識別的內容大大降低,識別的內容無(wú)法達到100%正確。因此,許多人認為目前的語(yǔ)音識別系統不能滿(mǎn)足實(shí)際要求。
目前,AT&T和MIT將語(yǔ)音識別技術(shù)應用于電話(huà)自動(dòng)轉接、電話(huà)查詢(xún)、數字串識別等一些有限詞匯的特定任務(wù)中。當演講內容存儲在系統中,使用環(huán)境的聲學(xué)特性與訓練數據的聲學(xué)特性差異不大時(shí),語(yǔ)音識別的正確識別率可接近100%。然而,如果這些條件在實(shí)際使用中被破壞,將對識別系統產(chǎn)生一定的影響。
3.語(yǔ)音識別技術(shù)的發(fā)展趨勢。
雖然過(guò)去20年語(yǔ)音識別有了很大的發(fā)展,但仍有許多不足需要進(jìn)一步探索,可分為以下幾個(gè)方面:
1)提高可靠性。語(yǔ)音識別技術(shù)需要能夠消除各種聲學(xué)環(huán)境因素的影響。在嘈雜的公共環(huán)境中,人們的意識會(huì )有意識地排除不必要的聲學(xué)環(huán)境因素,這對語(yǔ)音識別系統來(lái)說(shuō)是困難的。此外,在日常生活中,人類(lèi)語(yǔ)言往往具有很大的不確定性、隨機性和明顯的語(yǔ)言習慣。這也會(huì )給語(yǔ)音識別系統帶來(lái)很大的識別麻煩。目前,在提高語(yǔ)音系統在不同環(huán)境中的可靠性的同時(shí),應用現代技術(shù)使語(yǔ)音識別系統更加智能化,掌握人們語(yǔ)言隨機性的一些規律,以達到最佳的識別效果。
2)增加詞匯量。系統能識別的詞匯量是系統能做什么的重要測量。如果語(yǔ)音識別系統使用的聲學(xué)模型和語(yǔ)音模型過(guò)于有限,當用戶(hù)說(shuō)的詞匯超出系統已知范圍時(shí),語(yǔ)音識別系統無(wú)法準確識別相應的內容。例如,當它突然從中文變成英文、法語(yǔ)和俄語(yǔ)時(shí),計算機經(jīng)常輸出混亂和奇怪的結果。然而,隨著(zhù)系統建模方法的不斷改進(jìn)、搜索算法效率的提高和硬件資源的發(fā)展,未來(lái)的語(yǔ)音識別系統可能會(huì )實(shí)現無(wú)限詞匯和各種語(yǔ)言的混合,使用戶(hù)無(wú)需在語(yǔ)言之間來(lái)回切換,從而大大降低詞匯對語(yǔ)音識別系統的限制。
3)應用程序擴展。語(yǔ)音識別技術(shù)可以用來(lái)使大腦、費力、費時(shí)的機器操作成為一件非常容易和有趣的事情,例如,當人們忙碌,手和無(wú)知的場(chǎng)景,通過(guò)語(yǔ)音識別系統模型結構,可以在駕駛室、危險的工業(yè)場(chǎng)合、遠程信息獲取、家電控制等方面,語(yǔ)音識別技術(shù)可以推動(dòng)一系列新的或更方便的功能設備,更方便人們的工作和生活。它的應用范圍和前景都非常廣泛。它不僅可以應用于日常生活,而且可以帶來(lái)生產(chǎn)模式的革命,是下一代智能控制的基礎。
4)降低成本,減少體積。微型化是語(yǔ)音識別技術(shù)商業(yè)應用的另一種重要途徑,其推廣程度取決于語(yǔ)音識別技術(shù)本身的進(jìn)步,與微電子芯片技術(shù)的進(jìn)一步發(fā)展密切相關(guān)。語(yǔ)音識別應用系統具有先進(jìn)的功能和性能固化到更小的芯片或模塊,可以大大降低產(chǎn)品成本和體積,產(chǎn)品必須受到消費者的青睞,語(yǔ)音識別系統和微電子芯片技術(shù)的發(fā)展將引領(lǐng)我們的信息技術(shù)革命達到一個(gè)新的水平。
21世紀是信息和網(wǎng)絡(luò )的時(shí)代。網(wǎng)絡(luò )上可以實(shí)現一系列人類(lèi)活動(dòng),如自然口語(yǔ)對話(huà)、電子商務(wù)、信息索取、數字圖書(shū)館、語(yǔ)音翻譯、遠程教育等。語(yǔ)音識別系統的出現將使人們在任何地方、任何時(shí)間、任何事情上都能輕松地享受到更多的社會(huì )信息資源和現代服務(wù)。這必將成為語(yǔ)音識別技術(shù)研究和應用的重要發(fā)展趨勢。