语音识别距人类只差0.4%？

发布时间：2022-02-22 22:20:02

幾天前，一家美國公司宣布，當專業速記員記錄對話時，單詞錯誤率爲5.1%，而該公司新開發的語音識别系統的單詞錯誤率已達到5.5%，超越曆史上最好的水平，樹立新的裏程碑。語音識别是人工智能領域的核心問題之一。0.4%的差距似乎意味着機器即将與人類匹敵。

已經過了“家子年”

事實上，作爲人工智能子項目之一的語音識别，其曆史甚至超過了60年。

語音識别的研究可以追溯到1950年。計算機科學之父艾倫·圖靈在mind雜志上發表了一篇題爲《計算機器與智能》的論文，首次提出了機器智能的概念。本文還提出了一種驗證機器是否具有智能的方法：讓人與機器進行通信，如果人們不能判斷他們是在與人通信還是與機器通信，則意味着機器具有智能。這是後來著名的人工智能圖靈測試。

圖靈測試的概念極大地影響了人工智能中函數的定義。卡内基梅隆大學的兩位科學家希爾伯特·西蒙（Hilbert Simon）和曼紐爾·布盧姆（Manuel bloom）已經做了大量的前期工作，證明了羅素《數學原理》（principles of mathematics）中52條軌道中的38條。西蒙甚至聲稱，在10年内，機器可以達到與人類智能相同的高度。

從“模拟”人腦到創造統計方法

當人工智能在20世紀50年代明确了模拟人類智能的大膽目标時，這一領域在近20年中經曆了輝煌。研究人員開展了一系列項目，以表明計算機可以完成一系列原本屬于人類能力範圍的任務，如證明定理、解微積分、通過計劃響應命令、執行物理動作、，甚至模拟心理學家的心理實驗和譜系。

然而，過于簡單的算法和計算能力的限制嚴重阻礙了人們使用人工智能來解決更困難和多樣化的問題。

在這個階段，科學家們在人工智能語音識别的細分領域也走了同樣的彎路。他們認爲，爲了完成隻有人才才能完成的語音識别，計算機必須首先理解自然語言，這導緻研究局限于人類學習語言的方式，即計算機模拟人腦。語言學者參與了大量的研究工作，但最後的成果幾乎爲零。随着對未來繼續努力的失望，人工智能，包括語音識别，在20世紀70年代中期逐漸淡出公衆視野。

統計語言學的誕生出現了轉折。這必須提到一個關鍵人物——德裏克·賈利尼克和他的IBM沃森實驗室。他們使用創新的統計方法将語音識别率從70%快速提高到90%。同時，語音識别的規模也從數百個詞增加到了數萬個詞，使語音識别從實驗室走向實際應用成爲可能。

在jarnik之前，科學家将語音識别問題的核心歸結爲語言學中的規則問題。在jarnik将其視爲一個通信問題後，他用兩個隐馬爾可夫模型（聲學模型和語言模型）重述了語音識别。

這個框架對語音識别仍然有深遠的影響。它不僅使語音識别成爲可能，而且爲今天的自然語言處理奠定了基礎。賈尼克後來被選爲美國工程院院士，并被一家雜志評爲20世紀100位發明家之一。

巨大進步的催化劑

在20世紀90年代互聯網爆發時，人工智能的研究再次陷入停滞。直到21世紀的前10年，有一系列因素促使人工智能的研究進程複蘇，特别是以下重要因素和核心技術：

大數據。多虧了互聯網、社交媒體、移動設備和廉價傳感器，世界上産生的數據量急劇增加。大數據是人工智能發展的助推器。這是因爲一些人工智能技術使用統計模型來計算數據的概率，例如語音識别。通過數據海洋中豐富的語料庫，技術不斷優化。

新算法。算法是解決設計程序或完成任務的路徑方法。在一個完整的工業語音識别系統中，深度學習算法是關鍵。在專業領域中，還有大量與算法相關的工作，以及海量數據的收集和工程系統架構的構建。這些算法本身非常重要，也是其他技術的推動者。例如，谷歌的機器學習算法tensorflow目前是開源的。

可以說，任何技術都有儲能階段和爆炸階段。包括語音識别技術在内的人工智能的飛速發展得益于上述條件。這并不難理解。從語音識别的角度來看，它需要經驗、數據和用戶反饋來提高性能。我們需要使用用戶反饋來總結一些特征。

谷歌是全球第一家大規模使用深度學習算法的公司。它也是第一家将互聯網思維用于語音識别的公司。在這方面，受谷歌的啓發，科大訊飛迅速跟進，成爲中國第一家在商業系統中使用深度學習的公司。

現有的成就與需要解決的問題一樣多

語音識别技術已經發展了幾十年。由于大數據和深度學習的應用，這一領域的傳統優勢已成爲谷歌、亞馬遜、蘋果和微軟等美國科技巨頭。據統計，美國至少有26家公司在開發語音識别技術，中國有近50家公司在研究這一領域。

盡管谷歌語音識别技術巨頭的技術積累和先發優勢使得後來者很難趕上它，但由于一些政策和市場原因，當然，部分原因是漢語的複雜性高于英語，因此，國際巨頭的語音識别主要傾向于英語，中國語音智能領域的機會留給了科大訊飛、百度、搜狗等中國公司。在中國，這些本地化産品更爲用戶所熟悉。

識别中文有什麽困難？舉個簡單的例子，魯迅《孔乙己》中的孔乙己問題：有多少種方法可以寫出茴香豆的“茴香”？或者更現代的情況，如何描述快速物流？據說用中文回答這個問題至少有3600種方法，比如第二天，物流很棒，快遞點很受歡迎。盡管近年來語音識别取得了很大的進展，但仍有許多工作要做。

此外，它還可以确保語音識别在更真實的環境中正常工作。這些環境包括有大量背景噪音的場所，如會議場所或高速公路上的駕駛，以及在多人對話環境中區分不同的揚聲器。

另一個更深層次的問題是，如果有必要實現人機對話和人機寫作，那麽不僅需要使用機器來轉錄來自人類口腔的聲音信號，還需要理解人們所說的話。

從語音識别的角度來看，下一個前沿是從識别到理解。真正的人工智能仍在遙遠的地平線上。在機器能夠理解它聽到或看到的東西的真正意義之前，它仍然需要很長的時間和很長的路要走。

也可以說，我們正在從一個人類必須理解計算機的世界走向一個計算機必須理解我們的世界。亞裏士多德曾經說過，如果機器能做很多工作，它們就不能解放人類。也許這種解放的出發點是“理解”。（姜樹樹）

几天前，一家美国公司宣布，当专业速记员记录对话时，单词错误率为5.1%，而该公司新开发的语音识别系统的单词错误率已达到5.5%，超越历史上最好的水平，树立新的里程碑。语音识别是人工智能领域的核心问题之一。0.4%的差距似乎意味着机器即将与人类匹敌。

已经过了“家子年”

事实上，作为人工智能子项目之一的语音识别，其历史甚至超过了60年。

语音识别的研究可以追溯到1950年。计算机科学之父艾伦·图灵在mind杂志上发表了一篇题为《计算机器与智能》的论文，首次提出了机器智能的概念。本文还提出了一种验证机器是否具有智能的方法：让人与机器进行通信，如果人们不能判断他们是在与人通信还是与机器通信，则意味着机器具有智能。这是后来著名的人工智能图灵测试。

图灵测试的概念极大地影响了人工智能中函数的定义。卡内基梅隆大学的两位科学家希尔伯特·西蒙（Hilbert Simon）和曼纽尔·布卢姆（Manuel bloom）已经做了大量的前期工作，证明了罗素《数学原理》（principles of mathematics）中52条轨道中的38条。西蒙甚至声称，在10年内，机器可以达到与人类智能相同的高度。

从“模拟”人脑到创造统计方法

当人工智能在20世纪50年代明确了模拟人类智能的大胆目标时，这一领域在近20年中经历了辉煌。研究人员开展了一系列项目，以表明计算机可以完成一系列原本属于人类能力范围的任务，如证明定理、解微积分、通过计划响应命令、执行物理动作、，甚至模拟心理学家的心理实验和谱系。

然而，过于简单的算法和计算能力的限制严重阻碍了人们使用人工智能来解决更困难和多样化的问题。

在这个阶段，科学家们在人工智能语音识别的细分领域也走了同样的弯路。他们认为，为了完成只有人才才能完成的语音识别，计算机必须首先理解自然语言，这导致研究局限于人类学习语言的方式，即计算机模拟人脑。语言学者参与了大量的研究工作，但最后的成果几乎为零。随着对未来继续努力的失望，人工智能，包括语音识别，在20世纪70年代中期逐渐淡出公众视野。

统计语言学的诞生出现了转折。这必须提到一个关键人物——德里克·贾利尼克和他的IBM沃森实验室。他们使用创新的统计方法将语音识别率从70%快速提高到90%。同时，语音识别的规模也从数百个词增加到了数万个词，使语音识别从实验室走向实际应用成为可能。

在jarnik之前，科学家将语音识别问题的核心归结为语言学中的规则问题。在jarnik将其视为一个通信问题后，他用两个隐马尔可夫模型（声学模型和语言模型）重述了语音识别。

这个框架对语音识别仍然有深远的影响。它不仅使语音识别成为可能，而且为今天的自然语言处理奠定了基础。贾尼克后来被选为美国工程院院士，并被一家杂志评为20世纪100位发明家之一。

巨大进步的催化剂

在20世纪90年代互联网爆发时，人工智能的研究再次陷入停滞。直到21世纪的前10年，有一系列因素促使人工智能的研究进程复苏，特别是以下重要因素和核心技术：

大数据。多亏了互联网、社交媒体、移动设备和廉价传感器，世界上产生的数据量急剧增加。大数据是人工智能发展的助推器。这是因为一些人工智能技术使用统计模型来计算数据的概率，例如语音识别。通过数据海洋中丰富的语料库，技术不断优化。

新算法。算法是解决设计程序或完成任务的路径方法。在一个完整的工业语音识别系统中，深度学习算法是关键。在专业领域中，还有大量与算法相关的工作，以及海量数据的收集和工程系统架构的构建。这些算法本身非常重要，也是其他技术的推动者。例如，谷歌的机器学习算法tensorflow目前是开源的。

可以说，任何技术都有储能阶段和爆炸阶段。包括语音识别技术在内的人工智能的飞速发展得益于上述条件。这并不难理解。从语音识别的角度来看，它需要经验、数据和用户反馈来提高性能。我们需要使用用户反馈来总结一些特征。

谷歌是全球第一家大规模使用深度学习算法的公司。它也是第一家将互联网思维用于语音识别的公司。在这方面，受谷歌的启发，科大讯飞迅速跟进，成为中国第一家在商业系统中使用深度学习的公司。

现有的成就与需要解决的问题一样多

语音识别技术已经发展了几十年。由于大数据和深度学习的应用，这一领域的传统优势已成为谷歌、亚马逊、苹果和微软等美国科技巨头。据统计，美国至少有26家公司在开发语音识别技术，中国有近50家公司在研究这一领域。

尽管谷歌语音识别技术巨头的技术积累和先发优势使得后来者很难赶上它，但由于一些政策和市场原因，当然，部分原因是汉语的复杂性高于英语，因此，国际巨头的语音识别主要倾向于英语，中国语音智能领域的机会留给了科大讯飞、百度、搜狗等中国公司。在中国，这些本地化产品更为用户所熟悉。

识别中文有什么困难？举个简单的例子，鲁迅《孔乙己》中的孔乙己问题：有多少种方法可以写出茴香豆的“茴香”？或者更现代的情况，如何描述快速物流？据说用中文回答这个问题至少有3600种方法，比如第二天，物流很棒，快递点很受欢迎。尽管近年来语音识别取得了很大的进展，但仍有许多工作要做。

此外，它还可以确保语音识别在更真实的环境中正常工作。这些环境包括有大量背景噪音的场所，如会议场所或高速公路上的驾驶，以及在多人对话环境中区分不同的扬声器。

另一个更深层次的问题是，如果有必要实现人机对话和人机写作，那么不仅需要使用机器来转录来自人类口腔的声音信号，还需要理解人们所说的话。

从语音识别的角度来看，下一个前沿是从识别到理解。真正的人工智能仍在遥远的地平线上。在机器能够理解它听到或看到的东西的真正意义之前，它仍然需要很长的时间和很长的路要走。

也可以说，我们正在从一个人类必须理解计算机的世界走向一个计算机必须理解我们的世界。亚里士多德曾经说过，如果机器能做很多工作，它们就不能解放人类。也许这种解放的出发点是“理解”。（姜树树）

国家规定疫情减免房租了吗 2020疫情房租减免政策

疫情期间，房租会减免吗？其实，在疫情期间，我们可以看到很多新闻，有些中国好房东减免了所有的房租费，等疫情结束后再重新交房租，，这对于个人租户或企业来说，无疑是好消息，如果...[全文阅读]

刑侦日记根据什么改编的

TVB的悬疑剧一直深受大众的喜爱，而近期上映的刑侦日记更是汇聚了诸多熟悉的tvb演员，什么惠英红、王浩信啊。也正是因为这样网友们纷纷好奇刑侦日记是不是刑事侦缉档...[全文阅读]

科颜氏美白淡斑精华搓泥吗

科颜氏美白淡斑精华使用会搓泥和自己的肤质是有关系的，有可能是角质层没有定期做清理，也有可能是搭配的护肤品叠加太多，导致营养过剩，还有人担心科颜氏美白淡斑精华用...[全文阅读]

TF细黑管新色80口红试色，这支“断货王”终于有缎光质地了！

TF口红的80号色#impassioned堪称专柜断货王，颜色非常耐看，暖调红棕色非常高级、洋气。新出的细黑管的80号是缎光质地的，比哑光的会更奶油一些，质感感觉比纯哑光更迷人...[全文阅读]

ios15怎么退回14不用电脑

ios15系统并没有更新很多功能，而且很多人都不太系统这个版本，如果大家想退出旧版本，还是喜欢iOS14的话，也是可以降级的。那么，ios15降级绕过验证通道降14呢？一起来看看...[全文阅读]

良辰美景好时光梁辰陆景什么时候认出对方的

虽说时下很多播放的小甜剧都被大家喜爱，但是排在首位的便要数林一、徐璐主演的良辰美景好时光，但由于二人剧中本就在游戏中相熟，但是现实上却总是各种错过，于是良辰美...[全文阅读]

本文标题：语音识别距人类只差0.4%？

本文链接：https://www.biqugena.com/zhishi/shiwan/460415.html

上一篇：TF全新细黑管唇膏26#TO DIE FOR适合黄皮吗

下一篇：肯德基日向夏柑橘冰淇淋圣代什么味道好吃吗

喜欢十万个为什么就经常来哦！

阅读：121次

分类：十万个为什么

作者：南宫曦嫱

知识栏目分类

十万个为什么

语音识别距人类只差0.4%？

喜欢十万个为什么就经常来哦！

热门十万个为什么

精选十万个为什么

网友推荐

分享十万个为什么

语音识别距人类只差0.4%？

十万个为什么相关文章

喜欢十万个为什么就经常来哦！

热门十万个为什么

精选十万个为什么

网友推荐

分享十万个为什么