科學研究:語音識別的準確率,永遠達不到100%?

回首2010年,馬特·湯普森(Matt Thompson)在美國國家公共廣播網(NPR)的一篇評論文章中預言:“在不遠的將來,自動語音轉錄技術將變得快捷、好用,而且是免費的。”他將那一時刻稱為“語音奇點”,巧妙地借用了發明家雷·庫茲韋爾(Ray Kurzweil)的“奇點理論”——後者認為我們的意識有朝一日可以上傳到電腦上。湯普森還預言,可靠的自動語音識別(ASR)軟件將會改變記者的工作,更不用說律師、銷售人員和聽力障礙者了,所有處理語言說和寫的從業人員都會受到影響。
湯普森的預言曾令我十分激動,我迫切希望有一種技術能把我從令人疲倦的整理采訪記錄的工作中解脫出來。不過,雖然他在廣播領域有著輝煌的職業生涯,而且還在繼續(他目前擔任NPR調查報道中心的主任,負責《揭秘》節目等),但他預言的“語音奇點”似乎遙不可期。
不過,我們顯然已經取得了重大的進展。大量初創企業,例如Otter、Temi和Trint,開始提供在線服務。用戶可以上傳數字音頻文件,在幾分鍾後就能獲得語音轉錄的文本。在我擔任音頻製作人時,幾乎每一天都在使用這些服務。服務軟件生成文本的速度在提升,而所需的費用也在不斷降低,這確實令人歡喜鼓舞。
但文本的準確率卻是另一回事。2016年,微軟研究院的一個團隊宣布,他們的機器學習算法經過訓練後,將標準語料庫的錄音轉換成文本的準確率高達94%。在微軟的測試實驗中,這一軟件幾乎能和專業的轉錄員做得一樣好,大量媒體也開始稱讚語音識別軟件與人類“平起平坐”的時代已經到來。
但事實上,最後6%的準確率才是真正的難題所在。一個更慘痛的教訓的是:校對一份準確率為94%的文本耗費的時間,幾乎和直接手動轉錄原始錄音所耗費的時間相差無幾。而在這一次突破的4年後,Temi等服務軟件仍沒能將準確率提高至95%以上,而且隻能處理音質清晰、沒有口音的語音。
準確率為何如此重要?舉一個例子,越來越多的音頻製作者在發布播客時會遵循著網絡的易用性規範,附帶一份文本版本,但是,如果文本裏的文字每隔20個單詞就出現一處錯誤,那肯定沒人願意看。再考慮一下,如果像Alexa、Bixby、Cortana、Google Assistant和Siri這樣的語音助手能夠正確識別它們接收到的每一個問題或指令,能給人們節省多少時間?
ASR軟件可能永遠無法達到100%的準確率。畢竟人們說話未必總是十分流利,即使是使用母語。語言中也有太多需要結合上下文才能理解的同音異義詞。(語音轉錄服務曾將“ioses”識別為“Ayahusca”。)
但我所期望的是,這些語音服務還能提升1%~2%的準確率。在機器學習領域,為了減少算法錯誤率,一個至關重要的方法是提供更多高質量的訓練數據。因此,大多文本轉錄服務商都會采用不侵犯隱私的方式搜集更多的數據。舉例來說,每一次我修訂由Trint或是Sonix轉錄的文本時,我都在生成一份驗證過的符合原始錄音的新數據,這可以用於提升算法模型的質量。如果這能讓今後的錯誤率變得更低,我很樂於讓這些企業使用這些數據。
顯然,增加訓練數據是實現“語音奇點”的方法之一。隨著我們和機器對話的數量增多,我們產生的音頻數量也會與日俱增,可靠的語音轉錄技術將不再是奢侈的幻想或是遙遙無期的目標,它必然會實現。
撰文:韋德·勞什(Wade Roush)
翻譯:趙劍琳
文章來源:環球科學
關注【深圳科普】微信公眾號,在對話框:
回複【最新活動】,了解近期科普活動
回複【科普行】,了解最新深圳科普行活動
回複【研學營】,了解最新科普研學營
回複【科普課堂】,了解最新科普課堂
回複【科普書籍】,了解最新科普書籍
回複【團體定製】,了解最新團體定製活動
回複【科普基地】,了解深圳科普基地詳情
回複【觀鳥星空体育官网入口网站】,學習觀鳥相關科普星空体育官网入口网站
回複【博物學院】,了解更多博物學院活動詳情