歡迎您光臨本站 註冊首頁

谷歌開源實時語音轉錄引擎 Live Transcribe Speech Engine

←手機掃碼閱讀     admin @ 2019-08-18 , reply:0

昨日,谷歌在其開源博客中宣布開源 Android 語音識別轉錄工具 —— Live Transcribe 的語音引擎(Live Transcribe Speech Engine),它旨在將語音或對話實時轉錄為文字,還能夠為聽障人士提供幫助。

Live Transcribe 是谷歌於今年 2 月推出的一款 Android 應用程序,它的語音識別由谷歌最先進的 Cloud Speech API 提供。但是,依賴於雲引入了一些複雜性,不斷變化的網路連接、數據成本和延遲的魯棒性等等都帶來一些考驗。因此,谷歌把它開源出來, 希望開發人員在已有的基礎上進一步構建和開發。

Cloud Speech API 目前無法支持無限的音頻流,團隊採取了一些措施來解決這一難題,例如在達到超時之前關閉並重新啟動流式傳輸請求,這將有效減少會話中丟失的文本量。

無限流媒體音頻帶來了一大挑戰。在許多國家,網路數據非常昂貴,並且在互聯網較差的地方,帶寬可能有限。Live Transcribe Speech Engine 的團隊對音頻編解碼器進行了大量實驗,並最終在不影響精度的情況下將數據使用量減少了 10 倍。

另外,由於是提供實時語音轉錄,轉錄出來的文本會隨著語音的輸入不斷發生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要歸功於它的自定義 Opus 編碼器。

此外,值得一提的是,Live Transcribe 支持超過 70 種語言,並能夠根據語音自動識別語種,其中也包括中文。


[admin ]

來源:OsChina
連結:https://www.oschina.net/news/109163/google-opensources-live-transcribes-speech-engine
谷歌開源實時語音轉錄引擎 Live Transcribe Speech Engine已經有76次圍觀

http://coctec.com/news/soft/show-post-212257.html