當前位置:律師網大全 - 專利申請 - 語音識別有哪些開放的開發平臺?

語音識別有哪些開放的開發平臺?

語音識別開發平臺有很多,總結如下:(更詳細的介紹可以參考我的博文:幾種常用語音交互平臺的介紹和比較)

1.商業語音交互平臺

1)微軟語音API

微軟的語音API(簡稱SAPI)是壹個應用編程接口(API),包括語音識別(SR)和語音合成(SS)引擎,在Windows下廣泛使用。目前微軟已經發布了幾個版本的SAPI(最新版本是SAPI 5.4),要麽作為Speech SDK的開發工具包發布,要麽直接包含在windows操作系統中。SAPI支持多種語言的識別和閱讀,包括英語、中文和日語。

2).IBM viaVoice

IBM是較早開始語音識別研究的機構之壹。早在20世紀50年代末,IBM就開始了語音識別的研究。計算機被設計用來檢測特定的語言模式,並獲得聲音和相應字符之間的統計相關性。1999年,IBM發布了VoiceType的免費版本。2003年,IBM基於生存能力授權ScanSoft擁有桌面產品的獨家經銷權,隨後ScanSoft與Nuance合並。現在生存能力早已淡出人們的視線,取而代之的是細微差別。

3)細微差別

Nuance Communication是壹家跨國計算機軟件技術公司,總部位於美國馬薩諸塞州伯靈頓,主要提供語音和圖像解決方案及應用。目前業務集中在服務器和嵌入式語音識別、電話轉向系統、自動電話號簿服務等。除了語音識別技術,Nuance語音技術還包括語音合成、聲紋識別等技術。在世界語音技術市場上,80%以上的語音識別采用了Nuance識別引擎技術,其名下擁有超過1000項專利技術。該公司開發的語音產品可以支持50多種語言,在全球擁有超過20億用戶。Nuance的語音識別服務應用在蘋果iPhone 4S的Siri語音識別中。

4)科大訊飛

作為國內最大的智能語音技術提供商,科大訊飛在智能語音技術領域有著長期的研究和積累,在中文語音合成、語音識別、口語評測等技術方面擁有國際領先的成果。占據中國語音技術市場60%以上的份額,語音合成產品市場份額達到70%以上。

5)其他

其他有影響力的商業語音交互平臺包括谷歌的語音搜索、百度和搜狗的語音輸入法等。

2.開源語音交互平臺

1)CMU獅身人面像

CMU-斯芬克斯,也簡稱為斯芬克斯,是由卡耐基梅隆大學(CMU)開發的開源語音識別系統,包括壹系列語音識別器和聲學模型訓練工具。最早的Sphinx-I是李開復在1987左右開發的,使用固定的HMM模型(包括三個大小為256的碼本)。它被稱為第壹個高性能連續語音識別系統(在資源管理數據庫上的準確率為90%+)。最新的Sphinx語音識別系統包括以下軟件包:

Pocketsphinx —用c編寫的識別器庫。

sphinx base—pocket sphinx所需的支持庫

Sphinx4 —用Java編寫的可調整、可修改的識別器

CMUclmtk —語言模型工具

sphinxtrain——聲學模型培訓工具

這些軟件包的可執行文件和源代碼可以在sourceforge上免費下載。

2)HTK

HTK是隱馬爾可夫模型工具包的縮寫,主要用於語音識別研究。它最初是由劍橋大學工程系機器智能實驗室(原語音視覺與機器人組)於1989開發的,用於構建CUED的大詞匯量語音識別系統。HTK的最新版本是2009年發布的3.4.1版本。HTK的實現原理和各種工具的使用方法請參考HTK的文檔HTKBook。

3)朱利葉斯

Julius是壹個高性能、雙通道的大詞匯量連續語音識別(LVCSR)開源項目,適合研究人員和開發人員使用。它使用3-gram和上下文敏感的HMM,可以在當前PC上實現實時語音識別,單詞量為60k。

4)RWTH ASR

工具箱包含自動語音識別技術的最新算法實現,由Rwthahachen大學人類語言技術和模式識別小組開發。RWTH ASR工具箱包括聲學模型的構建、解析器等重要部分,以及說話人自適應組件、說話人自適應訓練組件、無監督訓練組件、個性化訓練和詞根處理組件。

5)其他

上面提到的開源工具箱主要用於語音識別,其他開源的語音識別項目有Kaldi、simon、iATROS-speech、SHoUT、桑給巴爾OpenIVR等。

  • 上一篇:有哪些競賽是大學自主招生承認的?
  • 下一篇:在北京發明專利申請的詳細程序是怎樣的?
  • copyright 2024律師網大全