百度開(kāi)放語(yǔ)音識(shí)別系統(tǒng)百度Deep Speech

作者: 孟州  2015-01-07 15:04 [查查吧]:uabf.cn

   據(jù)《福布斯》網(wǎng)站報(bào)道,今年5月,當(dāng)人工智能專家吳恩達(dá)(Andrew Ng)加盟百度,擔(dān)任這家公司首席科學(xué)家時(shí),他對(duì)自己的團(tuán)隊(duì)可能開(kāi)發(fā)的項(xiàng)目守口如瓶。但是?,F(xiàn)在,百度突然向外界揭曉了這位前谷歌研究員,也是斯坦福大學(xué)教授的最新研究成果。吳恩達(dá)及10名百度研究團(tuán)隊(duì)表示,他們已經(jīng)開(kāi)發(fā)出一種更為準(zhǔn)確的語(yǔ)音識(shí)別系統(tǒng)——百度Deep Speech。

  吳恩達(dá)表示,以語(yǔ)音識(shí)別系統(tǒng)準(zhǔn)確率標(biāo)準(zhǔn)衡量,百度Deep Speech系統(tǒng)要強(qiáng)于谷歌和蘋果等對(duì)手的系統(tǒng)。

  百度Deep Speech在噪音環(huán)境中(比如汽車內(nèi)和人群之中)的表現(xiàn)更為突出。吳恩達(dá)表示,在噪音環(huán)境下,測(cè)試顯示百度Deep Speech系統(tǒng)的出錯(cuò)率要比谷歌Speech API,Wit.AI,微軟Bing Speech以及蘋果Dictation低10%多。

  跟其他語(yǔ)音識(shí)別系統(tǒng)一樣,百度Deep Speech基于一種被稱之為“深度學(xué)習(xí)”(Deep Learning)的人工智能技術(shù)。該軟件能夠以一種非常原始形式來(lái)模仿人大腦新皮層中的神經(jīng)活動(dòng),因此深度學(xué)習(xí)系統(tǒng)就能夠識(shí)別出數(shù)字形式的聲音、圖片等數(shù)據(jù)。在接受采訪時(shí),吳恩達(dá)表示,第一代深度學(xué)習(xí)語(yǔ)言識(shí)別正接近極限。

  百度研究團(tuán)隊(duì)收集了9600個(gè)人長(zhǎng)達(dá)7000小時(shí)語(yǔ)音,這些語(yǔ)音大多發(fā)生在安靜的環(huán)境下。然后該團(tuán)隊(duì)使用了一種被稱之為“疊加”( superposition )的物理學(xué)原理,在這些語(yǔ)音樣本中增加了15類噪音。這樣,他們將這項(xiàng)語(yǔ)音樣本擴(kuò)容成一個(gè)10萬(wàn)小時(shí)的數(shù)據(jù)。然后,百度研究人員讓系統(tǒng)在噪音中識(shí)別語(yǔ)音。

  吳恩達(dá)表示,百度Deep Speech要比目前的語(yǔ)音識(shí)別系統(tǒng)簡(jiǎn)單的多,他們使用了一系列模塊,這些模塊能夠分析音素和其他語(yǔ)音元素。通常情況下,音素的識(shí)別需要人工設(shè)計(jì)模塊,并依靠一種名為“隱馬爾可夫模型”(Hidden Markov Models)統(tǒng)計(jì)概率系統(tǒng),該系統(tǒng)需要大量的人力來(lái)調(diào)整模型噪音和語(yǔ)音變異。百度系統(tǒng)則使用深度學(xué)習(xí)算法來(lái)替代這些模型,這一算法基于遞歸神經(jīng)網(wǎng)絡(luò),因此使得語(yǔ)音識(shí)別系統(tǒng)變得更為簡(jiǎn)單。

  不過(guò),真正讓這項(xiàng)系統(tǒng)正常運(yùn)行的背后“功臣”是百度超強(qiáng)新計(jì)算機(jī)系統(tǒng),該系統(tǒng)使用很多圖像處理器GPU。GPU通常應(yīng)用在筆記本電腦中用于加速圖形處理。而在百度語(yǔ)音識(shí)別系統(tǒng)中,GPU可以讓語(yǔ)音識(shí)別模型運(yùn)行速度變得更快、更“經(jīng)濟(jì)”,該系統(tǒng)運(yùn)行速度大概是吳恩達(dá)在斯坦福大學(xué)和谷歌期間所開(kāi)發(fā)系統(tǒng)運(yùn)行速度的40倍。

  吳恩達(dá)表示:“百度語(yǔ)音識(shí)別系統(tǒng)要比其他基于GPU系統(tǒng)更為全面。我們正進(jìn)入Speech 2.0時(shí)代,現(xiàn)在才是個(gè)開(kāi)始。”

  吳恩達(dá)并未透露百度何時(shí)會(huì)將這項(xiàng)語(yǔ)音識(shí)別技術(shù)整合到百度搜索和其他服務(wù)中。不過(guò),外界猜測(cè)百度可能會(huì)在明年某個(gè)時(shí)候?qū)eep Speech技術(shù)整合到百度Cool Box小服務(wù)中。

       以上就是關(guān)于百度開(kāi)放語(yǔ)音識(shí)別系統(tǒng)百度Deep Speech的介紹,希望對(duì)您有所幫助!

?
    發(fā)表評(píng)論

    醫(yī)療健康