我們平時接觸到的和語音相關(guān)的應(yīng)用,不管展現(xiàn)形式是什么,其核心是自動語音識別(Automatic Speech Recognition,ASR),很多時候再加上和其他技術(shù)的集成應(yīng)用。由于聲音文件無法直接處理,所以通過 ASR 將聲音轉(zhuǎn)成文字之后再處理,比如語音輸入法、自動語音應(yīng)答、語音搜索。通俗地說,就是將語音轉(zhuǎn)化成文字(STT),過程正好和語音合成(TTS)相反。接下來要討論的是呼叫中心在哪些場景中可以使用 ASR?如何使用才能讓語音應(yīng)用更加實(shí)際可用。
一、語音識別技術(shù)的發(fā)展
語音識別技術(shù)的應(yīng)用由來已久,但一直沒有出現(xiàn)很成熟的應(yīng)用。準(zhǔn)確地識別一段語音,是件非常困難的事。除了不同語種的差別,即使是漢語,在加入方言、口音、同音字詞這些因素后也會產(chǎn)生海量的語音要識別,直到最近幾年,自動語音識別又開始成為熱門的討論內(nèi)容,一個又一個呼叫中心開始立項(xiàng)。推動自動語音識別應(yīng)用發(fā)展的力量主要來自兩個方面,一方面是技術(shù)的進(jìn)步,另一方面是持久的訓(xùn)練。
在更快的計算能力和更高級的算法出現(xiàn)以前,自動語音識別技術(shù)的應(yīng)用必然被限制在實(shí)驗(yàn)室中或者某一狹窄的領(lǐng)域。幸運(yùn)的是計算能力一直在提升,上世紀(jì) 80 年代又出現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)算法,所以應(yīng)對千變?nèi)f化的語音才變得越來越容易,也因此而誕生了今天眾多的智能語音應(yīng)用。
技術(shù)進(jìn)步是持久訓(xùn)練得以產(chǎn)生效果的基礎(chǔ),因?yàn)楫?dāng)計算機(jī)沒有能力處理海量數(shù)據(jù)的時候,再多的訓(xùn)練產(chǎn)生再多的數(shù)據(jù)也是沒有用的。自動語音識別技術(shù)應(yīng)用發(fā)生質(zhì)的變化依賴于計算能力和算法這些基礎(chǔ)軟硬件的升級換代,這取決于基礎(chǔ)科學(xué)技術(shù)領(lǐng)域的進(jìn)步。你是不是聯(lián)想到《三體》小說中關(guān)于基礎(chǔ)物理的觀點(diǎn)?基礎(chǔ)物理學(xué)的發(fā)展才能推動科技發(fā)生質(zhì)的飛躍,基礎(chǔ)物理學(xué)沒有新的發(fā)現(xiàn)和理論,科學(xué)技術(shù)就會被限制在某個層次上。
當(dāng)年在英語環(huán)境下應(yīng)用不錯的產(chǎn)品,到了中文環(huán)境就水土不服,那就是因?yàn)橛?xùn)練太少。相信很多人在了解某個語音產(chǎn)品時,問得最多的一個熱點(diǎn)問題就是“方言識別效果怎么樣?”,以前得到的答案是“只支持普通話”,后來得到的答案是“可以支持帶口音的普通話”。其中的差別在哪?不是技術(shù)發(fā)生什么變化了,只是訓(xùn)練的多了,見識的語音足夠多了。經(jīng)過訓(xùn)練的自動語音識別應(yīng)用和10年前確實(shí)不可同日而語了,如果再拋開那些表示語氣的字詞,對句子核心意思的翻譯準(zhǔn)確率應(yīng)該已經(jīng)很不錯了。
現(xiàn)在,自動語音識別的相關(guān)應(yīng)用要有好的表現(xiàn),還得像過去的幾年一樣,要不斷去訓(xùn)練訓(xùn)練再訓(xùn)練,不同地域口音方言的訓(xùn)練、不同行業(yè)專業(yè)詞匯的訓(xùn)練、不同聲音采樣率精度的訓(xùn)練。自動語音識別哪家投入的針對性訓(xùn)練多、優(yōu)化多,哪家的應(yīng)用表現(xiàn)就好。一句話, 聽多識廣,總能優(yōu)化,也總要優(yōu)化。這就是從應(yīng)用發(fā)展的角度理解自動語音識別技術(shù)應(yīng)用。
與對待智能機(jī)器人的態(tài)度相類似,更經(jīng)濟(jì)的做法是把自動語音識別應(yīng)用在有限的業(yè)務(wù)范圍內(nèi),焦點(diǎn)放在“要識別什么”,而不是“還有什么不能識別”。比如,手機(jī)上的用于識別操作指令,效果就不錯,因?yàn)橐R別的內(nèi)容被限定在某個特定的范圍內(nèi)。分析一下你的業(yè)務(wù),其實(shí)要識別的有價值的內(nèi)容應(yīng)該也不會很多很多吧。而且,大多數(shù)的業(yè)務(wù),識別語音并不需要很高很高的準(zhǔn)確率。這就為今天自動語音識別技術(shù)實(shí)際應(yīng)用到業(yè)務(wù)中創(chuàng)造了機(jī)會。字符識別(OCR)是一個很好的可以類比的例子,從普遍性來說 OCR 還是不成熟的,在中文領(lǐng)域甚至難于 ASR,但最近停車場應(yīng)用在車牌識別方面卻非常普遍。
下面就具體說說呼叫中心一些和自動語音識別相關(guān)的應(yīng)用場景。
二、第一類應(yīng)用,簡單指令或有限字詞的識別
IVR 導(dǎo)航是一個最普遍的應(yīng)用,該應(yīng)用可以根據(jù)客戶所說的地址自動播報電話號碼,如今我們用語音查詢保費(fèi)、導(dǎo)航 IVR 菜單、語音查詢賬單,在內(nèi)容上的難度要低于地址查詢,因?yàn)榈刂飞婕暗降淖衷~更多。這類應(yīng)用還有一個特征,是單次互動,沒有復(fù)雜的交流過程,所以使用語音識別產(chǎn)品把語音轉(zhuǎn)成文字,再加一些簡單的關(guān)鍵詞理解,可能就上線應(yīng)用了,本身技術(shù)難度不大。
如果和其他系統(tǒng)融合再深入些,有兩個場景是可以考慮的。
其一,關(guān)鍵詞輔助指引。在人工和客戶通話過程中,系統(tǒng)自動根據(jù)預(yù)設(shè)的關(guān)鍵字詞調(diào)取相關(guān)的知識庫內(nèi)容展示在頁面上,大大提高了座席獲取知識庫知識的效率,尤其是在知識被碎片化成 FAQ 的情況下。如果有比較好的智能機(jī)器人支持,效果當(dāng)然更加不凡。這類應(yīng)用逐漸開展的做法,可以是設(shè)置需要識別的字詞過濾,這樣可以把少量已知或準(zhǔn)確率高的知識和對話聯(lián)動起來,避免大量低準(zhǔn)確率或無效的知識聯(lián)動干擾。目前還鮮有看到這方面的應(yīng)用,不過我個人很期待這樣的應(yīng)用產(chǎn)生,因?yàn)閷?shí)際上沒有什么技術(shù)難題了。
這種場景其實(shí)和早期語音識別廠商大力推薦的應(yīng)用相同,只不過前面提到過那時的賣點(diǎn)是促進(jìn)銷售。那時的基本邏輯是,系統(tǒng)根據(jù)客戶所說的內(nèi)容自動提示座席該客戶存在什么樣的銷售機(jī)會,而不依賴于“座席要足夠敏感”“座席不要忘了說”。隨之帶來的是銷售業(yè)績上升,給企業(yè)帶來更好的收益。
也許是“畫”出來的收益太大了,所以廠商一般都獅子大開口,把產(chǎn)品賣得很貴。也有可能是因?yàn)楫a(chǎn)品進(jìn)入市場急于收回研發(fā)成本而很貴,才“畫”了這樣的收益賣點(diǎn)?,F(xiàn)在看起依然還是貴的,特別是那些按 License 賣產(chǎn)品,有些產(chǎn)品還有錄音系統(tǒng)問題,也許要改造甚至更換錄音系統(tǒng),投入不小。不過,已經(jīng)有廠商愿意用利益分成的方法進(jìn)行合作,多少可以說明廠商對這一應(yīng)用還是有信心。其二,輔助錄入??蛻粽f的話,直接轉(zhuǎn)化成文字變成需要錄入的內(nèi)容,節(jié)省一些錄入時間,或者避免座席錄入的隨意性和不可控性。
這其實(shí)和語音輸入法是一樣的應(yīng)用,只不過語音換成了對方客戶的聲音,或者客戶和座席兩個人的聲音對于這樣的擴(kuò)展應(yīng)用,個人認(rèn)為沒有什么技術(shù)障礙,只要評估投入是否能接受,投入產(chǎn)出比是否達(dá)到了預(yù)期。應(yīng)用實(shí)施剛開始,效果一般不會好的,因?yàn)檎Z音輸入法的應(yīng)用對象和場景具有普遍性和廣泛性,在某一專業(yè)領(lǐng)域會水土不服,接下來要做的就是“專業(yè)訓(xùn)練”。
三、第二類應(yīng)用,智能語音問答
智能語音問答是自動語音識別最普遍的期望。注意,是期望,而不是應(yīng)用,因?yàn)橐獙?shí)現(xiàn)機(jī)器與人交流,關(guān)鍵既有語音識別,也有智能問答,是兩者的組合。智能問答現(xiàn)在面臨的理解難題和題庫難題,決定了智能問答的還不夠成熟,所以組合起來的應(yīng)用更是困難重重。智能語音問答通常讓人聯(lián)想到呼入業(yè)務(wù),這確實(shí)很難。如果從“有限內(nèi)容”去匹配業(yè)務(wù),就會發(fā)現(xiàn)在回訪(呼出)業(yè)務(wù)上應(yīng)用智能語音問答,也許是個不錯的選擇。由于回訪業(yè)務(wù)中內(nèi)容是預(yù)先設(shè)定的,整個溝通過程中涉及的內(nèi)容大多數(shù)情況下是有限的,相當(dāng)于是限定了自動語音識別的字詞范圍和智能機(jī)器人的問答范圍,所以智能語音問答應(yīng)付這種場景會容易很多。更簡單一些的回訪,即使不用任何智能問答的成分,僅去識別客戶回答中的某些關(guān)鍵詞,通常就能滿足業(yè)務(wù)需要了,這就變成了實(shí)質(zhì)上的“有限字詞的識別”。所以回訪是自動語音識別在智能語音問答類應(yīng)用中比較普遍的場景回訪是自動語音識別在智能語音問答類應(yīng)用中比較普遍的場景,已經(jīng)有不少公司實(shí)際開展了這樣項(xiàng)目。
最近在很多公司力推的 APP 上,也開始使用自動語音識別,幫助客戶跳轉(zhuǎn)到相關(guān)的頁面,回答客戶的一些問題。如何理解、回答,和電話渠道面臨的困難是一樣的,優(yōu)勢在于 16K 的采樣率有助于提高音轉(zhuǎn)字準(zhǔn)確率。
四、第三類應(yīng)用,智能語音分析
對呼叫中心來說,除了大量的結(jié)構(gòu)化數(shù)據(jù)之外,還有大量的錄音,大家都認(rèn)為這既是一個需要監(jiān)控的高風(fēng)險地帶,也是一個值得挖掘的寶藏??墒莻鹘y(tǒng)的技術(shù),無法對錄音進(jìn)行分析,只能靠人工去聽,費(fèi)時費(fèi)力,分析的樣本不夠典型,質(zhì)檢覆蓋率非常低。自動語音識別可以很好地解決這個問題,當(dāng)應(yīng)用語音識別將語音轉(zhuǎn)成文字之后,就存在了全量檢查、分析的可能。
最常見的應(yīng)用場景是語音質(zhì)檢,具體做法是使用語音識別產(chǎn)品,將錄音轉(zhuǎn)化為文字,再從這些文字中尋找需要檢查的內(nèi)容。這是一種事后的應(yīng)用,細(xì)化一下有三種用途:
第一種,提高問題檢出率。通常用于合規(guī)檢查,該說的話是不是說了,不該說的話是不是真的沒說。最先應(yīng)用的是在電話銷售、電話回訪業(yè)務(wù)中,這類業(yè)務(wù)往往有很多監(jiān)管的要求,以避免各種誤導(dǎo),撇清各種責(zé)任。還有用于日常質(zhì)檢中檢查有沒有出現(xiàn)服務(wù)禁語惹了客戶。語音質(zhì)檢理論上可以做到檢查所有錄音,達(dá)到 100%的覆蓋,這樣就不用擔(dān)心傳統(tǒng)方法未抽檢到的錄音中是否有座席心存僥幸。
第二種,輔助提升技能。質(zhì)檢的定位越來越被認(rèn)可是幫助座席提升技能而不是扣分的,所以語音質(zhì)檢也要去找出錄音中座席不熟練、生疏的內(nèi)容,幫助其提升技能。比如重復(fù)多次的話、停頓、不能適當(dāng)主導(dǎo)通話內(nèi)容,等等。
第三種,分析來電原因。對客戶關(guān)注熱點(diǎn)的變化,一般通過來電原因來分析。記錄每一通電話的來電原因,傳統(tǒng)的做法是話后小結(jié),缺點(diǎn)是增加處理時間,而且不納入質(zhì)檢差錯的話后小結(jié),通常不準(zhǔn)。先進(jìn)一點(diǎn)的做法,根據(jù)操作頁面自動記錄,只是有時候遇到同頁面不同原因時,不容易細(xì)分,同時也受座席操作影響。這些做法還有一個共同缺點(diǎn)是,不管是服務(wù)小結(jié)還是頁面點(diǎn)擊,來電原因都是預(yù)設(shè)的,對歷史數(shù)據(jù)不能按新的來電原因統(tǒng)計。而通過語音來分析,準(zhǔn)確性會提升,而且對歷史錄音也可以按照新的維度去統(tǒng)計分析。
上述三種用途,總的來說效果一般,原因在于音轉(zhuǎn)字之后的非結(jié)構(gòu)化文本分析,并不是現(xiàn)在這些語音識別廠商的強(qiáng)項(xiàng)。所以,如果要把語音質(zhì)檢用好,出路可能是和大數(shù)據(jù)分析產(chǎn)品或?qū)I(yè)的非結(jié)構(gòu)化數(shù)據(jù)分析產(chǎn)品集成。在此之前,靠著一些“包含/不包含”“且/或”表達(dá)式創(chuàng)建起來的模型,終究應(yīng)用范圍和效果有限。
五、第四類應(yīng)用,實(shí)時語音監(jiān)控分析
因?yàn)閷?shí)時語音監(jiān)控分析和事后的質(zhì)檢分析是不一樣的,這通常是國外供應(yīng)商經(jīng)常描繪、卻很少見的應(yīng)用場景,這是一種事中的應(yīng)用。雙十一各大電商都有大大的電子顯示屏實(shí)時展現(xiàn)各種交易數(shù)據(jù),看的一清二楚,人家那是結(jié)構(gòu)化數(shù)據(jù),好辦。想象一下,如果呼叫中心的監(jiān)控大屏,也有一個大大的電子顯示屏,實(shí)時展現(xiàn)現(xiàn)在來電客戶所關(guān)注的問題,能夠馬上發(fā)現(xiàn)一些熱點(diǎn)的異常變化,是不是很酷?這樣就不用在來電量發(fā)生突然變化的時候,去問座席“有什么異常嗎/有什么來電特別多嗎”了,也不用等不怎么準(zhǔn)不怎么細(xì)化的來電語音分析了;也不用等事后的語音分析了。反應(yīng),自然變快了。只是,這樣的應(yīng)用所帶來的好處和所投入的成本相比,似乎還很不般配。反過來因?yàn)闆]有太多的應(yīng)用,沒經(jīng)過大量的實(shí)戰(zhàn),投入使用的效果也不見得好。
六、對于自動語音識別技術(shù)應(yīng)用的一些建議
除了“有限范圍”這一原則外,在現(xiàn)有條件下有些辦法可以有助于提高自動語音識別應(yīng)用的效果。
其一,專業(yè)產(chǎn)品集成。除了自動語音識別本身不斷訓(xùn)練、優(yōu)化,提高音轉(zhuǎn)字準(zhǔn)確率之外,還要和其他關(guān)鍵關(guān)聯(lián)方集成應(yīng)用。智能語音對話的關(guān)鍵關(guān)聯(lián)方是智能機(jī)器人,那要么智能語音產(chǎn)品中包含了這樣的功能,要么和智能機(jī)器人組合起來使用。智能語音分析的關(guān)鍵關(guān)聯(lián)方是大數(shù)據(jù)分析產(chǎn)品,各種分析模型。很多時候,這些集成使用的關(guān)聯(lián)方好壞,甚至更為重要。
其二,搭建自有系統(tǒng)。有些廠商是提供云服務(wù)的方式進(jìn)行語音識別的,優(yōu)點(diǎn)是便宜,缺點(diǎn)是云端的模型優(yōu)化不能完全按照自有的業(yè)務(wù)特點(diǎn)進(jìn)行(私有云除外)。而自有系統(tǒng),就可以按照一些專業(yè)、特有詞匯進(jìn)行語料庫的訓(xùn)練優(yōu)化,現(xiàn)在識別準(zhǔn)確率方面的利器就是訓(xùn)練。如果有廠商駐場優(yōu)化,那是更好。
其三,預(yù)先篩選錄音。一套語音識別系統(tǒng)還是很貴的,尤其是一套自有的系統(tǒng),越多的轉(zhuǎn)譯錄音時長,越多的服務(wù)器資源。而如果能通過結(jié)構(gòu)化的數(shù)據(jù)篩選條件,先找出符合條件的錄音,再去轉(zhuǎn)譯的話,錄音時長就少多了,也不用擔(dān)心隨機(jī)采集到的樣本量太少。比如電銷只取銷售成功的錄音,因?yàn)殇N售失敗的不是監(jiān)管重點(diǎn);比如只取某某產(chǎn)品的客戶錄音轉(zhuǎn)譯,因?yàn)檫@個產(chǎn)品的咨詢、投訴是當(dāng)前監(jiān)控的重點(diǎn)。
其四,在壓縮前轉(zhuǎn)譯。通常為節(jié)省存儲,電話錄音會被壓縮得很厲害。由于電話本身 8K 采樣率已經(jīng)先天不足,再被壓縮的話語音識別效果就更差了。所以可以采取先高品質(zhì)暫存,轉(zhuǎn)譯后再壓縮。
其五,雙聲道錄音。這個大家都明白的,把客戶錄音和座席錄音分開來,就可以做更多、更精準(zhǔn)的分析。
一方面,自動語音識別的應(yīng)用開展得如火如荼,很多人都非常樂觀,大步邁進(jìn);另一方面,連李開復(fù)都在三亞演講提及語音識別還是不成熟的技術(shù),他看到的一個一個計劃 99%會死掉。從兩個方面去理解,要期望解決所有問題,那還不成熟;要解決特定問題,還是可以樂觀的。用專業(yè)人士的話說就是“先做好垂直領(lǐng)域,解決單領(lǐng)域的實(shí)際問題”,金融是人工智能短期看好的領(lǐng)域,中期才輪到醫(yī)療,無人駕駛就是長期了。
實(shí)際上,長期來說又是對計算能力、算法的基礎(chǔ)軟硬件提出的挑戰(zhàn)。再一次聯(lián)系《三體》小說中的觀點(diǎn),基礎(chǔ)物理學(xué)的發(fā)展才能推動科技發(fā)生質(zhì)的飛躍,基礎(chǔ)物理學(xué)沒有新的發(fā)現(xiàn)和理論,科學(xué)技術(shù)就會被限制在某個層次上。立足當(dāng)下,用好現(xiàn)有產(chǎn)品;展望未來,期待下一次質(zhì)的飛躍。
我們平時接觸到的和語音相關(guān)的應(yīng)用,不管展現(xiàn)形式是什么,其核心是自動語音識別(Automatic Speech Recognition,ASR),很多時候再加上和其他技術(shù)的集成應(yīng)用。由于聲音文件無法直接處理,所以通過 ASR 將聲音轉(zhuǎn)成文字之后再處理,比如語音輸入法、自動語音應(yīng)答、語音搜索。通俗地說,就是將語音轉(zhuǎn)化成文字(STT),過程正好和語音合成(TTS)相反。接下來要討論的是呼叫中心在哪些場景中可以使用 ASR?如何使用才能讓語音應(yīng)用更加實(shí)際可用。
一、語音識別技術(shù)的發(fā)展
語音識別技術(shù)的應(yīng)用由來已久,但一直沒有出現(xiàn)很成熟的應(yīng)用。準(zhǔn)確地識別一段語音,是件非常困難的事。除了不同語種的差別,即使是漢語,在加入方言、口音、同音字詞這些因素后也會產(chǎn)生海量的語音要識別,直到最近幾年,自動語音識別又開始成為熱門的討論內(nèi)容,一個又一個呼叫中心開始立項(xiàng)。推動自動語音識別應(yīng)用發(fā)展的力量主要來自兩個方面,一方面是技術(shù)的進(jìn)步,另一方面是持久的訓(xùn)練。
在更快的計算能力和更高級的算法出現(xiàn)以前,自動語音識別技術(shù)的應(yīng)用必然被限制在實(shí)驗(yàn)室中或者某一狹窄的領(lǐng)域。幸運(yùn)的是計算能力一直在提升,上世紀(jì) 80 年代又出現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)算法,所以應(yīng)對千變?nèi)f化的語音才變得越來越容易,也因此而誕生了今天眾多的智能語音應(yīng)用。
技術(shù)進(jìn)步是持久訓(xùn)練得以產(chǎn)生效果的基礎(chǔ),因?yàn)楫?dāng)計算機(jī)沒有能力處理海量數(shù)據(jù)的時候,再多的訓(xùn)練產(chǎn)生再多的數(shù)據(jù)也是沒有用的。自動語音識別技術(shù)應(yīng)用發(fā)生質(zhì)的變化依賴于計算能力和算法這些基礎(chǔ)軟硬件的升級換代,這取決于基礎(chǔ)科學(xué)技術(shù)領(lǐng)域的進(jìn)步。你是不是聯(lián)想到《三體》小說中關(guān)于基礎(chǔ)物理的觀點(diǎn)?基礎(chǔ)物理學(xué)的發(fā)展才能推動科技發(fā)生質(zhì)的飛躍,基礎(chǔ)物理學(xué)沒有新的發(fā)現(xiàn)和理論,科學(xué)技術(shù)就會被限制在某個層次上。
當(dāng)年在英語環(huán)境下應(yīng)用不錯的產(chǎn)品,到了中文環(huán)境就水土不服,那就是因?yàn)橛?xùn)練太少。相信很多人在了解某個語音產(chǎn)品時,問得最多的一個熱點(diǎn)問題就是“方言識別效果怎么樣?”,以前得到的答案是“只支持普通話”,后來得到的答案是“可以支持帶口音的普通話”。其中的差別在哪?不是技術(shù)發(fā)生什么變化了,只是訓(xùn)練的多了,見識的語音足夠多了。經(jīng)過訓(xùn)練的自動語音識別應(yīng)用和10年前確實(shí)不可同日而語了,如果再拋開那些表示語氣的字詞,對句子核心意思的翻譯準(zhǔn)確率應(yīng)該已經(jīng)很不錯了。
現(xiàn)在,自動語音識別的相關(guān)應(yīng)用要有好的表現(xiàn),還得像過去的幾年一樣,要不斷去訓(xùn)練訓(xùn)練再訓(xùn)練,不同地域口音方言的訓(xùn)練、不同行業(yè)專業(yè)詞匯的訓(xùn)練、不同聲音采樣率精度的訓(xùn)練。自動語音識別哪家投入的針對性訓(xùn)練多、優(yōu)化多,哪家的應(yīng)用表現(xiàn)就好。一句話, 聽多識廣,總能優(yōu)化,也總要優(yōu)化。這就是從應(yīng)用發(fā)展的角度理解自動語音識別技術(shù)應(yīng)用。
與對待智能機(jī)器人的態(tài)度相類似,更經(jīng)濟(jì)的做法是把自動語音識別應(yīng)用在有限的業(yè)務(wù)范圍內(nèi),焦點(diǎn)放在“要識別什么”,而不是“還有什么不能識別”。比如,手機(jī)上的用于識別操作指令,效果就不錯,因?yàn)橐R別的內(nèi)容被限定在某個特定的范圍內(nèi)。分析一下你的業(yè)務(wù),其實(shí)要識別的有價值的內(nèi)容應(yīng)該也不會很多很多吧。而且,大多數(shù)的業(yè)務(wù),識別語音并不需要很高很高的準(zhǔn)確率。這就為今天自動語音識別技術(shù)實(shí)際應(yīng)用到業(yè)務(wù)中創(chuàng)造了機(jī)會。字符識別(OCR)是一個很好的可以類比的例子,從普遍性來說 OCR 還是不成熟的,在中文領(lǐng)域甚至難于 ASR,但最近停車場應(yīng)用在車牌識別方面卻非常普遍。
下面就具體說說呼叫中心一些和自動語音識別相關(guān)的應(yīng)用場景。
二、第一類應(yīng)用,簡單指令或有限字詞的識別
IVR 導(dǎo)航是一個最普遍的應(yīng)用,該應(yīng)用可以根據(jù)客戶所說的地址自動播報電話號碼,如今我們用語音查詢保費(fèi)、導(dǎo)航 IVR 菜單、語音查詢賬單,在內(nèi)容上的難度要低于地址查詢,因?yàn)榈刂飞婕暗降淖衷~更多。這類應(yīng)用還有一個特征,是單次互動,沒有復(fù)雜的交流過程,所以使用語音識別產(chǎn)品把語音轉(zhuǎn)成文字,再加一些簡單的關(guān)鍵詞理解,可能就上線應(yīng)用了,本身技術(shù)難度不大。
如果和其他系統(tǒng)融合再深入些,有兩個場景是可以考慮的。
其一,關(guān)鍵詞輔助指引。在人工和客戶通話過程中,系統(tǒng)自動根據(jù)預(yù)設(shè)的關(guān)鍵字詞調(diào)取相關(guān)的知識庫內(nèi)容展示在頁面上,大大提高了座席獲取知識庫知識的效率,尤其是在知識被碎片化成 FAQ 的情況下。如果有比較好的智能機(jī)器人支持,效果當(dāng)然更加不凡。這類應(yīng)用逐漸開展的做法,可以是設(shè)置需要識別的字詞過濾,這樣可以把少量已知或準(zhǔn)確率高的知識和對話聯(lián)動起來,避免大量低準(zhǔn)確率或無效的知識聯(lián)動干擾。目前還鮮有看到這方面的應(yīng)用,不過我個人很期待這樣的應(yīng)用產(chǎn)生,因?yàn)閷?shí)際上沒有什么技術(shù)難題了。
這種場景其實(shí)和早期語音識別廠商大力推薦的應(yīng)用相同,只不過前面提到過那時的賣點(diǎn)是促進(jìn)銷售。那時的基本邏輯是,系統(tǒng)根據(jù)客戶所說的內(nèi)容自動提示座席該客戶存在什么樣的銷售機(jī)會,而不依賴于“座席要足夠敏感”“座席不要忘了說”。隨之帶來的是銷售業(yè)績上升,給企業(yè)帶來更好的收益。
也許是“畫”出來的收益太大了,所以廠商一般都獅子大開口,把產(chǎn)品賣得很貴。也有可能是因?yàn)楫a(chǎn)品進(jìn)入市場急于收回研發(fā)成本而很貴,才“畫”了這樣的收益賣點(diǎn)。現(xiàn)在看起依然還是貴的,特別是那些按 License 賣產(chǎn)品,有些產(chǎn)品還有錄音系統(tǒng)問題,也許要改造甚至更換錄音系統(tǒng),投入不小。不過,已經(jīng)有廠商愿意用利益分成的方法進(jìn)行合作,多少可以說明廠商對這一應(yīng)用還是有信心。其二,輔助錄入??蛻粽f的話,直接轉(zhuǎn)化成文字變成需要錄入的內(nèi)容,節(jié)省一些錄入時間,或者避免座席錄入的隨意性和不可控性。
這其實(shí)和語音輸入法是一樣的應(yīng)用,只不過語音換成了對方客戶的聲音,或者客戶和座席兩個人的聲音對于這樣的擴(kuò)展應(yīng)用,個人認(rèn)為沒有什么技術(shù)障礙,只要評估投入是否能接受,投入產(chǎn)出比是否達(dá)到了預(yù)期。應(yīng)用實(shí)施剛開始,效果一般不會好的,因?yàn)檎Z音輸入法的應(yīng)用對象和場景具有普遍性和廣泛性,在某一專業(yè)領(lǐng)域會水土不服,接下來要做的就是“專業(yè)訓(xùn)練”。
三、第二類應(yīng)用,智能語音問答
智能語音問答是自動語音識別最普遍的期望。注意,是期望,而不是應(yīng)用,因?yàn)橐獙?shí)現(xiàn)機(jī)器與人交流,關(guān)鍵既有語音識別,也有智能問答,是兩者的組合。智能問答現(xiàn)在面臨的理解難題和題庫難題,決定了智能問答的還不夠成熟,所以組合起來的應(yīng)用更是困難重重。智能語音問答通常讓人聯(lián)想到呼入業(yè)務(wù),這確實(shí)很難。如果從“有限內(nèi)容”去匹配業(yè)務(wù),就會發(fā)現(xiàn)在回訪(呼出)業(yè)務(wù)上應(yīng)用智能語音問答,也許是個不錯的選擇。由于回訪業(yè)務(wù)中內(nèi)容是預(yù)先設(shè)定的,整個溝通過程中涉及的內(nèi)容大多數(shù)情況下是有限的,相當(dāng)于是限定了自動語音識別的字詞范圍和智能機(jī)器人的問答范圍,所以智能語音問答應(yīng)付這種場景會容易很多。更簡單一些的回訪,即使不用任何智能問答的成分,僅去識別客戶回答中的某些關(guān)鍵詞,通常就能滿足業(yè)務(wù)需要了,這就變成了實(shí)質(zhì)上的“有限字詞的識別”。所以回訪是自動語音識別在智能語音問答類應(yīng)用中比較普遍的場景回訪是自動語音識別在智能語音問答類應(yīng)用中比較普遍的場景,已經(jīng)有不少公司實(shí)際開展了這樣項(xiàng)目。
最近在很多公司力推的 APP 上,也開始使用自動語音識別,幫助客戶跳轉(zhuǎn)到相關(guān)的頁面,回答客戶的一些問題。如何理解、回答,和電話渠道面臨的困難是一樣的,優(yōu)勢在于 16K 的采樣率有助于提高音轉(zhuǎn)字準(zhǔn)確率。
四、第三類應(yīng)用,智能語音分析
對呼叫中心來說,除了大量的結(jié)構(gòu)化數(shù)據(jù)之外,還有大量的錄音,大家都認(rèn)為這既是一個需要監(jiān)控的高風(fēng)險地帶,也是一個值得挖掘的寶藏??墒莻鹘y(tǒng)的技術(shù),無法對錄音進(jìn)行分析,只能靠人工去聽,費(fèi)時費(fèi)力,分析的樣本不夠典型,質(zhì)檢覆蓋率非常低。自動語音識別可以很好地解決這個問題,當(dāng)應(yīng)用語音識別將語音轉(zhuǎn)成文字之后,就存在了全量檢查、分析的可能。
最常見的應(yīng)用場景是語音質(zhì)檢,具體做法是使用語音識別產(chǎn)品,將錄音轉(zhuǎn)化為文字,再從這些文字中尋找需要檢查的內(nèi)容。這是一種事后的應(yīng)用,細(xì)化一下有三種用途:
第一種,提高問題檢出率。通常用于合規(guī)檢查,該說的話是不是說了,不該說的話是不是真的沒說。最先應(yīng)用的是在電話銷售、電話回訪業(yè)務(wù)中,這類業(yè)務(wù)往往有很多監(jiān)管的要求,以避免各種誤導(dǎo),撇清各種責(zé)任。還有用于日常質(zhì)檢中檢查有沒有出現(xiàn)服務(wù)禁語惹了客戶。語音質(zhì)檢理論上可以做到檢查所有錄音,達(dá)到 100%的覆蓋,這樣就不用擔(dān)心傳統(tǒng)方法未抽檢到的錄音中是否有座席心存僥幸。
第二種,輔助提升技能。質(zhì)檢的定位越來越被認(rèn)可是幫助座席提升技能而不是扣分的,所以語音質(zhì)檢也要去找出錄音中座席不熟練、生疏的內(nèi)容,幫助其提升技能。比如重復(fù)多次的話、停頓、不能適當(dāng)主導(dǎo)通話內(nèi)容,等等。
第三種,分析來電原因。對客戶關(guān)注熱點(diǎn)的變化,一般通過來電原因來分析。記錄每一通電話的來電原因,傳統(tǒng)的做法是話后小結(jié),缺點(diǎn)是增加處理時間,而且不納入質(zhì)檢差錯的話后小結(jié),通常不準(zhǔn)。先進(jìn)一點(diǎn)的做法,根據(jù)操作頁面自動記錄,只是有時候遇到同頁面不同原因時,不容易細(xì)分,同時也受座席操作影響。這些做法還有一個共同缺點(diǎn)是,不管是服務(wù)小結(jié)還是頁面點(diǎn)擊,來電原因都是預(yù)設(shè)的,對歷史數(shù)據(jù)不能按新的來電原因統(tǒng)計。而通過語音來分析,準(zhǔn)確性會提升,而且對歷史錄音也可以按照新的維度去統(tǒng)計分析。
上述三種用途,總的來說效果一般,原因在于音轉(zhuǎn)字之后的非結(jié)構(gòu)化文本分析,并不是現(xiàn)在這些語音識別廠商的強(qiáng)項(xiàng)。所以,如果要把語音質(zhì)檢用好,出路可能是和大數(shù)據(jù)分析產(chǎn)品或?qū)I(yè)的非結(jié)構(gòu)化數(shù)據(jù)分析產(chǎn)品集成。在此之前,靠著一些“包含/不包含”“且/或”表達(dá)式創(chuàng)建起來的模型,終究應(yīng)用范圍和效果有限。
五、第四類應(yīng)用,實(shí)時語音監(jiān)控分析
因?yàn)閷?shí)時語音監(jiān)控分析和事后的質(zhì)檢分析是不一樣的,這通常是國外供應(yīng)商經(jīng)常描繪、卻很少見的應(yīng)用場景,這是一種事中的應(yīng)用。雙十一各大電商都有大大的電子顯示屏實(shí)時展現(xiàn)各種交易數(shù)據(jù),看的一清二楚,人家那是結(jié)構(gòu)化數(shù)據(jù),好辦。想象一下,如果呼叫中心的監(jiān)控大屏,也有一個大大的電子顯示屏,實(shí)時展現(xiàn)現(xiàn)在來電客戶所關(guān)注的問題,能夠馬上發(fā)現(xiàn)一些熱點(diǎn)的異常變化,是不是很酷?這樣就不用在來電量發(fā)生突然變化的時候,去問座席“有什么異常嗎/有什么來電特別多嗎”了,也不用等不怎么準(zhǔn)不怎么細(xì)化的來電語音分析了;也不用等事后的語音分析了。反應(yīng),自然變快了。只是,這樣的應(yīng)用所帶來的好處和所投入的成本相比,似乎還很不般配。反過來因?yàn)闆]有太多的應(yīng)用,沒經(jīng)過大量的實(shí)戰(zhàn),投入使用的效果也不見得好。
六、對于自動語音識別技術(shù)應(yīng)用的一些建議
除了“有限范圍”這一原則外,在現(xiàn)有條件下有些辦法可以有助于提高自動語音識別應(yīng)用的效果。
其一,專業(yè)產(chǎn)品集成。除了自動語音識別本身不斷訓(xùn)練、優(yōu)化,提高音轉(zhuǎn)字準(zhǔn)確率之外,還要和其他關(guān)鍵關(guān)聯(lián)方集成應(yīng)用。智能語音對話的關(guān)鍵關(guān)聯(lián)方是智能機(jī)器人,那要么智能語音產(chǎn)品中包含了這樣的功能,要么和智能機(jī)器人組合起來使用。智能語音分析的關(guān)鍵關(guān)聯(lián)方是大數(shù)據(jù)分析產(chǎn)品,各種分析模型。很多時候,這些集成使用的關(guān)聯(lián)方好壞,甚至更為重要。
其二,搭建自有系統(tǒng)。有些廠商是提供云服務(wù)的方式進(jìn)行語音識別的,優(yōu)點(diǎn)是便宜,缺點(diǎn)是云端的模型優(yōu)化不能完全按照自有的業(yè)務(wù)特點(diǎn)進(jìn)行(私有云除外)。而自有系統(tǒng),就可以按照一些專業(yè)、特有詞匯進(jìn)行語料庫的訓(xùn)練優(yōu)化,現(xiàn)在識別準(zhǔn)確率方面的利器就是訓(xùn)練。如果有廠商駐場優(yōu)化,那是更好。
其三,預(yù)先篩選錄音。一套語音識別系統(tǒng)還是很貴的,尤其是一套自有的系統(tǒng),越多的轉(zhuǎn)譯錄音時長,越多的服務(wù)器資源。而如果能通過結(jié)構(gòu)化的數(shù)據(jù)篩選條件,先找出符合條件的錄音,再去轉(zhuǎn)譯的話,錄音時長就少多了,也不用擔(dān)心隨機(jī)采集到的樣本量太少。比如電銷只取銷售成功的錄音,因?yàn)殇N售失敗的不是監(jiān)管重點(diǎn);比如只取某某產(chǎn)品的客戶錄音轉(zhuǎn)譯,因?yàn)檫@個產(chǎn)品的咨詢、投訴是當(dāng)前監(jiān)控的重點(diǎn)。
其四,在壓縮前轉(zhuǎn)譯。通常為節(jié)省存儲,電話錄音會被壓縮得很厲害。由于電話本身 8K 采樣率已經(jīng)先天不足,再被壓縮的話語音識別效果就更差了。所以可以采取先高品質(zhì)暫存,轉(zhuǎn)譯后再壓縮。
其五,雙聲道錄音。這個大家都明白的,把客戶錄音和座席錄音分開來,就可以做更多、更精準(zhǔn)的分析。
一方面,自動語音識別的應(yīng)用開展得如火如荼,很多人都非常樂觀,大步邁進(jìn);另一方面,連李開復(fù)都在三亞演講提及語音識別還是不成熟的技術(shù),他看到的一個一個計劃 99%會死掉。從兩個方面去理解,要期望解決所有問題,那還不成熟;要解決特定問題,還是可以樂觀的。用專業(yè)人士的話說就是“先做好垂直領(lǐng)域,解決單領(lǐng)域的實(shí)際問題”,金融是人工智能短期看好的領(lǐng)域,中期才輪到醫(yī)療,無人駕駛就是長期了。
實(shí)際上,長期來說又是對計算能力、算法的基礎(chǔ)軟硬件提出的挑戰(zhàn)。再一次聯(lián)系《三體》小說中的觀點(diǎn),基礎(chǔ)物理學(xué)的發(fā)展才能推動科技發(fā)生質(zhì)的飛躍,基礎(chǔ)物理學(xué)沒有新的發(fā)現(xiàn)和理論,科學(xué)技術(shù)就會被限制在某個層次上。立足當(dāng)下,用好現(xiàn)有產(chǎn)品;展望未來,期待下一次質(zhì)的飛躍。