1.引言
信息主要存在3種表達方式:文本(文字)、音頻(聲音)、視頻(圖像),對于這3種信息表達方式的理解和應用,是信息處理系統的基本研究內容。信息從產生起就具備各種屬性,對這些屬性進行理解、開發和利用成為各類成功企業的基礎。例如,Google利用互聯網信息的鏈接關聯性模型完成了搜索引擎的開發應用;Facebook、新浪微博研究信息的社會屬性,構建了類似人類社會人際交流的信息流動平臺。這些企業從信息的理解、認知、表達、應用過程中找到了具體理論模式的實際應用方式,因此獲得了成功。隨著計算機硬件計算能力、網絡通信能力的提高,傳統學術界一直致力于研究的大規模文本處理及挖掘、復雜系統、語音識別、本體論等理論及技術開始獲得在實際中應用的物質基礎。
隨著3G技術的推廣應用,運營商的競爭更加激烈,產品同質化更加嚴重,運營商的競爭由單純的業務的競爭,轉變為依托技術和服務發展的深層次競爭。從某種意義上來說,這種深層次的競爭,就是對新技術的掌握和靈活運用的競爭;是依靠運營商規模優勢,在現有產品、技術架構上引人新技術的競爭。這種競爭性產品或技術革新可以從以下幾個方面評價。
·依托新技術開展基于新技術特性的新產品開發。
·在原有產品及技術架構上的新技術應用具有原有產品、營銷方式所沒有的效果,為原有產品增加了新的特性。
·新技術節約了人工、服務成本,提升了勞動生產率。
現今,大數據的研究逐漸引起學術界和運營商的重視。如何從新技術的開發和應用角度在現有業務系統中引入大數據處理技術,使學術研究的成果轉化成實際的商業價值,是值得探索的問題。而音頻作為信息表達的基礎方式之一,如何從音頻信息中獲得有商業價值的信息,是大數據研究的重要方向。
2.語音大數據及應用研究
目前大數據的研究及處理基本涉及以下兩個方面。
·大數據處理技術架構,如起源于Google的Hadoop數據處理架構,解決的是超大規模數據集面向需求的計算處理問題;
·面向業務及應用本身的特征提取及分析技術,研究這些特征提取及分析技術如何在超大數據集上按照預設的模型實現。
相較而言,根據業務需求如何處理信息,使其符合業務系統的要求,進而產生商業上的價值,是大數據研究和應用的關鍵。
2.1 大數據處理技術
大數據的特點可以總結為4個V,即volume(體量浩大),variety(模態繁多),velocity(生成快速)和value(價值巨大但密度很低)。大數據處理技術是面向海量數據信息處理和應用而提出的,處理技術需滿足以下幾點需求。
·高度可擴展性。要求橫向大規?蓴U展,具備大規模并行處理能力,處理系統可以方便地根據計算需求進行橫向擴展,以支持快速增加的業務數據處理要求。
·高性能。即快速響應復雜查詢與分析,除了需要在數據庫體系架構、數據處理模型上進行深人研究外,還需在處理機制上引人自然語言處理的模型和算法,使處理更加面向應用和自然語言狀態下的信息檢索等。
·其他要求還包括:高度容錯性、支持異構環境、較低的分析時延、易用且接口開放等。
而大數據處理與信息處理及信息獲取相結合的應用,主要包括:大數據聚合、分布式存儲、計算技術;大數據的實時索引和實時檢索技術;大數據的自動分類、內容聚類、主題抽取、熱點事件發現、傾向性分析技術;大數據面向業務的融合應用技術。這些應用的完成也必須應用自然語言處理技術的最新成果。
2.2 語音大數據的價值
語音大數據指個人或企業在生產經營活動中產生以音頻為載體的信息資源,廣泛存在于各類傳統呼叫中心、互聯網、移動互聯網等各類業務系統中。相比以文本為載體的信息,這類信息目前的應用研究還不充分。而在各種語音大數據中,呼叫中心存儲的語音數據最具備研究和挖掘價值,可以為企業生產經營活動提供有價值的幫助,本文即以語音大數據為例進行分析,經過歸納,其具備以下優點。
·價值密度高。呼叫中心語音大數據的價值密度高于目前所有已知的大數據資源。因為呼叫中心解決企業在產品運營中的服務問題,包含用戶對企業生產經營活動的所有看法、用戶在使用企業產品過程中的所有問題,從中可以挖掘出大量有用的信息。
·使用方便。由于國家政策法規的要求,呼叫中心語音大數據基本都是以一定的格式進行保存,在具體的應用研究中,不存在來源、格式不統一的情況。
·存在一定的信息標注。呼叫中心語音大數據除音頻本身外,還包含其產生的時間、大概主題(來源于呼叫中心的電話小結)、產生者標記(如撥打者和座席服務者)、大概質量評價(如服務完成后用戶的評價)等。
·存在對應的以文本為載體的知識內容對應關系。呼叫中心語音大數據基本都是圍繞呼叫中心知識庫中存儲的服務內容產生的。雖然沒有明確定義,但通過記錄座席在服務過程中的瀏覽軌跡,基本能獲得其與用戶對話過程中的音頻與其正在瀏覽信息之間的一個對應關系,而對這個對應關系的研究還沒有開展。
2.3 語音大數據需解決的問題
通過對這些以音頻形式存在的大數據進行分析和挖掘,可以形成各類新的應用。以呼叫中心語音大數據作為具體的實例分析,通過語音大數據分析技術分析語音文件中的關鍵詞、情緒、情感等,通過對這些特征進行統計及專業化分析可以完成以下功能。
·座席預質檢:可用于呼叫中心服務質量提升。傳統的呼叫中心質檢由人工質檢完成,具備高級技能的質檢人員對呼叫中心每天產生的大量錄音進行規制抽取,之后評價每個抽取錄音的服務情況,對服務人員提出改進建議。但是由于成本的限制,一般只能做到0.5%-1%的抽檢率。通過語音大數據挖掘的方法,可獲得服務質量不高的服務錄音模型,通過這個模型對語音大數據進行預處理,使抽檢的準確程度更高,抽檢率更高,進而提高呼叫中心的整體服務水平。
·熱點信息挖掘:通過對呼叫中心一段時間內的錄音文件進行分析和挖掘,可以獲得某一個時間段內出現頻次最高的關鍵詞或信息概念,得到當前用戶所關注的熱點問題。
·新產品市場評價:通過對呼叫中心一段時間內的錄音文件進行分析和挖掘,可以分析某一個主題下用戶關注的內容、反饋,進而得到企業推出新產品的市場評價報告。
·企業形象用戶評價分析:通過對企業產品相關音頻大數據的分析,可以獲得企業所推出產品、整體形象、市場認可、用戶評價等統計指標。
·營銷機會:呼叫中心在對用戶進行服務的過程中,針對用戶的需求,可以發現企業經營產品的潛在用戶,并可以通過與CRM相結合,發現潛在的、新的營銷機會。
·競爭情報:呼叫中心語音大數據中,通過有針對性的分析整理,還可以挖掘出有關競爭對手的信息,如用戶提到競爭對手的產品功能更完備、費用更加低廉等。
對于語音大數據的處理技術發展,在業界也處于剛起步的階段。以上信息的整理、統計、提煉,傳統上需要耗費大量的人工時間及經濟成本,如果能自動地在錄音數據中進行挖掘,哪怕并不十分完備,都將對企業的生產經營活動產生有益影響。目前該領域主要關注的技術有語音大數據信息的實時處理、基于大數據集的語音識別、模型訓練、語音文件熱點信息感知和知識提取、基于內容理解的音頻挖掘等關鍵技術。如果要達到較好的分析效果,各種統計分析所對應知識體系表達及分析體系也需要建立,面向應用的知識本體表達和研究也需要建立.并進行應用完善。
3.語音大數據研究及開發的關鍵技術
音頻數據作為大數據重要的組成部分,亟需認真研究和挖掘。因此語音識別技術是解決語音大數據實際應用問題的重要技術。為達成語音大數據的分析目標,必須對語音識別技術的實現方式、技術架構進行分析,同時歸納整理語音大數據的分析目標,反作用于語音識別技術的研發體系,使底層的基礎算法更加面向業務實現的研究和演進。
3.1 語音識別技術
科研工作者從20世紀50年代開始就進行語音識別技術的研究。AT&T-Bell實驗室實現了第一個可識別10個英文數字的語音識別系統(Audry ) ;60年代,動態規劃(DP)和線性預測(LP)分析技術,實現了特定人孤立詞語音識別;70年代、80年代語音識別研究進一步深人,HMM模型和人工神經網絡((ANN)在語音識別中成功應用;90年代后,語音識別在細化模型的設計、參數提取和優化、系統的自適應方面取得關鍵進展,語音識別技術開始真正走向商業應用。從技術角度歸結語音識別的應用有以下幾類。
·中小詞匯量、孤立詞識別系統。系統以詞語為基元建立模板,沒有次音節、音節單元,也沒有上層的語句語義層,每個詞條命令就是識別的最終結果。這種系統可以認為語音、語言的知識都包含在以詞組為單元的模板中。電信的識別系統如AT&T用于電話查詢的系統。
·以詞語為識別基元、連續或連續詞的語音識別系統。系統為每一詞條建立模板,最終任務是按一定的語法規范將詞語識別結果依次連綴成句子,這類系統往往用于特定任務(航班查詢、電話查詢等),具有明顯的語句識別層次。
·以全音節為基元模型建立的識別系統。使用算法逐次獲得前N個最好的候選單元(無調、有調音節),再按詞性、句法、語法網絡信息得到最后識別結果。這種方案多用于漢語大詞匯量、連續語音識別系統。
語音識別技術架構主要由以下幾部分構成。
·物理接口層:聲音進人系統的物理接口,輸入語音信號。
·特征提取層:提取聲學特征矢量,提供特征矢量序列。
·音節感知層:聲韻母因素單元結構,提供音節候選序列及可信度,把聲韻母或因素合并成為音節單元,推斷合理音節,提供詞語候選序列及可信度。
·詞語識別層:音字轉換,推斷詞語單元,提供語句候選序列及可信度。
·語句識別層:推斷語句候選單元及可信度。
·語義應用層:分析語義,映射應用,由任務語法約束。
以上從邏輯層面分析了語音識別具體技術應用的幾個層次,具體到與業務結合,即系統如果提供語音識別某一類業務的實例應用時,還需要針對這個業務領域的基本語料素材,以實現具體應用領域的語言模型。
3.2 基于語音識別進行語音大數據分析的關鍵技術
(1)文本轉寫
即語音、音頻信息轉換文本的過程.是所有分析的基礎。語音識別文本轉寫的準確程度與語言模型密切相關,需要完成具體所涉及的專有名詞、術語的語料素材收集,并在此基礎上構建有針對性的語言模型。
(2)關鍵詞提取
從本質上看這項功能與文本轉寫十分類似,但為了提高處理速度及準確性,系統可以只完成一些配置的關鍵詞,只針對這些關鍵詞的出現位置(時間點)、頻次進行統計,并不需要進行完整的文本轉寫。
(3)聲紋識別
需要完成語音大數據中不同角色的區隔,與文本轉寫相結合,可以在區分對話者的基礎上,了解不同對話者的對話內容。聲紋識別技術具體的應用還有說話者確認、說話者辨認等。
(4)語音情緒識別
根據目前的研究結果,基音頻率(pitch or fundamental frequency, FO)可以作為識別情緒的主要聲學特征,其他的一些特征還包括能量、持續時間、語速等。綜合來說,情緒對語音的影響主要表現在以下3個方面:基音曲線、連續聲學特征、語音品質;羟主要用來描述基音序列的幾何分布;連續聲學特征包括基因的大小、能量、說話速率、能量在頻譜上的分布等。語音品質包括松緊度、粗糙度、有無帶呼吸聲191。這3種語音品質的類型在某種程度上是相關的。在相對理想的條件下,語音情緒識別涉及的各類參數都是可測量的,可以對底層的語音識別引擎功能模塊進行獨立封裝,這樣業務系統在獲得各類參數后就可以進行標準計算,獲得業務系統所需的基礎數據。
(5)語義理解
事實上把語義理解技術作為語音識別技術的一個子集并不合適,本文為了面向業務應用語音大數據處理體系架構的完善,把其歸為實現語音大數據的一個環節。另一方面,在文本轉寫的過程中,為了實現較高的轉寫準確程度,已經應用了基本的語義理解技術,實現連續語音的準確識別。在語音大數據的開發過程中,為了準確地挖掘出語音大數據的特征,必須有面向業務領域的語義理解技術,以解決針對同一對象的不同描述問題,即解決特征的歸類和聚類問題。
3.3 面向語音大數據的技術處理架構
業界針對海量數據進行處理的技術架構已經進行了充分研究,并有大量實踐案例。從技術特征來看主要分為兩個層次,一個是面向海量數據的操作,應用系統如何對大數據集進行面向業務應用的底層數據操作、存儲、歸并、清洗、轉化;另一個是如何應用先進技術發現大數據的特征價值,其可以與第一個層次有限度融合,也可以在第一個層次基礎上針對已經形成的數據集進行處理,處理結果是方便業務系統進行調用、查詢、展現,或分析系統更有效地提取數據特征,進行相應的分析。本文主要關注第二個層次,即在語音大數據中如何發現業務系統所需的特征,挖掘大數據中的價值,如圖1所示。
圖1 語音大數據處理基礎架構
此構架的思路,是把語音識別技術(含語義理解及文本挖掘技術等)細分并模塊化,通過定義針對語音信息的處理目標定義,使其能服務于業務需求,并適應大數據的處理架構。從體系架構上分為五大部分。
·語料部分:分為語料資源庫及服務資源庫,存儲語音識別的語言模型及語義理解特征提取、語義聚類、語義歸類所需的行業語料。
·基礎能力層:語音識別及語義理解的細分模塊,提供標準的輸人輸出調用接口及相應參數定義。
·能力組合層:把能力層的語音識別、語義理解各類細分能力模塊分別組合,形成不同的標準調用服務接口,針對特定的服務打包特定的能力。
·業務封裝層:適應各類調用需求、訪問方式的再封裝。
·調用管理部分:整體平臺對外提供能力的管理及維護。
架構的核心是把語音大數據需要處理的各類基礎能力進行模塊化區分,并定義各類模塊化對外服務接口,使語音大數據的處理更加面向應用的軟件系統、分析系統的業務需求,使大數據中蘊含的價值能被充分挖掘。需要說明的是,語義理解技術在大數據挖掘中也是核心技術,事實上單純的語音識別技術如果不與語義理解技術進行充分融合,語音大數據挖掘及應用的效果將大打折扣。
4.結束語
本文分析了大數據和語音大數據的特點,結合目前的應用方向,重點研究了語音大數據的關鍵技術體系架構,提供了語音大數據的處理流程和應用方向。未來的研究方向在于語音大數據底層可檢測分析變量和特征的算法方法,把其標準化,進一步結合語義處理技術,完善語音大數據識別內容面向業務層次的理解和識別。同時探索語音大數據特征提取分析技術面向大數據集的處理效率,是否可以形成分布式計算的處理架構.可以并行地處理超大數據集,快速提取出業務系統所屬的數據特征。在業務層次,需要完善業務系統分析調用的規則,完善面向業務和挖掘需求的報表系統設計,使大數據蘊含的價值能充分體現。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.vmgcyvh.cn/
本文標題:語音大數據信息處理架構及關鍵技術研究