如何提升智能電銷機器人的語義識別準確率,在金融公司中,傳統電話銷售占公司總銷售額的大半部分,電話銷售客服中心每天呼出幾萬通電話,話術都是有跡可循。但傳統的電銷客服存在流動性大,培養周期長,人力成本高的缺點,如何降低公司的成本又不減少電話銷售的份額,是每個金融公司所面臨的難題。智能電銷機器人的出現,讓以上傳統銷售難題引刃而解。不過,由于智能電銷機器人未針對金融場景進行優化和難以實現準確的語義識別等原因,還難以應用于金融領域。
本文提出了一種組合使用文本相似度計算與特征詞規則匹配的方法,可以提高語義識別準確率,實現更為友好的人機對話。
傳統的語義識別要靠程序開發人員寫一些規則來解決語義識別問題。但是,要窮舉并制定這些規則對于開發人員來說工作量無法想象。因為在自然語言處理領域中永遠有寫不完的規則,這時就需要機器人運用自己的學習能力進行推理。TF-IDF詞袋模型能根據詞的重要程度添加對應權重,更符合對話語義邏輯,但會使原文檔轉換為高維的稀疏向量,為向量存儲和相似度計算帶來了很大的困難。其主要技術包含如下:
1、對電銷對話語料數據進行清洗,刪除對話邏輯不合理的數據,刪除語音轉文本過程中識別誤差過大的數據,保留部分語音轉文本過程中的錯字,從而提高模型的抗干擾能力。
2、使用python分詞工具jieba包對清洗后的語料進行分詞,同時刪除停用詞和低頻詞。
3、建立詞袋模型,依據TF-IDF算法計算各詞的重要程度并做加權處理。
4、使用LSI對TF-IDF詞袋模型進行降維,剔除小的奇異值,將文檔特征空間變為文檔概念空間。
5、梳理電銷總體流程,提取電銷流程中的各個場景,針對不同場景設置多種意圖樣句。
6、將客戶的實時對話數據與各樣句比對(概念向量之問使用內積的夾角余弦相似度計算比原來基于原文本向量的相似度計算更可靠),大于設置的相似度閾值即識別為該場景下的對應意圖。
7、進行電銷的對應話術,完成一輪人機對話。