近日,我們的“一站式智能語音識別方案”將實現升級。升級后,在原有合作伙伴“數美科技”基礎上,將新增依圖、阿里云這兩家智能語音識別服務商,通過整合行業TOP3服務商的語音識別技術優勢,幫助直播、語音聊天室等互聯網平臺更智能、高效的識別語音中存在的涉黃、涉政、廣告等不良信息,實現全面、深入地凈化平臺網絡環境。
依圖、阿里云重磅加入,智能語音識別方案升級
近年來,隨著直播、短視頻、語音社交等行業的快速發展,由用戶創造的UGC內容成為了互聯網內容生態的重要構成,并豐富了人們的互聯網生活。而另一方面,隨著用戶UGC內容越來越多,涉黃、涉政、不良廣告等違法、違規的內容也頻頻出現,成為了“害群之馬”,給很多平臺帶來了風險。同時,相對于圖文和視頻,音頻審核本身在技術上也更具難度,又增加了平臺方的內容審核壓力。
在去年8月,聲網Agora就推出了“一站式智能語音識別方案”,為企業提供可集成實時音視頻、實時錄制和實時智能語音識別的一站式服務,在語音識別服務方面接入了數美科技的“天凈”智能語音審核系統,通過聲紋檢測、語音識別等技術,智能識別語音環境中的涉黃、涉政、廣告等違法違規信息,受到了很多企業的好評。
而此次升級后的“一站式智能語音識別方案”新增接入了阿里云、依圖科技先進、智能的語音識別技術,整合了業界TOP3智能語音識別服務商的技術優勢以提供目前互聯網行業最全面、最高效的智能語音識別技術。例如,數美科技的“天凈”智能語音識別,基于深度學習語音識別技術,多維度智能實時審核。深挖場景需求,為直播視頻流、UGC短視頻、FM電臺、語音廣場、語音直播間等各類場景提供智能內容過濾服務,通過語音識別轉文本的方式,識別文本內容中涉政、色情、廣告等不良信息;業內首創的嬌喘語音識別,基于基于Bi-GRU、Attention模型,精準識別聲音中含有嬌喘、呻吟、耳騷、喊麥等違規音頻,準確率達到90%以上。聲紋識別與檢索對比”技術可進行聲紋聚類、關聯,發現線上、線下語音廣告與欺詐行為等。
而依圖科技在公共安全領域早已深耕多年。依靠世界級算法團隊自研的語音識別、自然語言理解和聲紋算法,依圖的“智能語音審核”擁有準、快、省三大特點。準——憑借世界級算法能力加已有場景數據的螺旋迭代提升,依圖的召回和準確率居行業前列,幫企業最大程度的降低風險。快——實時監測并在3秒內返回結果。省——同步返回高精準轉寫文本和違規音頻片段,幫人工審核員提高效率、節省時間。
打通實時音視頻+智能語音識別+AI,企業一站式接入
聲網Agora的“一站式智能語音識別方案”可為企業提供實時音視頻+實時錄制+實時智能語音識別的一站式高度集成服務,也是目前唯一一家打通人工智能、實時語音識別、實時音視頻三大技術解決方案的服務商。使用聲網的一站式服務,企業無需部署額外SDK、無需自己對接CDN廠商、更無需支付拉流成本,就可同時上線直播(實時音視頻)和鑒黃(實時語音識別)功能,幫助企業大幅節省接入成本,真正做到一站式方便接入。
在智能語音識別方面,聲網Agora整合了業界TOP3智能語音識別服務商的技術優勢。而在實時音視頻功能方面,聲網自建的軟件定義實時網SD-RTN?專為實時音視頻業務提供SLA/QoS質量保證,能為企業提供高并發、高可靠性、低延時和抗弱網等特性的實時音視頻技術。
聲網Agora目前在全球擁有250多個數據中心。在網絡架構設計上能夠應對10倍以上的負荷,具備千萬級并發能力。聲網的軟件定義實時網SD-RTN™擁有超低延時特性,可做到全球端到端延時小于400ms,延時中位數76ms,處于行業領先水平。聲網還具備優秀的弱網傳輸和抗丟包算法,可以在60%的丟包環境下保障音視頻流暢,70%的網絡丟包環境下保障語音的流暢。在終端性能和適配方面,聲網針對實時互聯網lastmile做了深度優化,目前已經適配6000多款終端設備,網絡覆蓋全球200多個國家和地區,即使在網絡環境差的偏遠山區或跨國場景中用戶也能實現順暢互動。
此外,對于語音識別中常見的噪聲、背景音等音質問題,聲網的一站式智能語音識別解決方案還融合聲網Agora語音引擎與AI音頻降噪算法,可提供去除背景音、環境音之后的高音質音頻源,在原來算法的基礎上將不良信息的識別率有效提高30%以上。
通過聲網Agora的“一站式智能語音識別方案”可以幫助企業嚴格、有效的凈化平臺內容質量,降低監管風險,提升用戶體驗,同時還能為企業大幅節省接入成本。據了解,接下來聲網還將聯合更多業界知名智能語音識別服務商,為企業持續提供業界最高效、最嚴格的內容審核機制,促進網絡生態健康發展。