近日,NEC宣布開發出“聲音狀況識別技術”,作為NEC最先進的AI技術群“NEC the WISE”(注1)的技術之一,該技術可根據聲音判斷事態。
聲音具有可跨越障礙物和人群,把握目不可及之處狀況的優勢,因此很早之前NEC就開始研究聲音識別技術。然而,當識別范圍很大時,會混入很多環境雜音,因此檢測靈敏度和識別精度不高成為一個課題。
本次開發的“聲音狀況識別技術”將麥克風收集到的目標音與環境雜音分離開,使用從目標音中抽取細小構成音的構成音抽取技術與根據構成音的組合模式判斷事件有無的事件判別技術,可以從需要辨別的若干事件中判斷正在發生的狀況(注2)。
NEC通過“聲音狀況識別技術”可以監測公共設施、旅游景點等地的犯罪和事故,也可以實現對老年人的默默守護,總而言之可以在不同環境下高度感知危險狀況。
值得一提的是,此技術在國際聲音檢測大賽DCASE2016中,在噪聲(注3)中的日常聲音檢測類別榮獲第一名的好成績。此外,NEC的驗證實驗也證實,此技術可以檢測5倍于原來檢測距離的聲音(注4)。
NEC專注社會解決方案事業,并強化安全領域的解決方案。今后NEC將通過提供以此技術為代表的利用了傳感技術的產品,為實現安心、安全、豐富多彩的社會做貢獻。
背景
近年來,作為安心,安全的舉措,在攝像頭難以拍攝的地點用聲音來判斷情況的技術不斷開發改進。
原來的技術是通過在不同環境下大量學習目標音,從而實現聲音檢測。然而,在大范圍檢測目標音時,因為混入很多環境雜音,對于遠處發生的很小的目標音的檢測精度下降,需要在各個環境下學習目標音等,因而難以導入未知環境成為課題。
本次開發的“聲音狀況識別技術”,可以從麥克風收集到的聲音中將未知環境雜音分離,可以高精度的監測不受環境影響的構成音,并通過對構成音的組合模式來判斷是否有事件發生,從而解決了過去面臨的課題。
【圖1】聲音狀況識別技術概要
新技術的優勢
1、可高靈敏地檢測細小聲音的構成音抽取技術
例如,“玻璃碎了”這種情況發生的時候,因環境而異可能會發出“哐當”“啪”“嘭”等聲音。而構成音抽取技術則可提前學習麥克風采集的聲音,分成“哐”“當”“啪”“嘭”等不受環境影響的更細小的構成音,將不需要學習的聲音劃入環境雜音,從而在不受環境雜音影響的前提下抽取構成音。
2、可判斷發生事件性質的事件判別技術
事件判別技術可以將不受環境影響的構成音“哐”,“當”“啪”以及“嘭”等組合作為新的事件模式提前學習,通過構成音抽取技術高精度地抽取構成音,并進行比對,從而判斷是否出現了目標事件。通過這種檢測方法,即便是在大范圍內也可以在存在各種雜音的環境下高敏感度地檢測出微小的聲音,且無需逐一學習在不同環境下的目標聲音,因此可以輕易導入到未知的環境當中。
【圖2】構成音抽取技術?事件判別技術概要
NEC集團致力于在全球范圍內推進社會解決方案,提供安心、安全、高效、公平的社會價值,將先進的ICT技術與知識相融合,為實現更加光明更加豐富多彩的高效社會盡一份力量。
(注1)
“NEC the WISE”的標志中所蘊含的意義
“NEC the WISE”的標志采用了立體圖形中最簡單的三角錐體,三角錐體的中心有一個立方體。銳角的三角錐體作為基礎預示著堅固、難以動搖,而位于中央的立方體則象征著聚集了智慧的AI技術。該商標的傾斜角度體現了通過人與人、人與社會、人與AI技術的協調解決所有社會課題,使其由不穩定轉化為穩定,創造更美好的社會這一想法。
(注2)無法識別會話的意思。
(注3)IEEE AASP Challenge
Detection and Classification of Acoustic Scenes and Events 2016,
Task2-Sound event detection in synthetic audio
URL:http://www.cs.tut.fi/sgn/arg/dcase2016/
(注4)可實現將原來在4m左右的檢測距離擴大到20m,通過情景模擬演練,確認可以無縫覆蓋監控攝像頭的設置間隔。