婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 第四范式陳雨強:工業(yè)界機器學習痛點及解決思路

第四范式陳雨強:工業(yè)界機器學習痛點及解決思路

熱門標簽:店鋪怎么進行地圖標注注冊 電銷機器人 錄音 南京語音電銷機器人價格 智能電銷機器人源碼下載 南通手機外呼系統(tǒng)一般多少錢 濮陽百度地圖標注公司入駐 地圖標注怎么知道對錯 樺甸代理外呼系統(tǒng) 南昌ai外呼系統(tǒng)中心
 

近日,全球最頂級大數(shù)據(jù)會議Strata Data Conference在京召開。Strata大會被《福布斯》雜志譽為“大數(shù)據(jù)運動的里程碑”,吸引了大數(shù)據(jù)、人工智能領域最具影響力的數(shù)據(jù)科學家與架構師參會。第四范式聯(lián)合創(chuàng)始人、首席研究科學家陳雨強受邀出席,并以“人工智能工業(yè)應用痛點及解決思路”為題,頒發(fā)主題演講。

陳雨強是世界級深度學習、遷移學習專家,曾在NIPS、AAAI、ACL、SIGKDD等頂會頒發(fā)論文,并獲APWeb2010 Best Paper Award,KDD Cup 2011名列第三,其學術工作被全球著名科技雜志MIT Technology Review報道。同時,陳雨強也是AI工業(yè)應用領軍人物,在百度鳳巢任職期間主持了世界首個商用的深度學習系統(tǒng)、在今日頭條期間主持了全新的信息流保舉與廣告系統(tǒng)的設計實現(xiàn),目前擔任第四范式首席研究科學家,帶領團隊研究、轉化最領先的機器學習技術,著力打造人工智能平臺級產品”先知“。

以下內容按照陳雨強主題演講編寫,略有刪減。

大家好,我是來自于第四范式的陳雨強,目前主要負責人工智能算法研發(fā)及應用的相關工作。非常高興與大家分享人工智能在工業(yè)界應用的一些痛點、以及相應的解決思路。

工業(yè)大數(shù)據(jù)需要高VC維

人工智能是一個非常炙手可熱的名詞,且已經成功應用在語音、圖像等諸多領域。但是,現(xiàn)在人工智能有沒有達到可以簡單落地的狀態(tài)呢?工業(yè)界的人工智能需要什么技術呢?帶著這些問題開始我們的思考。

首先,我們先探討一下工業(yè)界人工智能需要一個什么樣的系統(tǒng)?人工智能的興起是由于數(shù)據(jù)量變大、性能提升以及并行計算技術發(fā)展共同產生的結果。所以,工業(yè)界的問題都是非常復雜的。因此,我們需要一個可擴展系統(tǒng),不但在吞吐與計算能力上可擴展,還需要隨著數(shù)據(jù)量與用戶的增多在智能水平上可擴展。怎么實現(xiàn)一個可擴展系統(tǒng)呢?其實很重要的一點是工業(yè)界需要高VC維的模型,去解決智能可擴展性的問題。怎么獲得一個高VC維的模型呢?大家都知道,機器學習=數(shù)據(jù)+特征+模型。如果數(shù)據(jù)在給定的情況下,我們就需要在特征和模型兩個方面進行優(yōu)化。

特征共分兩種,一種叫宏不雅觀特征,比喻說年齡、收入,,或是買過多少本書,看過多少部電影。別的一種是微不雅觀特征,指的是相比細粒度的特征,你具體看過哪幾本書,或者具體看過哪幾部電影。每一部電影,每一本書,每一個人,都是差別的特征。書有幾百萬本,電影有幾百萬部,所以這樣的特征量非常大。

模型可分為兩類,一個是簡單模型,好比說線性模型。還有一種是復雜模型,好比非線性模型。

這樣就把人工智能分為了四個象限。如上圖,左下角是第一象限,使用宏不雅觀特征簡單模型解決問題。這種模型在工業(yè)界應用非常少,因為它特征數(shù)少,模型又簡單,VC維就是低的,不能解決非常復雜的問題。右下角的第二象限是簡單模型加上微不雅觀特征,最有名的就是大家熟知的谷歌Adwords,用線性模型加上千億特征做出了世界頂尖的廣告點擊率預估系統(tǒng)。左上角的第三象限是復雜模型加宏不雅觀特征,也有諸多知名公司做出了非常好的效果,例如Bing廣告和Yahoo,經典的COEC+復雜模型在這個象限內是一個慣用手段。最后是第四象限,利用復雜模型加上微不雅觀特征,由于模型空間太大,如何計算以及解決過擬合都是研究的熱點。

剛才說沿著模型和特征兩條路走,那如何沿著模型做更高維度的機器學習呢?研究模型主要是在學術界,大部分的工作是來自于ICML、NIPS、ICLR這樣的會議,非線性有三把寶劍別離是Kernel、Boosting、Neural Network。Kernel在十年前非常火,給當時風靡世界的算法SVM提供了非線性能力。Boosting中應用最廣泛的當屬GBDT,很多問題都能被很好地解決。Neural Network在很多領域也有非常成功的應用。工業(yè)界優(yōu)化模型的方法總結起來有以下幾點。首先,基于過去的數(shù)據(jù)進行思考得到一個假設,然后將假設的數(shù)學建模抽象成參數(shù)加入,用數(shù)據(jù)去擬合新加入的參數(shù),最后用另一部分數(shù)據(jù)驗證模型的準確性。這里舉一個開普勒沿模型這條路發(fā)現(xiàn)開普勒三定律的例子。在中世紀的時候,第谷把本身的頭綁在望遠鏡上堅持不雅觀察了30年夜空,將各個行星的運動軌跡都記錄下來。基于這些數(shù)據(jù),開普勒不停的進行假設,最后假設行星的運動軌道是橢圓的,用橢圓的方程去擬合他的數(shù)據(jù),發(fā)現(xiàn)擬合的非常好,便得到了一個新的模型:開普勒第必然律。這就是一個典型的沿著模型走的思路,通過不雅觀測數(shù)據(jù),科學家獲得一個假設,這個假設就是一個模型,然后用數(shù)據(jù)擬合這個模型的參數(shù),最終在新的數(shù)據(jù)上驗證模型是否正確,這是沿著模型走的一條路。

標簽:文山 黑龍江 焦作 江門 鄂州 興安盟 懷化 盤錦

巨人網絡通訊聲明:本文標題《第四范式陳雨強:工業(yè)界機器學習痛點及解決思路》,本文關鍵詞  第四,范式,陳雨強,工業(yè)界,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《第四范式陳雨強:工業(yè)界機器學習痛點及解決思路》相關的同類信息!
  • 本頁收集關于第四范式陳雨強:工業(yè)界機器學習痛點及解決思路的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 津南区| 通辽市| 定远县| 乌苏市| 公安县| 改则县| 临泉县| 泸州市| 庐江县| 广汉市| 随州市| 庄浪县| 外汇| 济阳县| 永丰县| 衡阳县| 仙居县| 杭锦旗| 泰州市| 特克斯县| 钟山县| 赤水市| 来凤县| 杭州市| 翼城县| 黎川县| 顺昌县| 山东省| 图片| 西盟| 平罗县| 长顺县| 新巴尔虎右旗| 乌兰浩特市| 札达县| 曲周县| 玉山县| 衡阳县| 栾川县| 和田县| 大渡口区|