婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > SEO優化實戰經驗總結 中文分詞

SEO優化實戰經驗總結 中文分詞

熱門標簽:宿遷手機外呼系統排名 自動語音電話機器人 百度地圖標注錯誤修改 西寧人工智能電銷機器人 廊坊外呼系統平臺 外呼手機卡和線路卡哪個好用 新鄉智能外呼系統好處 廣州400電話號辦理 濟源防封號電銷機器人銷售
最早的中文分詞辦法是由北京航天航空大學的梁南元教授提出的一種基于“查字典”的分詞辦法。該方法是把整個句子讀一遍,然后把字典里有的詞都單獨標示出來,當遇到復合詞的時候(例如北京大學),就找到最長的詞匹配。遇到不認識的字符串就分割成單個文字。
例如:“著名導演張藝謀說國慶節晚上將安排十萬人到天安門聯歡。”
根據該辦法,可以切分為:
“著名 | 導演 | 張藝謀 | 說 | 國慶節 | 晚上 | 將 | 安排 | 十萬人 | 到 | 天安門 | 聯歡”
這樣的分詞辦法雖然說可以應付很多的句子,但是由于細分的太多,在真正搜索引擎使用的過程中,到底哪一個詞才是重點就無法表述,從而搜索引擎搜索出的結果也不能達到最大的相關度。

在80年代,哈爾濱工業大學計算機博士生導師王曉龍博士提出了“最少詞數”的分詞理論,即為,一句話應該是分詞最少的字符串,這樣會更多的讓搜索引擎更明白這句話到底是什么意思。但是它對于例如“二義性”的關鍵詞組,就不能說最長的分割就是最好的結果。
例如:“吉利大學城書店”
這個關鍵詞正確的分詞應該是“吉利 | 大學城 | 書店”而不是詞典中的“吉利大學 | 城 | 書店 ”



目前,主流的分詞辦法有兩種,一種是基于統計模型的文字處理,另外一種是基于字符串匹配的逆向最大匹配法。

基于統計模型的文字處理
從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字X、Y的相鄰共現概率。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

基于字符串匹配的逆向最大匹配法
一般來說,在SEO中使用最多的分詞辦法就是基于字符串匹配的逆向最大匹配法。這種方法就是從句子的后面往前(從右向左)進行分詞。



在搜索引擎運行的機制中,有很多種中文分詞的辦法,例如正向最大匹配分詞、逆向最大分析、基于統計的分詞等。但是在實際的搜索引擎運行過程中,分詞的辦法卻沒有這么簡單了。因為搜索引擎不僅僅要去考慮到分詞結果的正確性,還需要考慮到對于分不出來的詞的處理。

首先我們來討論分詞結果的準確度,一般來說,搜索引擎是使用多種分詞的方式構成一個混合分詞方式來進行分詞的,因為這樣可以讓詞匯最大化的、更準確的分開。混合分詞的原理是:先使用專業詞典進行分詞,之后再使用普通詞庫進行一次分詞。

那么對于分不出來的詞,搜索引擎又是如何操作的呢?
一般來說,搜索引擎遇到這樣的關鍵詞時,會采取一元分詞+二元分詞+混合分詞+不分詞的方式來解決這樣的問題。
例如:“草泥馬是一種食草動物”
一元分詞結果:“草\泥\馬\是\一種\食草\動物\&;或者“草\泥\馬\是\一種\食草動物\&;或者“草\泥\馬\是\一種\食\草\動物\&;
二元分詞結果:“草泥\泥馬\是\一種\食草\動物”。
第三種方式——干脆不分,以保持新詞的完整性。
在經過了這一系列的分詞程序后,實際分詞的結果是:草泥\泥馬\草泥馬\是\一種\食草\食\草\動物\食草動物



掌握了中文分詞技術,就可以為網頁構建更多的長尾關鍵詞。

標簽:駐馬店 海口 廣東 江西 韶關 黑龍江 合肥 定州

巨人網絡通訊聲明:本文標題《SEO優化實戰經驗總結 中文分詞》,本文關鍵詞  SEO,優化,實戰,經驗總結,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《SEO優化實戰經驗總結 中文分詞》相關的同類信息!
  • 本頁收集關于SEO優化實戰經驗總結 中文分詞的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 密云县| 永丰县| 承德县| 文安县| 亚东县| 庆城县| 徐水县| 邯郸县| 罗田县| 嘉定区| 高青县| 天镇县| 山丹县| 岗巴县| 安达市| 南开区| 教育| 定陶县| 田林县| 庆安县| 蒲城县| 蒙阴县| 鞍山市| 文安县| 汤原县| 阿尔山市| 冕宁县| 吉林省| 双牌县| 古蔺县| 裕民县| 通辽市| 黔东| 葫芦岛市| 嵊泗县| 门源| 达拉特旗| 肥西县| 内江市| 台东县| 柏乡县|