婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python 中文正則表達式筆記

Python 中文正則表達式筆記

熱門標簽:浙江營銷外呼系統有哪些 淄博市張店區地圖標注 地圖標注店鋪地圖標注酒店 遼寧秒客來電話機器人 自己做的電銷機器人 惠安地圖標注 山東外呼系統聯系方式 上海銷售電銷機器人軟件 哈爾濱公司外呼系統代理

從字符串的角度來說,中文不如英文整齊、規范,這是不可避免的現實。本文結合網上資料以及個人經驗,以 python 語言為例,稍作總結。歡迎補充或挑錯。
一點經驗
可以使用 repr()函數查看字串的原始格式。這對于寫正則表達式有所幫助。
Python 的 re模塊有兩個相似的函數:re.match(), re.search 。兩個函數的匹配過程完全一致,只是起點不同。match只從字串的開始位置進行匹配,如果失敗,它就此放棄;而search則會鍥而不舍地完全遍歷整個字串中所有可能的位置,直到成功地找到一個匹配,或者搜索完字串,以失敗告終。如果你了解match的特性(在某些情況下比較快),大可以自由用它;如果不太清楚,search通常是你需要的那個函數。
從一堆文本中,找出所有可能的匹配,以列表的形式返回,這種情況用findall()這個函數。例子見后面的代碼。
utf8下,每個漢字占據3個字符位置,正則式為[\x80-\xff]{3},這個都知道了吧。
unicode下,漢字的格式如\uXXXX,只要找到對應的字符集的范圍,就能匹配相應的字串,方便從多語言文本中挑出所需要的某種語言的文本。不過,對于像日文這樣的粘著語,既有中文字符,又有平假名片假名,或許結果會有所偏差。
兩種字符類可以并列在一起使用,例如,平假名、片假名、中文的放在一起,u"[\u4e00-\u9fa5\u3040-\u309f\u30a0-\u30ff]+",來自定義所需要匹配的文本。
匹配中文時,正則表達式和目標字串的格式必須相同。這一點至關重要。或者都用默認的utf8,此時你不用額外做什么;如果是unicode,就需要在正則式之前加上u""格式。
可以這樣定義unicode字符串:string=u"我愛正則表達式"。如果字串不是unicode的,可以使用unicode()函數轉換之。如果你知道源字串的編碼,可以使用newstr=unicode(oldstring, original_coding_name)的方式轉換,例如 linux 下常用unicode(string, "utf8"),windows 下或許會用cp936吧,沒測試。
例程序

復制代碼 代碼如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
#
#author: rex
#blog: http://iregex.org
#filename py_utf8_unicode.py
#created: 2010-06-27 09:11
import re
def findPart(regex, text, name):
res=re.findall(regex, text)
if res:
print "There are %d %s parts:\n"% (len(res), name)
for r in res:
print "\t",r
print
#sample is utf8 by default.
sample='''en: Regular expression is a powerful tool for manipulating text.
zh: 正則表達式是一種很有用的處理文本的工具。
jp: 正規表現は非常に役に立つツールテキストを操作することです。
jp-char: あアいイうウえエおオ
kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다.
puc: 。?!、,;:“ ”‘ '——……·-·《》〈〉!¥%&*#
'''
#let's look its raw representation under the hood:
print "the raw utf8 string is:\n", repr(sample)
print
#find the non-ascii chars:
findPart(r"[\x80-\xff]+",sample,"non-ascii")
#convert the utf8 to unicode
usample=unicode(sample,'utf8')
#let's look its raw representation under the hood:
print "the raw unicode string is:\n", repr(usample)
print
#get each language parts:
findPart(u"[\u4e00-\u9fa5]+", usample, "unicode chinese")
findPart(u"[\uac00-\ud7ff]+", usample, "unicode korean")
findPart(u"[\u30a0-\u30ff]+", usample, "unicode japanese katakana")
findPart(u"[\u3040-\u309f]+", usample, "unicode japanese hiragana")
findPart(u"[\u3000-\u303f\ufb00-\ufffd]+", usample, "unicode cjk Punctuation")

其輸出結果為:
復制代碼 代碼如下:

the raw utf8 string is:
'en: Regular expression is a powerful tool for manipulating text.\nzh: \xe6\xad\xa3\xe5\x88\x99\xe8\xa1\xa8\xe8\xbe\xbe\xe5\xbc\x8f\xe6\x98\xaf\xe4\xb8\x80\xe7\xa7\x8d\xe5\xbe\x88\xe6\x9c\x89\xe7\x94\xa8\xe7\x9a\x84\xe5\xa4\x84\xe7\x90\x86\xe6\x96\x87\xe6\x9c\xac\xe7\x9a\x84\xe5\xb7\xa5\xe5\x85\xb7\xe3\x80\x82\njp: \xe6\xad\xa3\xe8\xa6\x8f\xe8\xa1\xa8\xe7\x8f\xbe\xe3\x81\xaf\xe9\x9d\x9e\xe5\xb8\xb8\xe3\x81\xab\xe5\xbd\xb9\xe3\x81\xab\xe7\xab\x8b\xe3\x81\xa4\xe3\x83\x84\xe3\x83\xbc\xe3\x83\xab\xe3\x83\x86\xe3\x82\xad\xe3\x82\xb9\xe3\x83\x88\xe3\x82\x92\xe6\x93\x8d\xe4\xbd\x9c\xe3\x81\x99\xe3\x82\x8b\xe3\x81\x93\xe3\x81\xa8\xe3\x81\xa7\xe3\x81\x99\xe3\x80\x82\njp-char: \xe3\x81\x82\xe3\x82\xa2\xe3\x81\x84\xe3\x82\xa4\xe3\x81\x86\xe3\x82\xa6\xe3\x81\x88\xe3\x82\xa8\xe3\x81\x8a\xe3\x82\xaa\nkr:\xec\xa0\x95\xea\xb7\x9c \xed\x91\x9c\xed\x98\x84\xec\x8b\x9d\xec\x9d\x80 \xeb\xa7\xa4\xec\x9a\xb0 \xec\x9c\xa0\xec\x9a\xa9\xed\x95\x9c \xeb\x8f\x84\xea\xb5\xac \xed\x85\x8d\xec\x8a\xa4\xed\x8a\xb8\xeb\xa5\xbc \xec\xa1\xb0\xec\x9e\x91\xed\x95\x98\xeb\x8a\x94 \xea\xb2\x83\xec\x9e\x85\xeb\x8b\x88\xeb\x8b\xa4.\npuc: \xe3\x80\x82\xef\xbc\x9f\xef\xbc\x81\xe3\x80\x81\xef\xbc\x8c\xef\xbc\x9b\xef\xbc\x9a\xe2\x80\x9c \xe2\x80\x9d\xe2\x80\x98 \xe2\x80\x99\xe2\x80\x94\xe2\x80\x94\xe2\x80\xa6\xe2\x80\xa6\xc2\xb7\xef\xbc\x8d\xc2\xb7\xe3\x80\x8a\xe3\x80\x8b\xe3\x80\x88\xe3\x80\x89\xef\xbc\x81\xef\xbf\xa5\xef\xbc\x85\xef\xbc\x86\xef\xbc\x8a\xef\xbc\x83\n'
There are 14 non-ascii parts:
正則表達式是一種很有用的處理文本的工具。
正規表現は非常に役に立つツールテキストを操作することです。
あアいイうウえエおオ
정규
표현식은
매우
유용한
도구
텍스트를
조작하는
것입니다
。?!、,;:“
”‘
'——……·-·《》〈〉!¥%&*#
the raw unicode string is:
u'en: Regular expression is a powerful tool for manipulating text.\nzh: \u6b63\u5219\u8868\u8fbe\u5f0f\u662f\u4e00\u79cd\u5f88\u6709\u7528\u7684\u5904\u7406\u6587\u672c\u7684\u5de5\u5177\u3002\njp: \u6b63\u898f\u8868\u73fe\u306f\u975e\u5e38\u306b\u5f79\u306b\u7acb\u3064\u30c4\u30fc\u30eb\u30c6\u30ad\u30b9\u30c8\u3092\u64cd\u4f5c\u3059\u308b\u3053\u3068\u3067\u3059\u3002\njp-char: \u3042\u30a2\u3044\u30a4\u3046\u30a6\u3048\u30a8\u304a\u30aa\nkr:\uc815\uaddc \ud45c\ud604\uc2dd\uc740 \ub9e4\uc6b0 \uc720\uc6a9\ud55c \ub3c4\uad6c \ud14d\uc2a4\ud2b8\ub97c \uc870\uc791\ud558\ub294 \uac83\uc785\ub2c8\ub2e4.\npuc: \u3002\uff1f\uff01\u3001\uff0c\uff1b\uff1a\u201c \u201d\u2018 \u2019\u2014\u2014\u2026\u2026\xb7\uff0d\xb7\u300a\u300b\u3008\u3009\uff01\uffe5\uff05\uff06\uff0a\uff03\n'
There are 6 unicode chinese parts:
正則表達式是一種很有用的處理文本的工具
正規表現
非常


操作
There are 8 unicode korean parts:
정규
표현식은
매우
유용한
도구
텍스트를
조작하는
것입니다
There are 6 unicode japanese katakana parts:
ツールテキスト





There are 11 unicode japanese hiragana parts:





することです





There are 5 unicode cjk Punctuation parts:


。?!、,;:

《》〈〉!¥%&*#

您可能感興趣的文章:
  • python使用正則表達式去除中文文本多余空格,保留英文之間空格方法詳解
  • python3.x提取中文的正則表達式示例代碼
  • 淺談python下含中文字符串正則表達式的編碼問題
  • Python使用中文正則表達式匹配指定中文字符串的方法示例
  • Python正則表達式匹配中文用法示例
  • Python匹配中文的正則表達式
  • Python正則表達式如何匹配中文

標簽:泰州 西安 宣城 長沙 綿陽 重慶 無錫 銅川

巨人網絡通訊聲明:本文標題《Python 中文正則表達式筆記》,本文關鍵詞  Python,中文,正則,表達式,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python 中文正則表達式筆記》相關的同類信息!
  • 本頁收集關于Python 中文正則表達式筆記的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    日韩欧美色电影| 国产精品亚洲视频| 久久99九九99精品| 国产精品白丝jk黑袜喷水| 成年人午夜久久久| 欧美二区三区的天堂| 欧美精品一区二区久久婷婷 | 日本亚洲免费观看| 国产激情一区二区三区桃花岛亚洲| 不卡的av在线播放| 欧美精选在线播放| 国产精品午夜久久| 亚洲va国产va欧美va观看| 国产美女精品在线| 欧美自拍丝袜亚洲| 久久久久久久电影| 午夜精品免费在线观看| 国产精品中文有码| 欧美日韩三级一区二区| 欧美国产日产图区| 日韩中文字幕1| 91在线无精精品入口| 欧美zozo另类异族| 亚洲综合激情小说| 粉嫩13p一区二区三区| 欧美福利一区二区| 亚洲日本丝袜连裤袜办公室| 日韩成人午夜电影| 日韩一二三四区| 久久精品一区二区| 国产成人精品亚洲777人妖| 精品污污网站免费看| 国产精品无人区| 欧美色中文字幕| 国产精品嫩草影院av蜜臀| 奇米精品一区二区三区在线观看一| 91免费观看视频| 国产三级欧美三级日产三级99 | 91亚洲国产成人精品一区二三| 日韩欧美一区二区三区在线| 亚洲免费在线电影| 国产99久久久国产精品潘金| 日韩欧美视频一区| 亚洲va欧美va人人爽午夜| 91在线观看成人| 国产日韩欧美制服另类| 精品一二三四区| 日韩午夜在线观看| 欧美中文字幕一区二区三区 | 成人av在线一区二区| 欧美一区二区大片| 午夜精品久久久久影视| 一本久久a久久精品亚洲| 国产精品污www在线观看| 国产一区二区三区四区五区美女| 欧美一区午夜视频在线观看| 婷婷夜色潮精品综合在线| 在线免费观看日韩欧美| 亚洲精品免费播放| 一本一本大道香蕉久在线精品| 国产精品灌醉下药二区| 国产成人综合自拍| 国产日韩精品一区二区浪潮av | 中文字幕在线观看一区| 国产91丝袜在线观看| 欧美经典三级视频一区二区三区| 国产毛片精品视频| 久久久久久夜精品精品免费| 国产一区二区三区在线观看精品| 欧美xxxxx牲另类人与| 奇米四色…亚洲| 欧美va在线播放| 国产制服丝袜一区| 久久久久国产精品免费免费搜索| 国模冰冰炮一区二区| 欧美精品一区二区三区蜜桃 | 亚洲精品成a人| 在线视频欧美精品| 亚洲国产精品嫩草影院| 欧美巨大另类极品videosbest | 亚洲少妇30p| 在线一区二区视频| 亚洲不卡在线观看| 日韩三级电影网址| 国产福利精品导航| 中文字幕一区二区三区视频| 日本韩国欧美三级| 五月婷婷色综合| 精品国产乱码久久久久久免费| 国产一区二区看久久| 国产精品国产三级国产aⅴ无密码| 99免费精品视频| 一区二区不卡在线播放 | 99国产精品久久久久| 夜夜精品浪潮av一区二区三区| 91精品国产综合久久久久久漫画 | 亚洲综合免费观看高清在线观看| 欧美午夜在线一二页| 美女被吸乳得到大胸91| 欧美激情一区在线| 色婷婷国产精品久久包臀| 水蜜桃久久夜色精品一区的特点| 日韩欧美一区在线| 成人91在线观看| 午夜精品久久久久久久久| 欧美精品一区二区蜜臀亚洲| av不卡在线观看| 亚洲成a人在线观看| 久久久一区二区| 在线一区二区三区| 国内精品久久久久影院薰衣草 | 在线不卡免费av| 国内欧美视频一区二区| 一区二区三区中文字幕电影| 欧美成人精品高清在线播放| 成人av影院在线| 日韩av网站免费在线| 国产精品伦一区二区三级视频| 欧美久久一二三四区| 成人动漫av在线| 琪琪一区二区三区| 中文字幕亚洲成人| 欧美成人a∨高清免费观看| 91老师片黄在线观看| 狠狠网亚洲精品| 亚洲国产精品一区二区www在线| 精品国产伦一区二区三区观看体验 | 91精品国产综合久久久蜜臀粉嫩 | 一区二区三区四区不卡视频| 日韩免费福利电影在线观看| 色哟哟一区二区在线观看| 男人的天堂亚洲一区| 亚洲欧美日本韩国| 久久久综合网站| 在线综合亚洲欧美在线视频| 99国产精品久久久久久久久久久| 老色鬼精品视频在线观看播放| 夜夜操天天操亚洲| 国产精品久久看| 久久综合色鬼综合色| 欧美日韩成人综合天天影院 | 午夜精品福利一区二区蜜股av| 国产三级精品三级| 91精品国产乱码久久蜜臀| 一本色道久久综合狠狠躁的推荐 | 亚洲主播在线播放| 亚洲国产成人午夜在线一区| 精品毛片乱码1区2区3区 | 精品午夜久久福利影院| 亚洲v中文字幕| 亚洲精品乱码久久久久久黑人| 久久久久国色av免费看影院| 欧美一区二区三区四区在线观看 | 国产一区视频导航| 日本欧美一区二区三区| 亚洲妇女屁股眼交7| 亚洲欧美激情视频在线观看一区二区三区| 久久亚区不卡日本| 精品精品欲导航| 日韩限制级电影在线观看| 欧美日韩精品久久久| 在线观看一区二区精品视频| 色综合久久九月婷婷色综合| 成人aaaa免费全部观看| 成人av资源网站| 一区二区三区成人在线视频 | 一区二区三区四区不卡在线 | 欧美性大战久久久| 色综合婷婷久久| 91蝌蚪porny成人天涯| 91在线视频18| 99久久综合国产精品| caoporm超碰国产精品| 99久久精品国产导航| 91免费版pro下载短视频| av一区二区三区黑人| 91在线观看下载| 91精彩视频在线| 欧美日韩一区二区三区不卡| 欧美日韩免费高清一区色橹橹| 欧美日本一区二区| 91麻豆精品国产91久久久更新时间| 制服丝袜在线91| 日韩一级成人av| 久久久亚洲精品一区二区三区| 久久精品日产第一区二区三区高清版 | 亚洲成av人片观看| 肉肉av福利一精品导航| 美脚の诱脚舐め脚责91| 激情久久五月天| 成人av免费在线| 91丨九色丨蝌蚪富婆spa| 欧美午夜在线一二页| 91精品国产综合久久久久| 欧美电影免费观看完整版| 久久综合九色综合欧美亚洲| 国产精品免费视频网站| 亚洲精品成人天堂一二三| 日本在线不卡视频| 国产很黄免费观看久久|