使用Python函數編譯函數
下面開始介紹一下模塊其它的常用Python函數編譯,靈活搭配使用這些函數,才能充分發揮Python正則式的強大功能,看完本文你肯定有不少收獲,希望本文能教會你更多東西。
直接使用findall ( rule , target )的方式來匹配字符串,一次兩次沒什么,如果是多次使用的話,由于正則引擎每次都要把規則解釋一遍。而規則的解釋又是相當費時間的,所以這樣的效率就很低了。如果要多次使用同一規則來進行匹配的話,可以使用re.compile函數來將規則預編譯,使用編譯過返回的Regular Expression Object或叫做Pattern對象來進行查找。
將一個正則式,使用Python函數編譯,不僅是為了提高匹配的速度,同時還能使用一些附加的功能。編譯后的結果生成一個Pattern對象。這個對象里面有很多函數,他們看起來和re模塊的Python函數編譯非常象,它同樣有findall , match , search ,finditer , sub , subn , split 這些函數。#t#
只不過它們的參數有些小小的不同。一般說來,re模塊函數的***個參數,即正則規則不再需要了,應為規則就包含在Pattern對象中了,編譯選項也不再需要了,因為已經被編譯過了。因此re模塊中函數的這兩個參數的位置,就被后面的參數取代了。
findall , match , search 和finditer這幾個函數的參數是一樣的,除了少了規則和選項兩個參數外,它們又加入了另外兩個參數,它們是:查找開始位置和查找結束位置,也就是說,現在你可以指定查找的區間,除去你不感興趣的區間。它們現在的參數形式是:
- import Image
- # load a color image
- im = Image.open(''fun.jpg'')
- # convert to grey level image
- Lim = im.convert(''L'')
- Lim.save(''fun_Level.jpg'')
- # setup a converting table with constant threshold
- threshold = 80
- table = []
- for i in range(256):
- if i < threshold:
- table.append(0)
- else:
- table.append(1)
- # convert to binary image by the table
- bim = Lim.point(table, ''1'')
- bim.save(''fun_binary.jpg'')
這里是一點小心得。 由于正則表達式使用反斜杠來轉義特殊字符,而python自身處理字符串時,反斜杠也是用于轉義字符,這樣就產生了一個雙重轉換的問題要匹配字符串中1個反斜杠應該怎么寫正則表達式?"\\",這樣行嗎?試試就知道了。
re模塊拋異常了,Python函數編譯因為"\\"就是一個反斜杠,對于正則表達式解析器來說,是一個轉義字符,但是后面啥也沒有,自然就報錯了,"\\\"三個肯定是不行的,試試四個"\\\\",***匹配。
我們來分析一下這個例子:這個正則式是匹配單詞、或數字、或一個由字母或’_’開頭,后面接字母或數字的一個ID。我們給這三種情況的規則都包入了一個命名組,分別命名為’word’ , ‘num’ 和 ‘id’。我們規定大小寫不敏感,所以使用了編譯選項 。