C#正則表達式入門
[C#正則表達式入門內容]
什么是正則表達式
涉及的基本的類
正則表達式基礎知識
構建表達式基本方法
編寫一個檢驗程序
參考資料
[C#正則表達式入門正文]
對于初學者看到類似“\w+@\w+\.\w{1,3}”這樣復雜沒有規律的字符,就會莫名產生一種恐懼感。其實正則表達式和字符串(String)的使用同樣非常簡單。下面讓我們逐步地走進正則表達式的世界!
什么是正則表達式
正則表達式是用來檢驗和操作字符串的強大工具。簡單的理解正則表達式可以認為是一種特殊的驗證字符串。正則表達式常見運用是驗證用戶輸入信息格式,比如上面的那組“\w{1,}@\w{1,}\.\w{1”,實際上就是驗證郵件地址是否合法的;當然正則表達式不僅僅是用于驗證,可以說只要運用字符串的地方都可以使用正則表達式;
涉及的基本的類正則表達式在英文中寫作(Regular Expression),根據正則表達式的使用范圍和單詞意思,.NET將其命名空間設置為System.Text.RegularExpressions;
在該命名空間內包括了8個基本的類:Capture、CaptureCollection、Group、GroupCollection、Match、MatchCollection、Regex和RegexCompilationInfo如圖1所示;
圖1 MSDN Library中正則表達式命名空間
Capture 用于單個表達式捕獲結果
CaptureCollection 用于一個序列進行字符串捕獲
Group 表示單個捕獲的結果
GroupCollection 表示捕獲組的集會
Match 表示匹配單個正則表達式結果
MatchCollection 表示通過迭代方式應用正則表達式到字符串中
Regex 表示不可變的正則表達式
RegexCompilationInfo 將編譯正則表達式需要提供信息
[注意]
本文屬于初學正則表達式的入門文章,對于高級的分組(Group)及其涉及語法等在這里不做介紹;
正則表達式基礎知識基本語法
在正則表達式中擁有一套自己的語法規則,常見語法包括;字符匹配、重復匹配、字符定位、轉義匹配和其他高級語法(字符分組、字符替換和字符決策);
字符匹配語法:
字符語法 語法解釋 語法例子
\d 匹配數字(0~9) ‘\d’匹配8,不匹配12;
\D 匹配非數字 ‘\D’匹配c,不匹配3;
\w 匹配任意單字符 ‘\w\w’ 匹配A3,不匹配@3;
\W 匹配非單字符 ‘\W’匹配@,不匹配c;
\s 匹配空白字符 ‘\d\s\d’匹配3 d,不匹配abc;
\S 匹配非空字符 ‘\S\S\S’匹配A#4,不匹配3 d;
. 匹配任意字符 ‘....’匹配A$ 5,不匹配換行;
[…] 匹配括號中任意字符 [b-d]匹配b、c、d, 不匹配e;
[^…] 匹配非括號字符 [^b-z]匹配a,不匹配b-z的字符;
重復匹配語法:
重復語法 語法解釋 語法例子
{n} 匹配n次字符 \d{3}匹配\d\d\d,不匹配\d\d或\d\d\d\d
{n,} 匹配n次和n次以上 \w{2}匹配\w\w和\w\w\w以上,不匹配\w
{n,m} 匹配n次上m次下 \s{1,3}匹配\s,\s\s,\s\s\s,不匹配\s\s\s\s
? 匹配0或1次 5?匹配5或0,不匹配非5和0
+ 匹配一次或多次 \S+匹配一個以上\S,不匹配非一個以上\S
* 匹配0次以上 \W*匹配0以上\W,不匹配非N*\W
字符定位語法:
重復語法 語法解釋 語法例子
^ 定位后面模式開始位置
$ 前面模式位于字符串末端
\A 前面模式開始位置
\z 前面模式結束位置
\Z 前面模式結束位置(換行前)
\b 匹配一個單詞邊界
\B 匹配一個非單詞邊界
轉義匹配語法:
轉義語法 涉及字符(語法解釋) 語法例子
“\”+實際字符 \ . * + ? | ( ) { }^ $ 例如:\\匹配字符“\”
\n 匹配換行
\r 匹配回車
\t 匹配水平制表符
\v 匹配垂直制表符
\f 匹配換頁
\nnn 匹配一個8進制ASCII
\xnn 匹配一個16進制ASCII
\unnnn 匹配4個16進制的Uniode
\c+大寫字母 匹配Ctrl-大寫字母 例如:\cS-匹配Ctrl+S
構造正則表達的方法構造正則表達式需要涉及Regex類,在Regex類中包括:IsMatch()、Replace()、Split()和Match的類;(1) IsMatch()方法;IsMatch()方法實際上是一個返回Bool值得方法,如果測試字符滿足正則表達式返回True否則返回False;
例1;判斷是非成都地區電話號碼合法;分析:成都地區電話號碼組成028********,前面為固定區號028,后面滿足8位數字;設計正則表達式:028\d{8}(解釋:028區號固定,后面為8個數字\d組成);
程序代碼,如圖2所示:
圖2 “例1” IsMatch方法是用例
(2) Replace()方法;Replace()方法實際上是一種替換的方法,替換匹配正則表達式匹配模式;例2:在發布帶有公開電子郵件地址的文章時,替換@位AT避免產生垃圾郵件;分析:首先需要判斷文章中電子郵箱地址,然后執行替換設計正則表達式:判斷電子郵箱表達式”\w{1,}@w{1,}\\.”;程序代碼:如圖3所示;
圖3 “例2”Replace方法是用例
(3) Split()方法;Split()方法實際上是拆分的方法,根據匹配正則表達式進行拆分儲存在字符串數組中;
例3:從群發郵件地址中讀取所有郵件地址;分析:群發郵件采用“;”作為分割符,需要通過“;”進行拆分程序代碼:如圖4所示;
圖4 “例3”Split方法是用例
構建表達式基本方法構造Regex對象的構造函數包括兩個重載,一個是不含參數的構造、另外一個是含有參數的構造函數;基本形式Regex(string pattern);重載形式Regex(string pattern,RegexOptions);
補充:RegexOptions屬于枚舉類型,包括IgnoreCase(忽略大小寫)、ReghtToLeft(從右向左)、None(默認)、CultureInvariant(忽略區域)、Multline(多行模式)和SingleLine(單行模式);
例4,建立一個合法ISBN驗證格式;分析:ISBN格式為X-XXXXX-XXX-X;正則表達式格式:\d-\d{5}-\d{3}-\d
構造該正則表達式函數Regex ISBNRegex = new Regex(表達式,參數為空)詳細代碼:如圖5所示;
圖5 “例4”構造驗證函數是用例
編寫一個檢驗程序
為了方便自己在學習正則表達式和快速檢驗自己編寫表達式語句是否正確,下面提供一個IsMatch()方法正則表達式驗證器編寫;打開VS.NET,選擇新建項目中的Visual C#項目的Windows應用程序,取名為“Regex_Tools”;然后編寫如圖6所示的界面
圖6 正則表達式IsMatch方法驗證器
然后在該窗體聲明中增加正則表達式命名空間聲明using System.Text.RegularExpressions;編寫下列代碼編寫一段私有的判斷參數的方法,如圖7所示;
圖7私有驗證參數判斷方法
編寫判斷按鈕的方法,如圖8所示;
編寫清空按鈕的方法,所有的文本框等于空;
編譯該程序,一個簡單的正則表達式驗證器就成功生成了;C#正則表達式入門就介紹到這里。
【編輯推薦】