成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Perl正則表達式入門教程

開發 后端
Perl語言中Perl正則表達式的概念你是否了解,這里和大家簡單分享一下,一個Perl正則表達式,就是用某種模式去匹配一類字符串的一個公式。

本文和大家主要學習一下Perl正則表達式的概念,Perl正則表達式由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數字,而元字符則具有特殊的含義,我們下面會給予解釋。

Perl正則表達式

一、什么是Perl正則表達式

  一個Perl正則表達式,就是用某種模式去匹配一類字符串的一個公式。很多人因為它們看上去比較古怪而且復雜所以不敢去使用——很不幸,這篇文章也不能夠改變這一點,不過,經過一點點練習之后我就開始覺得這些復雜的表達式其實寫起來還是相當簡單的,而且,一旦你弄懂它們,你就能把數小時辛苦而且易錯的文本處理工作壓縮在幾分鐘(甚至幾秒鐘)內完成。Perl正則表達式被各種文本編輯軟件、類庫(例如RogueWave的tools.h++)、腳本工具(像awk/grep/sed)廣泛的支持,而且像Microsoft的VisualC++這種交互式IDE也開始支持它了。
  我們將在如下的章節中利用一些例子來解釋Perl正則表達式的用法,絕大部分的例子是基于vi中的文本替換命令和grep文件搜索命令來書寫的,不過它們都是比較典型的例子,其中的概念可以在sed、awk、perl和其他支持Perl正則表達式的編程語言中使用。你可以看看不同工具中的Perl正則表達式這一節,其中有一些在別的工具中使用Perl正則表達式的例子。還有一個關于vi中文本替換命令(s)的簡單說明附在文后供參考。

二、Perl正則表達式基礎

  Perl正則表達式由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數字,而元字符則具有特殊的含義,我們下面會給予解釋。
  在最簡單的情況下,一個Perl正則表達式看上去就是一個普通的查找串。例如,Perl正則表達式"testing"中沒有包含任何元字符,,它可以匹配"testing"和"123testing"等字符串,但是不能匹配"Testing"。
  要想真正的用好Perl正則表達式,正確的理解元字符是最重要的事情。下表列出了所有的元字符和對它們的一個簡短的描述。
  元字符描述
  .
  匹配任何單個字符。例如Perl正則表達式r.t匹配這些字符串:rat、rut、rt,但是不匹配root。
  $
  匹配行結束符。例如Perl正則表達式weasel$能夠匹配字符串"He'saweasel"的末尾,但是不能匹配字符串"Theyareabunchofweasels."。
  ^
  匹配一行的開始。例如Perl正則表達式^Whenin能夠匹配字符串"Wheninthecourseofhumanevents"的開始,但是不能匹配"WhatandWheninthe"。
  *
  匹配0或多個正好在它之前的那個字符。例如Perl正則表達式.*意味著能夠匹配任意數量的任何字符。
  \
  這是引用符,用來將這里列出的這些元字符當作普通的字符來進行匹配。例如Perl正則表達式\$被用來匹配美元符號,而不是行尾,類似的,Perl正則表達式\.用來匹配點字符,而不是任何字符的通配符。
  []
  [c1-c2]
  [^c1-c2]
  
匹配括號中的任何一個字符。例如Perl正則表達式r[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括號中使用連字符-來指定字符的區間,例如Perl正則表達式[0-9]可以匹配任何數字字符;還可以制定多個區間,例如Perl正則表達式[A-Za-z]可以匹配任何大小寫字母。另一個重要的用法是“排除”,要想匹配除了指定區間之外的字符——也就是所謂的補集——在左邊的括號和***個字符之間使用^字符,例如Perl正則表達式[^269A-Z]將匹配除了2、6、9和所有大寫字母之外的任何字符。
  \<\>
  匹配詞(word)的開始(\<)和結束(\>)。例如Perl正則表達式\   \(\)
  將\(和\)之間的表達式定義為“組”(group),并且將匹配這個表達式的字符保存到一個臨時區域(一個Perl正則表達式中最多可以保存9個),它們可以用到的符號來引用。
  |
  將兩個匹配條件進行邏輯“或”(Or)運算。例如Perl正則表達式(him|her)匹配"itbelongstohim"和"itbelongstoher",但是不能匹配"itbelongstothem."。注意:這個元字符不是所有的軟件都支持的。
  +
  匹配1或多個正好在它之前的那個字符。例如Perl正則表達式9+匹配9、99、999、98、93dsf、9.....等。注意:這個元字符不是所有的軟件都支持的。
  ?
  匹配0或1個正好在它之前的那個字符。注意:這個元字符不是所有的軟件都支持的。
  \{i\}
  \{i,j\}
 
匹配指定數目的字符,這些字符是在它之前的表達式定義的。例如Perl正則表達式A[0-9]\{3\}能夠匹配字符"A"后面跟著正好3個數字字符的串,例如A123、A348等,但是不匹配A1234。而Perl正則表達式[0-9]\{4,6\}匹配連續的任意4個、5個或者6個數字字符。注意:這個元字符不是所有的軟件都支持的。
  最簡單的元字符是點,它能夠匹配任何單個字符(注意不包括新行符)。假定有個文件test.txt包含以下幾行內容:
  heisarat
  heisinarut
  thefoodisRotten
  Ilikerootbeer
  我們可以使用grep命令來測試我們的Perl正則表達式,grep命令使用Perl正則表達式去嘗試匹配指定文件的每一行,并將至少有一處匹配表達式的所有行顯示出來。命令  grepr.ttest.txt
  
在test.txt文件中的每一行中搜索Perl正則表達式r.t,并打印輸出匹配的行。Perl正則表達式r.t匹配一個r接著任何一個字符再接著一個t。所以它將匹配文件中的rat和rut,而不能匹配Rotten中的Rot,因為Perl正則表達式是大小寫敏感的。要想同時匹配大寫和小寫字母,應該使用字符區間元字符(方括號)。Perl正則表達式[Rr]能夠同時匹配R和r。所以,要想匹配一個大寫或者小寫的r接著任何一個字符再接著一個t就要使用這個表達式:[Rr].t。
  要想匹配行首的字符要使用抑揚字符(^)——又是也被叫做插入符。例如,想找到text.txt中行首"he"打頭的行,你可能會先用簡單表達式he,但是這會匹配第三行的the,所以要使用Perl正則表達式^he,它只匹配在行首出現的h。
  有時候指定“除了×××都匹配”會比較容易達到目的,當抑揚字符(^)出現在方括號中是,它表示“排除”,例如要匹配he,但是排除前面是tors的情性(也就是the和she),可以使用:[^st]he。
  可以使用方括號來指定多個字符區間。例如Perl正則表達式[A-Za-z]匹配任何字母,包括大寫和小寫的;Perl正則表達式[A-Za-z][A-Za-z]*匹配一個字母后面接著0或者多個字母(大寫或者小寫)。當然我們也可以用元字符+做到同樣的事情,也就是:[A-Za-z]+,和[A-Za-z][A-Za-z]*完全等價。但是要注意元字符+并不是所有支持Perl正則表達式的程序都支持的。關于這一點可以參考后面的Perl正則表達式語法支持情況。
  要指定特定數量的匹配,要使用大括號(注意必須使用反斜杠來轉義)。想匹配所有100和1000的實例而排除10和10000,可以使用:10\{2,3\},這個Perl正則表達式匹配數字1后面跟著2或者3個0的模式。在這個元字符的使用中一個有用的變化是忽略第二個數字,例如Perl正則表達式0\{3,\}將匹配至少3個連續的0。#p#
  
簡單的例子

  這里有一些有代表性的、比較簡單的例子。
  vi命令作用
  :%s/*//g把一個或者多個空格替換為一個空格。
  :%s/*$//去掉行尾的所有空格。
  :%s/^//在每一行頭上加入一個空格。
  :%s/^[0-9][0-9]*//去掉行首的所有數字字符。
  :%s/b[aeio]g/bug/g將所有的bag、beg、big和bog改為bug。
  :%s/t\([aou]\)g/h$t/g將所有tag、tog和tug分別改為hat、hot和hug(注意用group的用法和使用引用前面被匹配的字符)。
  
中級的例子(神奇的咒語)
  
例1
  將所有方法foo(a,b,c)的實例改為foo(b,a,c)。這里a、b和c可以是任何提供給方法foo()的參數。也就是說我們要實現這樣的轉換:
  之前之后
  foo(10,7,2)foo(7,10,2)
  foo(x+13,y-2,10)foo(y-2,x+13,10)
  foo(bar(8),x+y+z,5)foo(x+y+z,bar(8),5)
  下面這條替換命令能夠實現這一魔法:
  :%s/foo(\([^,]*\),\([^,]*\),\([^)]*\))/foo($2,$1,$3)/g
  現在讓我們把它打散來加以分析。寫出這個表達式的基本思路是找出foo()和它的括號中的三個參數的位置。***個參數是用這個表達式來識別的::\([^,]*\),我們可以從里向外來分析它:
  [^,]除了逗號之外的任何字符
  [^,]*0或者多個非逗號字符
  \([^,]*\)將這些非逗號字符標記為,這樣可以在之后的替換模式表達式中引用它
  \([^,]*\),我們必須找到0或者多個非逗號字符后面跟著一個逗號,并且非逗號字符那部分要標記出來以備后用。
  現在正是指出一個使用Perl正則表達式常見錯誤的最佳時機。為什么我們要使用[^,]*這樣的一個表達式,而不是更加簡單直接的寫法,例如:.*,來匹配***個參數呢?設想我們使用模式.*來匹配字符串"10,7,2",它應該匹配"10,"還是"10,7,"?為了解決這個兩義性(ambiguity),Perl正則表達式規定一律按照最長的串來,在上面的例子中就是"10,7,",顯然這樣就找出了兩個參數而不是我們期望的一個。所以,我們要使用[^,]*來強制取出***個逗號之前的部分。
  這個表達式我們已經分析到了:foo(\([^,]*\),這一段可以簡單的翻譯為“當你找到foo(就把其后直到***個逗號之前的部分標記為”。然后我們使用同樣的辦法標記第二個參數為。對第三個參數的標記方法也是一樣,只是我們要搜索所有的字符直到右括號。我們并沒有必要去搜索第三個參數,因為我們不需要調整它的位置,但是這樣的模式能夠保證我們只去替換那些有三個參數的foo()方法調用,在foo()是一個重載(overoading)方法時這種明確的模式往往是比較保險的。然后,在替換部分,我們找到foo()的對應實例,然后利用標記好的部分進行替換,是的***和第二個參數交換位置。
  
例2
  假設有一個CSV(commaseparatedvalue)文件,里面有一些我們需要的信息,但是格式卻有問題,目前數據的列順序是:姓名,公司名,州名縮寫,郵政編碼,現在我們希望講這些數據重新組織,以便在我們的某個軟件中使用,需要的格式為:姓名,州名縮寫-郵政編碼,公司名。也就是說,我們要調整列順序,還要合并兩個列來構成一個新列。另外,我們的軟件不能接受逗號前后面有任何空格(包括空格和制表符)所以我們還必須要去掉逗號前后的所有空格。
  這里有幾行我們現在的數據:
  BillJones,HI-TEKCorporation,CA,95011
  SharonLeeSmith,DesignWorksIncorporated,CA,95012
  B.Amos,HillStreetCafe,CA,95013
  AlexanderWeatherworth,TheCraftsStore,CA,95014
  ...
  我們希望把它變成這個樣子:
  BillJones,CA95011,HI-TEKCorporation
  SharonLeeSmith,CA95012,DesignWorksIncorporated
  B.Amos,CA95013,HillStreetCafe
  AlexanderWeatherworth,CA95014,TheCraftsStore
  ...
  我們將用兩個Perl正則表達式來解決這個問題。***個移動列和合并列,第二個用來去掉空格。
  下面就是***個替換命令:
  :%s/\([^,]*\),\([^,]*\),\([^,]*\),\(.*\)/,,/
  這里的方法跟例1基本一樣,***個列(姓名)用這個表達式來匹配:\([^,]*\),即***個逗號之前的所有字符,而姓名內容被用標記下來。公司名和州名縮寫字段用同樣的方法標記為和,而***一個字段用\(.*\)來匹配("匹配所有字符直到行末")。替換部分則引用上面標記的那些內容來進行構造。
  下嬲飧鎏婊幻?鈐蠐美慈コ?嶄瘢?
  :%s/[\t]*,[\t]*/,/g
  我們還是分解來看:[\t]匹配空格/制表符,[\t]*匹配0或多個空格/制表符,[\t]*,匹配0或多個空格/制表符后面再加一個逗號,***,[\t]*,[\t]*匹配0或多個空格/制表符接著一個逗號再接著0或多個空格/制表符。在替換部分,我們簡單的我們找到的所有東西替換成一個逗號。這里我們使用了結尾的可選的g參數,這表示在每行中對所有匹配的串執行替換(而不是缺省的只替換***個匹配串)。
  
例3
  假設有一個多字符的片斷重復出現,例如:
  

  1. Billytriedreallyhard  
  2.   Sallytriedreallyreallyhard  
  3.   Timmytriedreallyreallyreallyhard  
  4.   Johnnytriedreallyreallyreallyreallyhard  

  而你想把"really"、"reallyreally",以及任意數量連續出現的"really"字符串換成一個簡單的"very"(simpleisgood!),那么以下命令:
  :%s/\(really\)\(really\)*/very/
  就會把上述的文本變成:
 

  1.  Billytriedveryhard  
  2.   Sallytriedveryhard  
  3.   Timmytriedveryhard  
  4.   Johnnytriedveryhard  

  表達式\(really\)*匹配0或多個連續的"really"(注意結尾有個空格),而\(really\)\(really\)*匹配1個或多個連續的"really"實例。
  困難的例子(不可思議的象形文字)
  Comingsoon. #p#
  
不同工具中的Perl正則表達式

  OK,你已經準備使用RE(regularexpressions,Perl正則表達式),但是你并準備使用vi。所以,在這里我們給出一些在其他工具中使用RE的例子。另外,我還會總結一下你在不同程序之間使用RE可能發現的區別。
  當然,你也可以在VisualC++編輯器中使用RE。選擇Edit->Replace,然后選擇"Regularexpression"選擇框,FindWhat輸入框對應上面介紹的vi命令:%s/pat1/pat2/g中的pat1部分,而Replace輸入框對應pat2部分。但是,為了得到vi的執行范圍和g選項,你要使用ReplaceAll或者適當的手工FindNextandReplace(譯者按:知道為啥有人罵微軟***了吧,雖然VC中可以選中一個范圍的文本,然后在其中執行替換,但是總之不夠vi那么靈活和典雅)。
  sed
  Sed是StreamEDitor的縮寫,是Unix下常用的基于文件和管道的編輯工具,可以在手冊中得到關于sed的詳細信息。
  這里是一些有趣的sed腳本,假定我們正在處理一個叫做price.txt的文件。注意這些編輯并不會改變源文件,sed只是處理源文件的每一行并把結果顯示在標準輸出中(當然很容易使用重定向來定制):
  
sed腳本描述

  sed's/^$/d'price.txt刪除所有空行
  sed's/^[\t]*$/d'price.txt刪除所有只包含空格或者制表符的行
  sed's/"http://g'price.txt刪除所有引號

awk

       awk是一種編程語言,可以用來對文本數據進行復雜的分析和處理。可以在手冊中得到關于awk的詳細信息。這個古怪的名字是它作者們的姓的縮寫(Aho,Weinberger和Kernighan)。
  在Aho,Weinberger和Kernighan的書TheAWKProgrammingLanguage中有很多很好的awk的例子,請不要讓下面這些微不足道的腳本例子限制你對awk強大能力的理解。我們同樣假定我們針對price.txt文件進行處理,跟sed一樣,awk也只是把結果顯示在終端上。
  awk腳本描述
  awk'!~/^$/'price.txt刪除所有空行
  awk'NF>0'price.txtawk中一個更好的刪除所有空行的辦法
  awk'~/^[JT]/'price.txt打印所有第二個字段是'J'或者'T'打頭的行中的第三個字段
  awk'!~/[Mm]isc/{print+}'price.txt針對所有第二個字段不包含'Misc'或者'misc'的行,打印第3和第4列的和(假定為數字)
  awk'!~/^[0-9]+\.[0-9]*$/'price.txt打印所有第三個字段不是數字的行,這里數字是指d.d或者d這樣的形式,其中d是0到9的任何數字
  awk'~/John|Fred/'price.txt如果第二個字段包含'John'或者'Fred'則打印整行
  
grep

  grep是一個用來在一個或者多個文件或者輸入流中使用RE進行查找的程序。它的name編程語言可以用來針對文件和管道進行處理。可以在手冊中得到關于grep的完整信息。這個同樣古怪的名字來源于vi的一個命令,g/re/p,意思是globalregularexpressionprint。
  下面的例子中我們假定在文件phone.txt中包含以下的文本,——其格式是姓加一個逗號,然后是名,然后是一個制表符,然后是電話號碼:
  Francis,John5-3871
  Wong,Fred4-4123
  Jones,Thomas1-4122
  Salazar,Richard5-2522
  
grep命令描述

  grep'\t5-...1'phone.txt把所有電話號碼以5開頭以1結束的行打印出來,注意制表符是用\t表示的
  grep'^S[^]*R'phone.txt打印所有姓以S打頭和名以R打頭的行
  grep'^[JW]'phone.txt打印所有姓開頭是J或者W的行
  grep',....\t'phone.txt打印所有姓是4個字符的行,注意制表符是用\t表示的
  grep-v'^[JW]'phone.txt打印所有不以J或者W開頭的行
  grep'^[M-Z]'phone.txt打印所有姓的開頭是M到Z之間任一字符的行
  grep'^[M-Z].*[12]'phone.txt打印所有姓的開頭是M到Z之間任一字符,并且點號號碼結尾是1或者2的行
  

egrep

     egrep是grep的一個擴展版本,它在它的Perl正則表達式中支持更多的元字符。下面的例子中我們假定在文件phone.txt中包含以下的文本,——其格式是姓加一個逗號,然后是名,然后是一個制表符,然后是電話號碼:
  Francis,John5-3871
  Wong,Fred4-4123
  Jones,Thomas1-4122
  Salazar,Richard5-2522
  egrepcommandDescription
  egrep'(John|Fred)'phone.txt打印所有包含名字John或者Fred的行
  egrep'John|22$|^W'phone.txt打印所有包含John或者以22結束或者以W的行
  egrep'net(work)?s'report.txt從report.txt中找到所有包含networks或者nets的行
  Perl正則表達式語法支持情況
  命令或環境.[]^$\(\)\{\}?+|()
  viXXXXX
  VisualC++XXXXX
  awkXXXXXXXX
  sedXXXXXX
  TclXXXXXXXXX
  exXXXXXX
  grepXXXXXX
  egrepXXXXXXXXX
  fgrepXXXXX
  perlXXXXXXXXX
  
vi替換命令簡介

  Vi的替換命令:
  :ranges/pat1/pat2/g
  其中
  :這是Vi的命令執行界面。
  range是命令執行范圍的指定,可以使用百分號(%)表示所有行,使用點(.)表示當前行,使用美元符號($)表示***一行。你還可以使用行號,例如10,20表示第10到20行,.,$表示當前行到***一行,.+2,$-5表示當前行后兩行直到全文的倒數第五行,等等。
  s表示其后是一個替換命令。
  pat1這是要查找的一個Perl正則表達式,這篇文章中有一大堆例子。
  pat2這是希望把匹配串變成的模式的Perl正則表達式,這篇文章中有一大堆例子。
  g可選標志,帶這個標志表示替換將針對行中每個匹配的串進行,否則則只替換行中***個匹配串。

【編輯推薦】

  1. 學習筆記 如何實現Perl正則表達式匹配
  2. 解析Perl引用中Perl直接應用用法
  3. 暢談Perl數組的使用技巧
  4. 追溯Perl正則表達式的起源和使用
  5. 解析Perl正則表達式的形式、模式和原則

 

責任編輯:佚名 來源: csdn.net
相關推薦

2010-07-14 09:37:46

Perl正則表達式

2010-07-13 17:03:53

Perl正則表達式

2010-07-14 09:01:18

Perl正則表達式

2010-07-19 10:40:16

Perl正則表達式

2009-02-18 09:48:20

正則表達式Java教程

2010-07-14 09:47:04

Perl正則表達式

2010-03-01 15:51:59

Python則表達式

2019-12-10 10:40:57

Python正則表達式編程語言

2009-08-17 13:56:28

C#正則表達式入門

2010-07-14 10:06:55

Perl正則表達式

2010-03-25 18:25:36

Python正則表達式

2010-07-13 16:56:30

Perl正則表達式

2019-11-29 16:25:00

前端正則表達式字符串

2024-12-16 07:33:45

C#正則表達式

2010-07-19 16:11:20

Perl正則表達式

2010-07-19 16:17:17

Perl正則表達式

2010-07-14 09:24:22

Perl正則表達式

2010-07-21 10:43:25

Perl正則表達式匹配

2009-09-16 12:41:42

Perl正則表達式

2020-09-04 09:16:04

Python正則表達式虛擬機
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜电影一区二区 | 一区二区三区国产精品 | 日韩一级 | 美女久久久久 | 国产精品久久久久久久久久久久久 | 99re6在线视频 | 女人毛片a毛片久久人人 | 国产欧美精品区一区二区三区 | 成人水多啪啪片 | julia中文字幕久久一区二区 | 日韩精品免费 | 亚洲成人av | 国产精品视频久久久久久 | 精品久久久久久一区二区 | 超碰av在线| 91精品中文字幕一区二区三区 | 国产精品久久99 | 国产欧美视频一区二区 | 青青久久 | 国产精品欧美一区二区三区不卡 | 免费欧美| 国产欧美在线视频 | jlzzjlzz国产精品久久 | 国产欧美一区二区三区久久 | 中文字幕韩在线第一页 | 日韩有码在线播放 | 亚洲色综合| 精品免费国产一区二区三区四区介绍 | h在线播放 | 999精品视频 | 视频羞羞 | 亚洲美女在线视频 | 亚洲在线一区二区 | 新超碰97| 国产欧美精品一区二区色综合朱莉 | 9999在线视频 | 免费在线观看黄色av | 成人欧美一区二区三区黑人孕妇 | 亚洲一区二区三区视频 | 99在线免费观看 | 狠狠做六月爱婷婷综合aⅴ 国产精品视频网 |