實例解析Perl命令行實用程序
本文和大家重點學習一下Perl命令行參數,Perl命令行實用程序那些將Perl用作編程語言的人經常忽視了:Perl用作Perl命令行操作的快速而又難看的腳本編制引擎時是很有用的。
Perl命令行實用程序
Perl命令行實用程序那些將Perl用作編程語言的人經常忽視了:Perl用作Perl命令行操作的快速而又難看的腳本編制引擎時是很有用的。通過Perl命令行,Perl僅用一行就可以實現大多數其它語言需要數頁代碼才能完成的任務。跟著Teodor,他會教給您一些有用的示例。
為了完成這一篇how-to文章,您需要在系統上安裝Perl5.6.0。您的系統最好安裝比較新(2000或更新)的Linux或Unix,但是其它操作系統也能照樣工作。所有的示例都使用tcshshell(盡管bash及其它shell也能工作)。雖然這些示例也許可以和較早版本的Perl、Linux及其它操作系統一起工作,但是如果它們不能一起工作,那么它們無法工作的原因可以作為練習,讓讀者去解決。
我想說的第一點是:有經驗的程序員不應回避快速而又難看的解決方案。在其它專欄文章中,我已經強調了文檔編制和徹底性。本專欄文章將集中在編程的消極面,其中文檔編制是可選的,而咖啡因卻無從選擇。因為我們已經身陷其中。
第二點和第一點一樣重要:快速而又難看的解決方案很難正確完成。如果您知道如何記錄、測試和調試完整的腳本,那么您就非常有可能在一行程序中取得成功。如果您不知道怎樣做,那么這就像是企圖用鯡魚來砍倒紅杉樹(而您的技能就是那條鯡魚)。
第一步,您應該學習shell的特性:Unix將Perl命令行參數傳遞給Perl的方式及這些參數的Perl解釋方法。#p#
Perl命令行的實質
在Unix中您將看到可執行任務的概念,一個進程通常是裝入內存的程序。除了初始進程外,進程都可以由其它進程來啟動,初始進程通常是由內核(有時由內核進程)來啟動的。就用戶的觀點而言,啟動進程需要shell或啟動程序。因此,當用戶在shellPerl命令行輸入"xeyes"或者從啟動程序菜單(類似于GNOME任務欄)選擇XEyes應用程序時,shell或啟動程序創建新的進程以運行該程序。
進程獲得Perl命令行參數。因此,例如,"perl"和"perl-w"是對同一個程序的兩種不同調用。在內部,Perl(類似于C)將參數傳遞給它用@ARGV數組解釋的腳本。但是和C不同的是,Perl偷偷地從腳本中"竊取"其中一些參數以用于自己的用途。例如,正在解釋的腳本看不到傳給Perl解釋器的"-w"參數,除非腳本看來需要它。shell用空格字符隔開參數。
傳給Perl的"-e"參數告訴Perl獲取Perl命令行中"-e"后的任何內容并將它當作腳本來運行。"-M"參數表示獲取其后的任何內容并將該內容作為模塊導入,類似于正規腳本中的"useModuleName"。請參閱perldocperlrun頁面以獲取有關Perl必須從Perl命令行提供的開關的更多信息。
可能最好在這里舉些示例。根據本專欄文章的精神,讓我們使用一行程序。腳本的-MData:umper-e'printDumper-@ARGV'部分只是打印出了@ARGV數組的內容。
清單1.Perl命令行參數
- #atthecommandline,typeeachlineafterthe'>'
- #andyou'llgettheoutputthat
- #followsit
- #printthe@ARGVcontentswithnoprogramarguments
- >perl-MData:umper-e'printDumper\@ARGV'
- $VAR1=[];
- #printthe@ARGVcontentswitharguments"a"and"b"
- >perl-MData:umper-e'printDumper\@ARGV'ab
- $VAR1=[
- 'a',
- 'b'
- ];
- #printthe@ARGVcontentswithwarningson,andarguments"a"and"b"
- >perl-w-MData:umper-e'printDumper\@ARGV'ab
- $VAR1=[
- 'a',
- 'b'
- ];
- #printthe@ARGVcontentswitharguments"a","b",and"-w"
- #notehowthe-wisnotstolenbyPerlifitfollowsarguments
- #thatPerlknowsitdoesn'twant
- >perl-MData:umper-e'printDumper\@ARGV'ab-w
- $VAR1=[
- 'a',
- 'b',
- '-w'
- ];
- Hereisthefinallinethatincludessome
除非您的shell限制了參數的數量或長度,不然您可以向Perl傳遞任意數量的參數。在Perl中打開神奇的文件句柄(filehandle)<>,這會將傳送給Perl的每個參數作為文件名打開并逐行讀取每個文件的內容。缺省情況下,$_變量會保存每一行。
Shell使引號之間的所有內容都成為一個參數。這就是為什么在清單1中我們可以寫成-e'printDumper\@ARGV'并且Perl可以將其看成單個一行程序腳本的原因。單引號更好,因為使用單引號后您可以在一行程序內使用雙引號。Perl中的雙引號用于解釋雙引號之間的任何內容。另一個示例或許會有助于進一步說明這一點:
清單2.單引號vs.雙引號
- #printthePerlprocessID,followedbyanewline
- >perl-e'print"$$\n"'
- 2063
- #error:thefirsttwodoublequotesgotogether,therestispassed
- #tothescriptdirectly
- >perl-e"print"$$\n""
- Barewordfoundwhereoperatorexpectedat-eline1,near"1895n"
- (Missingoperatorbeforen?)
- syntaxerrorat-eline1,nexttoken???
- Executionof-eabortedduetocompilationerrors.
用bash比用tcsh要好些,因為bash允許內部的雙引號用\字符進行轉義。但是shell仍然在將雙引號內的$$傳遞給Perl之前對其進行解釋。結論是:不要使用雙引號來指定以-e開始的一行程序腳本參數。請參閱perldocperlrun以獲取更多的詳細信息,但是您主要應清楚什么在系統上有效并堅持下去。
到目前為止您已經了解了-e和-M開關所起的作用:導入模塊和運行語句。下面我列出了一些有用的其它開關;為了不把您搞糊涂,所以省略了那些更復雜的開關。請參閱perldocperlrun以獲取完整的列表和一些使用想法。
整潔性
-w
打開警告
-Mstrict
打開嚴格編譯指示(pragma)
數據
-0
(這是個零)指定輸入記錄分隔符
-a
將數據分割成名為@F的數組
-F
指定分割時-a使用的模式(請參閱perldoc-fsplit)
-i
在適當的位置編輯文件(請參閱perldocperlrun以獲取大量詳細信息)
-n
使用<>將所有@ARGV參數當作文件來逐個運行
-p
和-n一樣,但是還會打印$_的內容
執行控制
-e
指定字符串以作為腳本(多個字符串迭加)執行
-M
導入模塊
-I
指定目錄以搜索標準位置前的模塊。#p#
文件操作
假定您在一個目錄中有一些文件需要用特定的方式重命名。例如,所有包含單詞"aaa"的文件應進行重命名,用單詞"bbb"進行代替。我們將不使用Unix"mv"命令,因為用Perl的rename()函數來重命名文件已經相當不錯了(請參閱perldoc-frename以獲取當使用rename()出問題時的詳細信息)。
請參閱清單3以獲取將文件從aaa重命名為bbb的一行程序腳本。
find.命令打印出當前目錄下的所有文件和目錄列表。如果您只想要查看文件,那么就給find添加"-typef"參數。獲取find的輸出(一個文件列表)并將其傳遞給一行程序。
一行腳本使用-ne參數,該意味著它會被重寫成:
清單4.將文件從aaa重命名為bbb(已分解)
- while(<>)
- {
- chomp;#trimthenewlinefromthefilename
- nextunless-e;#thefilename($_)mustexist
- $oldname=$_;#$oldnameisnow$_
- s/aaa/bbb/;#changeall"aaa"to"bbb"in$_
- nextif-e;#thenewfilenamemustn'texist
- rename$oldname,$_;#renametheoldtothenewname
- }
正如您所看到的那樣,這是個相當復雜的七行腳本。-n開關簡化了很多東西。但是盡管如此,您還是必須知道$_變量和s///及-e運算符(請參閱perldocperlop頁面以獲取詳細信息)。File::Find標準Perl模塊本來可以代替Unixfind命令用于進行文件查找,但是腳本也會隨之變得太大而不再是一行程序了。
一行程序巧妙地平衡了有用性和復雜性,您必須準備好在需要時將它們重寫成實際腳本,而不應讓程序過于麻煩而無法控制。
下面是文件處理的另一個示例:用已知的命名結構瀏覽MP3文件的目錄并抽取專輯名。讓我們假設文件名是"Artist-Album-Track#-Song.mp3"。
清單5.查找Artist-Album-Track#-Song.mp3的專輯名
>find.-name"*.mp3"|perl-pe's/.\/\w+-(\w+)-.*/$1/'|sort|uniq
這個腳本非常簡單。它依靠find的行為,總是在每個文件名前打印"./"。隨后它僅用專輯名代替$_,并且-p開關自動打印專輯名。最后,按順序的sort和uniq確保了重復的專輯名只打印一次。所有的find、sort和uniq調用都可以用Perl完成,但是在操作系統已經為我們編寫了這一切時為何還煩惱呢?作為練習這會很有趣,但是實際上一行程序可能會變成20-30行不必要的代碼。
讓我們分解Perl腳本(用一種簡化的方式-省略-p開關的一些復雜性):
清單6.查找Artist-Album-Track#-Song.mp3的專輯名(已分解)
- while(<>)
- {
- s/.\/\w+-(\w+)-.*/$1/;#extractthealbumnameinto$_
- }continue
- {
- print;#printthealbumname
- }
此外,請注意Perl是如何成為find、sort和uniq之間的中間工具的。不必嘗試用Perl編寫所有東西。您可以這么做,有時也必須這么做,但一行程序可以重用。還有,看看正則表達式是多么的簡單。當然,如果MP3文件未正確命名,那么我們可能會獲得一些異常的專輯名,但是這值得去盡力完善正則表
【編輯推薦】