成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

編程技巧之 Linux 文本處理命令

系統 Linux
合格的程序員都善于使用工具,正所謂君子性非異也,善假于物也。合理的利用 Linux 的命令行工具,可以提高我們的工作效率。

 [[378888]]

本文轉載自微信公眾號「程序員歷小冰」,作者歷小冰 。轉載本文請聯系程序員歷小冰公眾號。

合格的程序員都善于使用工具,正所謂君子性非異也,善假于物也。合理的利用 Linux 的命令行工具,可以提高我們的工作效率。

本篇文章是《Linux 文本處理命令》 續篇,在前文的基礎上再介紹幾款有用的 Linux 命令行工具和使用場景。

再啰嗦幾句,工具能提供效率,但是有一定的學習曲線和學習成本。很多同學臨時想用時,可能會陷入了不會用的尷尬境地,再去網上搜索學習,最終要花費更長時間,還不如使用笨方法處理,這是很多同學不使用這些工具的原因之一。

而且更難的是,思維上改變原有的做事習慣,一個文件中有20多行數據要生成 SQL,好像用手工處理也就是1,2分鐘;快捷鍵記不住,我鼠標移動一下點點也挺快。但是當行數量變大或者復雜性提高時,這些手段的弊端就會顯現,逼迫我們去使用正確的手段。

所以,為什么不一開始就使用更快,而且可以處理更加復雜場景的手段呢?

本文主要以兩個場景為引子,介紹 join、sort、uniq 命令和 sed 編輯器。

合并兩個文件中的關聯行

簡單說一下場景,有兩個文件,里邊都是固定格式的行,代表著數據庫的一行數據,一個文件是用戶相關的數據,有 user_id、username 和 gender 三列,另外一個文件是訂單相關的數據,有order_id、price、user_id,time四行,現在要按照 user_id 將兩個文件按行合并,也就是user_id相同的行組合成一個新行,如下圖所示。

上述兩個文件的內容如下所示:

  1. // order.txt user_id是第三列 
  2. o1 1 u1 2011-9 
  3. o2 2 u2 2011-10 
  4. o3 3 u3 2011-10 
  5. o4 4 u1 2011-12 
  6. // user.txt user_id是第一列 
  7. u1 tom 男 
  8. u2 jack 男 
  9. u3 nacy 女 

我們準備使用 join,發現具體命令格式已經忘記了。這時,既可以去網上搜尋,也可以去詢問 man

通過 man 你可以了解到 join 的功能描述和參數介紹,一般來說看 DESCRIPTION 一欄下的即可。

從上邊的 man 文檔可以很清楚的了解到 join 命令使用 equality join 操作對特定的文件進行合并,并輸出到標準輸出流上。join filed 就是用于合并文件時進行比較的列,默認是兩個文件的第一列。可以使用 -1 和 -2 分別制定第一個文件和第二個文件要對比的列。

  1. join -1 3 -2 1 order.txt user.txt  
  2. # 指定以order.txt的第三列和user.txt的第一列來進行對比join 
  3. u1 o1 1 2011-9 tom 男 
  4. u2 o2 2 2011-10 jack 男 
  5. u3 o3 3 2011-10 nacy 女 

會發現,輸出中少了一行,order.txt 明明是四行,這是為什么呢?我們再來細看 man 文檔,發現了端倪。

兩個合并文件的行必須先按照對比列進行排序,否則可能會導致缺失部分行。user.txt 已經按照其第一列排序了,所以,我們只需要使用 sort 命令對 order.txt 按照其第三列進行排序。

sort 命令將以默認的方式將文本文件的第一列以ASCII 碼的次序排序,并將結果輸出到標準輸出。-k 參數可以指定其根據第幾列進行排序。

  1. $ sort -k 3 order.txt  
  2. # 按照數字排序則使用 -n 如果反序則用 -r 
  3. o4 4 u1 2011-12 
  4. o1 1 u1 2011-9 
  5. o2 2 u2 2011-10 
  6. o3 3 u3 2011-10 

我們將上述兩個命令結合起來使用,現將 sort 的結果存入 sorted_order.txt,然后再進行 join,就能得到最終的結果。

  1. $ sort -k 3 order.txt > sorted_order.txt 
  2. join -1 3 -2 1 sorted_order.txt user.txt 
  3. u1 o4 4 2011-12 tom 男 
  4. u1 o1 1 2011-9 tom 男 
  5. u2 o2 2 2011-10 jack 男 
  6. u3 o3 3 2011-10 nacy 

另外,上述命令默認的列分隔符都是\t和空格,可以使用 -t 參數來制定字符作為分隔符。

通過上述命令的組合,我們就完成了按照相同列合并兩個文件的操作,這也體現了 Linux 的 KISS 思想,每個工具只做一小件事情。

還是基于上述的場景,突然需要統計一下 order.txt 中每個用戶購買的訂單數量,然后按照訂單數進行從大到小排序,這又該如何處理呢?

我們可以將 sort 和 uniq 兩個工具結合起來。uniq 命令一般用于檢查和刪除文件中重復出現的行,我們可以使用它來計算 order.txt 中用戶出現的次數。

  1. $ sort -k 3 order.txt | uniq -f 3 -c  
  2. # -f 表示按照第三列進行統計 
  3.   1 o4 4 u1 2011-12 
  4.   1 o1 1 u1 2011-9 
  5.   2 o2 2 u2 2011-10 

刪除 Markdown 文件中的超鏈接

另外一個場景是我編輯文章時遇到的,當時 markdown 格式的文檔中有很多超鏈接,也就是[描述](鏈接)格式,希望全部把超鏈接去掉,也就是去掉方括號、圓括號和圓括號中的內容。因為文檔中還有很多代碼,包含很多圓括號語句,所以必須先準確超鏈接格式,然后再進行替換。

這里,我們可以使用 sed 命令。sed 的全名叫 stream editor 流編輯器,可以使用程序的方式來編輯文本。想要全面學習它的小伙伴可以閱讀 《SED 簡明教程》或 《sed 手冊》,我們這里只介紹一下最基礎的功能,向大家展示使用它的可能性。使用 sed 一般要了解正則表達式,推薦《正則表達式30分鐘入門教程》。

sed 最簡單的使用方法就是替換文本。比如,我們要將上述的 order.txt 中的 u全部替換為user,則可以使用如下命令。

  1. $ sed 's/u/user/g' order.txt  
  2. # u是被替換的詞 user是替換詞 
  3. o1 1 user1 2011-9 
  4. o2 2 user2 2011-10 
  5. o3 3 user3 2011-10 
  6. o4 4 user1 2011-12 

sed 還能輕易實現 sublime 或者 vscode 經常使用的多行光標編輯的功能。比如在 order.txt 的每行前頭前添加文字。

  1. $ sed 's/^/#/g' order.txt   
  2. # ^在正則表達式中表示一行開頭,所以表示是在行開頭上加上#字符 
  3. #o1 1 u1 2011-9 
  4. #o2 2 u2 2011-10 
  5. #o3 3 u3 2011-10 
  6. #o4 4 u1 2011-12 

下面,我們直接來看如何將超鏈接格式轉換為純文本。

  1. $ echo "[鏈接](http://http://remcarpediem.net/)" | sed -E "s/\[(.*)]\(.*\)/\1/g" 
  2. 鏈接 

首先,識別[描述](鏈接) 格式的正則表達式是\[.*\]\(.*\),其中 \[和\( 分別表示匹配文本的[和( 符號。. 表示任何單個字符,*表示某個字符出現了0次或多次, 二者組合 .* 則表示出現0次或者多次任何字符。

綜上,上述正則表達的含義就是先出現一個[,再出現0次或者多次任意字符,在出現一個],在出現一個(,在出現0次或者多次任意字符,最后出現一個)。

其次,我們希望用[描述]中的描述文本來替換整個超鏈接文本,所以需要先識別出方括號中的內容,則需要將其用()單獨括起來,表示一個子表達式,也就是\[(.*)\]\(.*\)。

最后,sed 的 s///g 模式下,s 表示替換模式,g 表示匹配每一行有行首到行尾的所有字符,加 g 則一行有多個鏈接可以匹配處理,不加只能匹配第一個。\1代表第一個子表達式,也就是方括號中的描述內容。

 

責任編輯:武曉燕 來源: 程序員歷小冰
相關推薦

2013-10-30 10:35:29

Linux命令文本處理

2013-08-20 16:14:46

pythonpython文本處理

2017-03-02 18:10:20

LinuxShell命令

2010-07-21 10:05:13

Perl文本處理模塊

2019-10-29 09:20:48

Python文本正則表達式

2024-11-06 17:04:47

AWK編程

2021-09-10 16:30:29

LinuxShell文本

2010-01-06 17:12:26

.Net Framew

2019-10-14 11:31:51

工具代碼開發

2024-09-12 17:39:27

2024-04-12 12:14:39

Rust字符串代碼

2024-03-11 00:02:00

tr命令文本處理命令字符

2024-01-30 18:07:22

Linux命令行工具

2024-04-17 12:52:12

正則表達式C#文本處理工具

2018-09-12 21:44:32

Linux命令行操作系統

2025-05-12 08:35:00

Linux文本處理工具運維

2025-06-25 07:08:09

grepsedawk

2025-02-10 08:10:00

Linuxsed命令

2010-03-18 16:38:39

Linux命令

2024-11-21 13:02:42

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一级免费黄色片 | 无吗视频| 日韩精品一区二区三区在线观看 | 午夜影院视频 | 久久夜色精品国产 | 国产精品视频一区二区三区 | 免费能直接在线观看黄的视频 | 精品国产一区一区二区三亚瑟 | 在线第一页 | 在线一区视频 | 日韩视频区 | 日本一道本视频 | 亚洲精品国产一区 | 四虎影视一区二区 | 国产精品美女久久久久久不卡 | 蜜桃精品噜噜噜成人av | 一级黄色片网站 | 久久国产一区二区三区 | 日本精品视频 | 成人网视频 | 久久久久国产精品免费免费搜索 | 精品福利在线 | 久久久久国产一区二区三区四区 | 国产成人亚洲精品自产在线 | 欧美日韩精品久久久免费观看 | 精品三区 | 久草视频在线播放 | 久久精品二区亚洲w码 | 精品国产黄a∨片高清在线 成人区精品一区二区婷婷 日本一区二区视频 | 日韩精品一区二区三区在线播放 | 久久亚洲一区二区三区四区 | 日韩精品在线视频免费观看 | 成人网av | 色综合色综合色综合 | 99re热精品视频 | 日韩精品a在线观看图片 | 综合久久综合久久 | 在线观看亚洲精品视频 | 黄色一级片在线播放 | 99久久精品免费看国产四区 | 成人免费福利 |