怎樣使用awk刪掉文件中重復(fù)的行

作者：Lazarus Lazaridis 2019-12-12 18:00:54

學(xué)習(xí)怎樣使用 awk 的 !visited[$0]++ 在不重新排序或改變原排列順序的前提下刪掉重復(fù)的行。

[[285435]]

學(xué)習(xí)怎樣使用 awk 的 !visited[$0]++ 在不重新排序或改變原排列順序的前提下刪掉重復(fù)的行。

假設(shè)你有一個文本文件，你需要刪掉所有重復(fù)的行。

要保持原來的排列順序刪掉重復(fù)行，使用：

awk '!visited[$0]++' your_file > deduplicated_file

這個腳本維護(hù)一個關(guān)聯(lián)數(shù)組，索引（鍵）為文件中去重后的行，每個索引對應(yīng)的值為該行出現(xiàn)的次數(shù)。對于文件的每一行，如果這行（之前）出現(xiàn)的次數(shù)為 0，則值加 1，并打印這行，否則值加 1，不打印這行。

我之前不熟悉 awk，我想弄清楚這么短小的一個腳本是怎么實現(xiàn)的。我調(diào)研了下，下面是調(diào)研心得：

這個 awk “腳本” !visited[$0]++ 對輸入文件的每一行都執(zhí)行。
visited[] 是一個關(guān)聯(lián)數(shù)組（又名映射）類型的變量。awk 會在第一次執(zhí)行時初始化它，因此我們不需要初始化。
$0 變量的值是當(dāng)前正在被處理的行的內(nèi)容。
visited[$0] 通過與 $0（正在被處理的行）相等的鍵來訪問該映射中的值，即出現(xiàn)次數(shù)（我們在下面設(shè)置的）。
! 對表示出現(xiàn)次數(shù)的值取反：
- 在 awk 中，任意非零的數(shù)或任意非空的字符串的值是 true。
- 變量默認(rèn)的初始值為空字符串，如果被轉(zhuǎn)換為數(shù)字，則為 0。
- 也就是說：
  - 如果 visited[$0] 的值是一個比 0 大的數(shù)，取反后被解析成 false。
  - 如果 visited[$0] 的值為等于 0 的數(shù)字或空字符串，取反后被解析成 true 。
- ++ 表示變量 visited[$0] 的值加 1。
  - 如果該值為空，awk 自動把它轉(zhuǎn)換為 0（數(shù)字）后加 1。
  - 注意：加 1 操作是在我們?nèi)〉搅俗兞康闹抵髨?zhí)行的。

總的來說，整個表達(dá)式的意思是：

<模式/表達(dá)式> { <動作> }

如果匹配到了模式，就會執(zhí)行后面的動作。如果省略動作，awk 默認(rèn)會打?。?code>print）輸入。

省略動作等價于 {print $0}。

我們的腳本由一個 awk 表達(dá)式語句組成，省略了動作。因此這樣寫：

awk '!visited[$0]++' your_file > deduplicated_file

等于這樣寫：

awk '!visited[$0]++ { print $0 }' your_file > deduplicated_file

對于文件的每一行，如果表達(dá)式匹配到了，這行內(nèi)容被打印到輸出。否則，不執(zhí)行動作，不打印任何東西。

uniq 命令僅能對相鄰的行去重。這是一個示例：

$ cat test.txt
A
A
A
B
B
B
A
A
C
C
C
B
B
A
$ uniq < test.txt
A
B
A
C
B
A

我們也可以用下面的 sort 命令來去除重復(fù)的行，但是原來的行順序沒有被保留。

sort -u your_file > sorted_deduplicated_file

上面的方法會產(chǎn)出一個去重的文件，各行是基于內(nèi)容進(jìn)行排序的。通過管道連接命令可以解決這個問題。

cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-

工作原理

假設(shè)我們有下面一個文件：

abc
ghi
abc
def
xyz
def
ghi
klm

cat -n test.txt 在每行前面顯示序號：

1       abc
2       ghi
3       abc
4       def
5       xyz
6       def
7       ghi
8       klm

sort -uk2 基于第二列（k2 選項）進(jìn)行排序，對于第二列相同的值只保留一次（u 選項）：

1       abc
4       def
2       ghi
8       klm
5       xyz

sort -nk1 基于第一列排序（k1 選項），把列的值作為數(shù)字來處理（-n 選項）：

1       abc
2       ghi
4       def
5       xyz
8       klm

最后，cut -f2- 從第二列開始打印每一行，直到最后的內(nèi)容（-f2- 選項：留意 - 后綴，它表示這行后面的內(nèi)容都包含在內(nèi)）。

abc
ghi
def
xyz
klm

以上為全文。

責(zé)任編輯：龐桂玉來源： Linux中國

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看