成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

簡單快捷的數據處理,數據科學需要注意的命令行

大數據 數據分析
對很多數據科學家而言,他們的數據操作經常需要使用 Pandas 或者 Tidyverse。理論上,這個說法沒有任何錯誤,畢竟這就是這些工具存在的原因。然而,對于分隔符轉換這樣的簡單任務而言,這些工具往往是大材小用,我們可以直接使用命令行快速處理。

命令行應該是每個開發者都希望掌握的,尤其是數據科學家。熟悉終端的來龍去脈可以毫無疑問地可以讓我們變得更加有效率,因此命令行還是計算機技術中的一個很棒的歷史課。例如,awk 這個數據驅動的腳本語言是 1977 年在 Brina Kernighan 的幫助下***出現的,Brina Kernighan 就是 K&R 這本書中的 K。在 50 年后的今天,每年仍然能夠出現與 awk 相關的新書。因此,我們可以相對保守地假設:一項針對命令行才能的投資在任何新近的時間內都不會貶值。

[[230659]]

ICONV(用來轉換文件的編碼方式)

文件編碼可能是比較棘手的。現在的多數文件都是 UTF-8 編碼,然而有時候我們拿到的文件并不是這個格式的。這可能導致交換編碼格式時的一些不靠譜的嘗試。這里,iconv 是一個拯救者,它能以一種編碼的文本為輸入,輸出另一種編碼的文本。

  1. # Converting -f (from) latin1 (ISO-8859-1) 
  2. # -t (to) standard UTF_8 
  3. iconv -f ISO-8859-1 -t UTF-8 < input.txt > output.txt 

可選參數:

  • iconv -l 列出所有已知的編碼字符集合
  • iconv -c 忽略不能轉換的非法字符,靜默地丟棄

HEAD(用于顯示文件的開頭內容)

如果你是一個頻繁使用 Pandas 的用戶,那么你會比較熟悉 df.head()。默認情況下 head 命令顯示文件的前 10 行內容,當然我們也可以選擇不同的參數確定打印的行數或字符數。

  1. # Prints out first 10 lines 
  2. head filename.csv 
  3. # Print first 3 lines 
  4. head -n 3 filename.csv 

可選參數:

  • head -n <數字> 打印特定數目的行數
  • head -c <字符數> 打印特定數目的字符

TR(對字符進行替換、壓縮和刪除)

tr 與轉譯比較類似,它的強大能力是文件清理的主要工具。例如以下交換文件中的分隔符:

  1. # Converting a tab delimited file into commas 
  2. cat tab_delimited.txt | tr "\\t" "," comma_delimited.csv 

tr 的另一個功能是由我們控制的內置 [:class:] 參數,這些用法包括:

  • [:alnum:] 所有的字母和數字
  • [:alpha:] 所有的字母
  • [:blank:] 所有的水平空格
  • [:cntrl:] 所有的控制字符(非打印)
  • [:digit:] 所有的數字
  • [:graph:] 所有的可打印字符,不包含空格
  • [:lower:] 所有的小寫字母
  • [:print:] 所有的可打印字符,包含空格
  • [:punct:] 所有的標點符號
  • [:space:] 所有的水平或垂直空格
  • [:upper:] 所有的大寫字母
  • [:xdigit:] 所有的十六進制字符

我們可以將它們連接在一起組成強大的程序。下面是一個基本的字數統計程序,我們可以用它來檢查 README 文檔。

  1. cat README.md | tr "[:punct:][:space:]" "\n" | tr "[:upper:]" "[:lower:]" | grep . | sort | uniq -c | sort -nr 

使用基本正則表達式的另一個例子是:

  1. # Converting all upper case letters to lower case 
  2. cat filename.csv | tr '[A-Z]' '[a-z]' 

可選參數:

  • tr -d 刪除字符
  • tr -s 壓縮字符(將連續重復的字符用一個字符表示)
  • \b 空格
  • \f 換頁符
  • \v 垂直制表符
  • \NNN 八進制字符 NNN

WC(用來計數的命令)

它的值主要來自于 -l flag,它會提供文檔的行數。

  1. # Will return number of lines in CSV 
  2. wc -l gigantic_comma.csv 

這個工具可以方便地確認各種命令的輸出。所以,如果我們轉換了文件中的分隔符,那么運行 wc -l 就可以查看總行數是不是相同,不同就是出了問題。

可選參數:

  • wc -c 打印 Bytes 數目
  • wc -m 打印出字符數
  • wc -L 打印出最長行的字符數
  • wc -w 打印出單詞數目

SPLIT(把一個大文件分割成小文件的命令)

文件大小可以使用這個命令大幅度改變。根據任務的不同,分割文件可能會有所幫助,所以就有了 split 命令。split 的基本語法如下:

  1. # We will split our CSV into new_filename every 500 lines 
  2. split -l 500 filename.csv new_filename_ 
  3. # filename.csv 
  4. # ls output 
  5. # new_filename_aaa 
  6. # new_filename_aab 
  7. # new_filename_aac 

兩個怪異的地方是命名約定和文件的擴展名。后綴約定可以通過-d 標志來約定為數字。為了添加文件擴展名,您需要運行下面的 find 命令。它會改變當前路徑下的所有文件名,給每個文件后面擴展.csv,所以,謹慎使用。

  1. find . -type f -exec mv '{}' '{}'.csv \; 
  2. # ls output 
  3. # filename.csv.csv 
  4. # new_filename_aaa.csv 
  5. # new_filename_aab.csv 
  6. # new_filename_aac.csv 

可選參數:

  • split -b 通過確定的字節大小分割
  • split -a 生成長度為 N 的后綴
  • split -x 使用十六進制后綴分割

SORT & UNIQ(sort:文件排序;uniq:報告或忽略文件中的重復行,與 sort 結合使用)

這兩個命令提供了唯一的單詞計數,這是因為 uniq 僅僅在重復的相鄰行上運行。因此,這就是在輸出之前進行排序的原因。一個有趣的注意事項是:sort -u 會與 sort file.txt | uniq 有著相同的結果。

對于數據科學家而言,排序具是一種潛在有用的能力:即基于特定列對整個 CSV 文件進行排序的能力。

  1. # Sorting a CSV file by the second column alphabetically 
  2. sort -t, -k2 filename.csv 
  3. # Numerically 
  4. sort -t, -k2n filename.csv 
  5. # Reverse order 
  6. sort -t, -k2nr filename.csv 

這里的-t 選項將逗號作為我們的分隔符,通常會采用空格或者制表符。此外,-k flag 用于指定關鍵詞。

可選參數:

  • sort -f 忽略大小寫
  • sort -r 以相反的順序排序
  • sort -R 亂序
  • uniq -c 統計出現的次數
  • uniq -d 僅僅打印重復行

CUT(cut 命令用來顯示行中的指定部分,刪除文件中指定字段。)

cut 用于刪除列。舉例來說,如果我們要刪除***列和第三列,可以使用 cut:

  1. cut -d, -f 1,3 filename.csv 

選擇除了***列之外的每一列:

  1. cut -d, -f 2- filename.csv 

與其他命令結合使用的時候,cut 作為一個過濾器:

  1. # Print first 10 lines of column 1 and 3, where "some_string_value" is present 
  2. head filename.csv | grep "some_string_value" | cut -d, -f 1,3 

找到第二列中某個特定值出現的次數:

  1. cat filename.csv | cut -d, -f 2 | sort | uniq | wc -l 
  2. # Count occurences of unique values, limiting to first 10 results 
  3. cat filename.csv | cut -d, -f 2 | sort | uniq -c | head 

PASTE(用于將多個文件按照列隊列進行合并)

paste 是一個簡潔命令,具有一個有趣的功能。如果您有兩個需要合并的文件,并且它們已經排序,paste 能夠實現這些功能。

  1. # names.txt 
  2. adam 
  3. john 
  4. zach 
  5. # jobs.txt 
  6. lawyer 
  7. youtuber 
  8. developer 
  9. # Join the two into a CSV 
  10. paste -d ',' names.txt jobs.txt > person_data.txt 
  11. # Output 
  12. adam,lawyer 
  13. john,youtuber 
  14. zach,developer 

更具 SQL 風格的變體,請參見下文。

JOIN(連接并合并文件)

join 命令是一個簡單的、擬正切的 SQL。***的區別在于 join 將返回所有列,并且只能在一個字段上進行匹配。默認情況下,join 將嘗試使用***列作為匹配鍵。對于不同的結果,必須使用以下語法:

  1. # Join the first file (-1) by the second column 
  2. # and the second file (-2) by the first 
  3. join -t, -1 2 -2 1 first_file.txt second_file.txt 

標準 join 是內部連接。但是,外部連接也可以通過- a flag 實現。另一個值得注意的現象是- e 標志,如果找到丟失的字段,它可以用來替換值。

  1. # Outer join, replace blanks with NULL in columns 1 and 2 
  2. # -o which fields to substitute - 0 is key, 1.1 is first column, etc... 
  3. join -t, -1 2 -a 1 -a2 -e ' NULL' -o '0,1.1,2.2' first_file.txt second_file.txt 

雖然不是最便于用戶使用的命令,但是絕望的時候自有絕望的措施。

可選參數:

  • join -a 打印不能匹配的行
  • join -e 替換丟失的輸入字段
  • join -j 等價于 -1 FIELD -2 FIELD

GREP(這是一種強大的文本搜索工具)

全面搜索正則表達式并打印(grep),這很可能是最出名的命令。grep 有很多強大的能力,尤其是在大型代碼庫中以我們自己的方式尋找字段。在數據科學領域,它充當著其它命令的細化機制。

  1. # Recursively search and list all files in directory containing 'word' 
  2. grep -lr 'word' . 
  3. # List number of files containing word 
  4. grep -lr 'word' . | wc -l 

統計包含單詞/模式的總行數

  1. grep -c 'some_value' filename.csv 
  2. # Same thing, but in all files in current directory by file name 
  3. grep -c 'some_value' * 

使用\|運算子進行多值操作

  1. grep "first_value\|second_value" filename.csv 

可選參數:

  • alias grep="grep --color=auto" 使 grep 色彩化
  • grep -E 使用擴展的正則表達式
  • grep -w 只匹配全字符
  • grep -l 打印出匹配的文件名
  • grep -v 反轉匹配

SED(流編輯器)

sed 是一個逐行運行的流編輯器。它擅長替換,但是也可以用于所有的重構(refactoring)。

最基本的 sed 命令包含 s/old/new/g。這指的是搜索舊值,并用新值替換。如果沒有/gour 命令,終端將在***次出現這個值之后停止。

為了快速體驗這種能力,讓我們來舉個例子。若我們有以下文件:

  1. balance,name 
  2. $1,000,john 
  3. $2,000,jack 

我們想做的***件事就是去掉美元符號。-i flag 指的是位置,''標志指的是零長度的文件擴展名,然后覆蓋初始文件。理想情況下,我們可以單獨測試其中的每一個,然后輸出到新文件。

  1. sed -i '' 's/\$//g' data.txt 
  2. # balance,name 
  3. # 1,000,john 
  4. # 2,000,jack 

接下來,我們處理 balance 中的逗號

  1. sed -i '' 's/\([0-9]\),\([0-9]\)/\1\2/g' data.txt 
  2. # balance,name 
  3. # 1000,john 
  4. # 2000,jack 

AWK(不僅僅是一個命令)

awk 不僅僅是一個簡單的命令:它是一種成熟的語言。在本文所涉及的所有內容中,awk 是最酷的。如果你發現自己對 awk 印象深刻,也可以找更多的資源。

awk 的用例包括:

  • 文本處理
  • 格式化文本報告
  • 執行數學運算
  • 執行字符串操作

***版的 awk 可以與 grep 并行使用。

  1. awk '/word/' filename.csv 

或者使用一些技巧將 grep 和 cut 結合起來。這里,對于所有我們要查找的 word 行,awk 打印第三列和第四列和分隔符。-F,僅將分隔符改為逗號。

  1. awk -F, '/word/ { print $3 "\t" $4 }' filename.csv 

awk 內置了許多優秀的變量。例如,NF -字段數,NR -記錄數。要在文件中獲取第五十三條記錄,代碼如下:

  1. awk -F, 'NR == 53' filename.csv 

一個額外的功能是基于一個或多個值進行過濾的能力。下面的***個示例將打印***列等于 string 記錄的行數和列數。

  1. awk -F, ' $1 == "string" { print NR, $0 } ' filename.csv 
  2. # Filter based off of numerical value in second column 
  3. awk -F, ' $2 == 1000 { print NR, $0 } ' filename.csv 

多數值表達式:

  1. # Print line number and columns where column three greater 
  2. # than 2005 and column five less than one thousand 
  3. awk -F, ' $3 >= 2005 && $5 <= 1000 { print NR, $0 } ' filename.csv 

對第三列求和:

  1. awk -F, '{ x+=$3 } END { print x }' filename.csv 

對***列等于『something』的所有行,對它們的第三列求和。

  1. awk -F, '$1 == "something" { x+=$3 } END { print x }' filename.csv 

得到文件的維度:

  1. awk -F, 'END { print NF, NR }' filename.csv 
  2. # Prettier version 
  3. awk -F, 'BEGIN { print "COLUMNS", "ROWS" }; END { print NF, NR }' filename.csv 

打印出現兩次的行:

  1. awk -F, '++seen[$0] == 2' filename.csv 

刪除重復的行:

  1. # Consecutive lines 
  2. awk 'a !~ $0; {a=$0}'] 
  3. # Nonconsecutive lines 
  4. awk '! a[$0]++' filename.csv 
  5. # More efficient 
  6. awk '!($0 in a) {a[$0];print} 

使用內置函數 gsub() 替換多值:

  1. awk '{gsub(/scarlet|ruby|puce/, "red"); print}' 

這個 awk 命令將合并多個 CSV 文件,忽略文件頭,然后將其附加到末尾。

  1. awk 'FNR==1 && NR!=1{next;}{print}' *.csv > final_file.csv 

需要縮減大量文件?awk 可以在 sed 的幫助下處理這個問題。具體而言,這個命令可以基于行數將 一個大文件拆分為多個小文件。

  1. sed '1d;$d' filename.csv | awk 'NR%NUMBER_OF_LINES==1{x="filename-"++i".csv";}{print > x}' 
  2. # Example: splitting big_data.csv into data_(n).csv every 100,000 lines 
  3. sed '1d;$d' big_data.csv | awk 'NR%100000==1{x="data_"++i".csv";}{print > x}' 

結語

命令行擁有無窮無盡的能力。本文中介紹的命令足以讓您在短時間內從小白變成高手。除了這些內容之外,還有許多用于日常數據處理的程序需要考慮。如果你想深入了解命令行數據科學,可以多找一些詳細的資源。

原文鏈接:

https://medium.com/@kadek/command-line-tricks-for-data-scientists-c98e0abe5da

【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2014-01-03 11:28:29

命令行工具

2009-08-11 14:32:06

C#讀取Excel數據

2010-04-22 12:07:37

Oracle Spat

2023-12-13 15:20:45

數據中心云計算人工智能

2014-07-23 14:47:35

數據保護災難恢復GRC

2010-11-24 14:51:55

Mysql命令行

2023-01-05 07:49:03

2009-08-07 13:16:59

C#讀取Excel數據c# 讀取excel

2023-08-25 10:49:37

數據中心服務器

2011-05-26 17:37:11

Ajax

2010-10-12 17:23:40

MySQL命令行

2015-07-01 09:15:46

linuxQuora命令行

2009-08-11 09:35:47

Linux命令行linux命令快捷鍵

2011-06-17 16:49:05

Cocoa蘋果

2017-07-21 14:22:17

大數據大數據平臺數據處理

2015-10-26 10:24:11

數據中心DCIM

2018-01-18 08:45:57

數據中心趨勢5G

2018-01-18 09:45:04

數據中心趨勢設備

2009-07-15 17:10:26

Jython解析命令行

2020-10-26 14:01:22

Java泛型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费午夜视频 | 国产成人在线一区 | 伊人伊人伊人 | 97精品超碰一区二区三区 | 欧美日韩一区二区三区四区 | 久久男人天堂 | 黑人一级黄色大片 | 国产一区二区三区四区三区四 | 久久久久久成人 | 午夜资源| 国产夜恋视频在线观看 | 国产精品欧美一区喷水 | 日韩中文在线 | 精品天堂| 欧美一区二区三区 | 久久成人久久 | 一区二区三区四区免费观看 | 精品一区二区三区四区 | 草草草网站| 综合久久亚洲 | 特一级毛片 | 美女爽到呻吟久久久久 | ririsao久久精品一区 | h片在线看 | 亚洲在线视频 | 日韩精品一区二区三区在线播放 | 激情久久网 | 中文字幕一区二区三区在线观看 | 亚洲中午字幕 | 性一交一乱一伦视频免费观看 | a成人| 久久久久久国产精品三区 | 欧美日韩精品在线免费观看 | 影音先锋男 | 蜜桃传媒一区二区 | 在线免费观看黄网 | 久久久久国产一区二区三区不卡 | 亚洲免费视频一区 | 狠狠干av| 精品视频一区二区三区在线观看 | 欧美jizzhd精品欧美巨大免费 |