成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

R語言進(jìn)階之2:文本(字符串)處理與正則表達(dá)式

大數(shù)據(jù)
處理文本是每一種計(jì)算機(jī)語言都應(yīng)該具備的功能,但不是每一種語言都側(cè)重于處理文本。R語言是統(tǒng)計(jì)的語言,處理文本不是它的強(qiáng)項(xiàng),perl語言這方面的功能比R不知要強(qiáng)多少倍。幸運(yùn)的是R語言的可擴(kuò)展能力很強(qiáng),DNA/RNA/AA等生物序列現(xiàn)在已經(jīng)可以使用R來處理。

R語言處理文本的能力雖然不強(qiáng),但適當(dāng)用用還是可以大幅提高工作效率的,而且有些文本操作還不得不用。高效處理文本少不了正則表達(dá)式(regular expression),雖然R在這方面先天不高效,但它處理字符串的絕大多數(shù)函數(shù)都使用正則表達(dá)式。

0、正則表達(dá)式簡介:

正則表達(dá)式不是R的專屬內(nèi)容,所以用0編號,這里也只簡單介紹,更詳細(xì)的內(nèi)容請查閱其他文章。

正則表達(dá)式是用于描述/匹配一個文本集合的表達(dá)式。

1.  所有英文字母、數(shù)字和很多可顯示的字符本身就是正則表達(dá)式,用于匹配它們自己。比如 'a' 就是匹配字母 'a' 的正則表達(dá)式

2.  一些特殊的字符在正則表達(dá)式中不在用來描述它自身,它們在正則表達(dá)式中已經(jīng)被“轉(zhuǎn)義”,這些字符稱為“元字符”。perl類型的正則表達(dá)式中被轉(zhuǎn)義的字符有:. \ | ( ) [ ] { } ^ $ * + ?。被轉(zhuǎn)義的字符已經(jīng)有特殊的意義,如點(diǎn)號 . 表示任意字符;方括號表示選擇方括號中的任意一個(如[a-z] 表示任意一個小寫字符);^ 放在表達(dá)式開始出表示匹配文本開始位置,放在方括號內(nèi)開始處表示非方括號內(nèi)的任一字符;大括號表示前面的字符或表達(dá)式的重復(fù)次數(shù);| 表示可選項(xiàng),即 | 前后的表達(dá)式任選一個。

3.  如果要在正則表達(dá)式中表示元字符本身,比如我就要在文本中查找問號‘?’, 那么就要使用引用符號(或稱換碼符號),一般是反斜杠 '\'。需要注意的是,在R語言中得用兩個反斜杠即 ‘\\’,如要匹配括號就要寫成 ’\\(\\)‘

4.  不同語言或應(yīng)用程序(事實(shí)上很多規(guī)則都通用)定義了一些特殊的元字符用于表示某類字符,如 \d 表示數(shù)字0-9, \D 表示非數(shù)字,\s 表示空白字符(包括空格、制表符、換行符等),\S 表示非空白字符,\w 表示字(字母和數(shù)字),\W 表示非字,\< 和 \> 分別表示以空白字符開始和結(jié)束的文本。

5.  正則表達(dá)式符號運(yùn)算順序:圓括號括起來的表達(dá)式***先,然后是表示重復(fù)次數(shù)的操作(即:* + {} ),接下來是連接運(yùn)算(其實(shí)就是幾個字符放在一起,如abc),***是表示可選項(xiàng)的運(yùn)算(|)。所以 'foot|bar' 可以匹配’foot‘或者’bar‘,但是 'foot|ba{2}r'匹配的是’foot‘或者’baar‘。

一、字符數(shù)統(tǒng)計(jì)和字符翻譯

nchar這個函數(shù)簡單,統(tǒng)計(jì)向量中每個元素的字符個數(shù),注意這個函數(shù)和length函數(shù)的差別:nchar是向量元素的字符個數(shù),而length是向量長度(向量元素的個數(shù))。其他沒什么需要說的。

  1. > x <- c("Hellow", "World", "!") 
  2. > nchar(x) 
  3. [1] 6 5 1 
  4. > length(''); nchar('') 
  5. [1] 1 
  6. [1] 0 

另外三個函數(shù)用法也很簡單:

  1. > DNA <- "AtGCtttACC" 
  2. > tolower(DNA) 
  3. [1] "atgctttacc" 
  4. > toupper(DNA) 
  5. [1] "ATGCTTTACC" 
  6. > chartr("Tt", "Uu", DNA) 
  7. [1] "AuGCuuuACC" 
  8. > chartr("Tt", "UU", DNA) 
  9. [1] "AUGCUUUACC" 

 

二、字符串連接

paste應(yīng)該是R中最常用字符串函數(shù)了,也是R字符串處理函數(shù)里面非常純的不使用正則表達(dá)式的函數(shù)(因?yàn)橛貌恢K喈?dāng)于其他語言的strjoin,但是功能更強(qiáng)大。它把向量連成字串向量,其他類型的數(shù)據(jù)會轉(zhuǎn)成向量,但不一定是你要的結(jié)果:

  1. > paste("CK", 1:6, sep=""
  2. [1] "CK1" "CK2" "CK3" "CK4" "CK5" "CK6" 
  3. > x <- list(a="aaa"b="bbb"c="ccc"
  4. > y <- list(d=1e=2
  5. > paste(x, y, sep="-")     #較短的向量被循環(huán)使用 
  6. [1] "aaa-1" "bbb-2" "ccc-1" 
  7. > z <- list(x,y) 
  8. > paste("T", z, sep=":")   #這樣的結(jié)果不知合不合用 
  9. [1] "T:list(a = \"aaa\", b = \"bbb\", c = \"ccc\")" 
  10. [2] "T:list(d = 1e = 2)" 

短向量重復(fù)使用,列表數(shù)據(jù)只有一級列表能有好的表現(xiàn),能不能用看自己需要。會得到什么樣的結(jié)果是可以預(yù)知的,用as.character函數(shù)看吧,這又是一個字符串處理函數(shù):

  1. > as.character(x) 
  2. [1] "aaa" "bbb" "ccc" 
  3. > as.character(z) 
  4. [1] "list(a = \"aaa\", b = \"bbb\", c = \"ccc\")" 
  5. [2] "list(d = 1e = 2)"  

paste函數(shù)還有一個用法,設(shè)置collapse參數(shù),連成一個字符串:

  1. > paste(x, y, sep="-"collapse='; '
  2. [1] "aaa-1; bbb-2; ccc-1" 
  3. > paste(x, collapse='; '
  4. [1] "aaa; bbb; ccc" 

三、字符串拆分

strsplit函數(shù)使用正則表達(dá)式,使用格式為:strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)

參數(shù)x為字串向量,每個元素都將單獨(dú)進(jìn)行拆分。

參數(shù)split為拆分位置的字串向量,默認(rèn)為正則表達(dá)式匹配(fixed=FALSE)。如果你沒接觸過正則表達(dá)式,設(shè)置fixed=TRUE,表示使用普通文本匹配或正則表達(dá)式的精確匹配。普通文本的運(yùn)算速度快。

perl=TRUE/FALSE的設(shè)置和perl語言版本有關(guān),如果正則表達(dá)式很長,正確設(shè)置表達(dá)式并且使用perl=TRUE可以提高運(yùn)算速度。

參數(shù)useBytes設(shè)置是否逐個字節(jié)進(jìn)行匹配,默認(rèn)為FALSE,即按字符而不是字節(jié)進(jìn)行匹配。

下面的例子把一句話按空格拆分為單詞:

> text <- "Hello Adam!\nHello Ava!"

> strsplit(text, ' ')

[[1]]

[1] "Hello"        "Adam!\nHello" "Ava!"            

 R語言的字符串事實(shí)上也是正則表達(dá)式,上面文本中的\n在圖形輸出中是被解釋為換行符的。     

> strsplit(text, '\\s')

[[1]]

[1] "Hello" "Adam!" "Hello" "Ava!"  

strsplit得到的結(jié)果是列表,后面要怎么處理就得看情況而定了:

> class(strsplit(text, '\\s'))

[1] "list"

有一種情況很特殊:如果split參數(shù)的字符長度為0,得到的結(jié)果就是一個個的字符:

> strsplit(text, '')

[[1]]

 [1] "H"  "e"  "l"  "l"  "o"  " "  "A"  "d"  "a"  "m"  "!"  "\n" "H"  "e"  "l"  "l" 

[17] "o"  " "  "A"  "v"  "a"  "!" 

從這里也可以看到R把 \n 是當(dāng)成一個字符來處理的。

四、字符串查詢:

1、grep和grepl函數(shù):

這兩個函數(shù)返回向量水平的匹配結(jié)果,不涉及匹配字符串的詳細(xì)位置信息。

 

  1. grep(pattern, x, ignore.case = FALSEperl = FALSEvalue = FALSE
  2.      fixed = FALSEuseBytes = FALSEinvert = FALSE
  3. grepl(pattern, x, ignore.case = FALSEperl = FALSE
  4.       fixed = FALSEuseBytes = FALSE

 

雖然參數(shù)看起差不多,但是返回的結(jié)果不一樣。下來例子列出C:\windows目錄下的所有文件,然后用grep和grepl查找exe文件:

 

  1. > files <- list.files("c:/windows") 
  2. > grep("\\.exe$", files) 
  3.  [1]   8  28  30  35  36  57  68  98  99 101 110 111 114 116 
  4. > grepl("\\.exe$", files) 
  5.   [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE 
  6.  [14] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
  7. #...... 

 

grep僅返回匹配項(xiàng)的下標(biāo),而grepl返回所有的查詢結(jié)果,并用邏輯向量表示有沒有找到匹配。兩者的結(jié)果用于提取數(shù)據(jù)子集的結(jié)果都一樣:

 

  1. > files[grep("\\.exe$", files)] 
  2.  [1] "bfsvc.exe"      "explorer.exe"   "fveupdate.exe"  "HelpPane.exe"   
  3.  [5] "hh.exe"         "notepad.exe"    "regedit.exe"    "twunk_16.exe"   
  4.  [9] "twunk_32.exe"   "uninst.exe"     "winhelp.exe"    "winhlp32.exe"   
  5. [13] "write.exe"      "xinstaller.exe" 
  6. > files[grepl("\\.exe$", files)] 
  7.  [1] "bfsvc.exe"      "explorer.exe"   "fveupdate.exe"  "HelpPane.exe"   
  8.  [5] "hh.exe"         "notepad.exe"    "regedit.exe"    "twunk_16.exe"   
  9.  [9] "twunk_32.exe"   "uninst.exe"     "winhelp.exe"    "winhlp32.exe"   
  10. [13] "write.exe"      "xinstaller.exe" 

 

2、regexpr、gregexpr和regexec

這三個函數(shù)返回的結(jié)果包含了匹配的具體位置和字符串長度信息,可以用于字符串的提取操作。

 

  1. > text <- c("Hellow, Adam!", "Hi, Adam!", "How are you, Adam.") 
  2. > regexpr("Adam", text) 
  3. [1]  9  5 14 
  4. attr(,"match.length") 
  5. [1] 4 4 4 
  6. attr(,"useBytes") 
  7. [1] TRUE 
  8. > gregexpr("Adam", text) 
  9. [[1]] 
  10. [1] 9 
  11. attr(,"match.length") 
  12. [1] 4 
  13. attr(,"useBytes") 
  14. [1] TRUE 
  15. [[2]] 
  16. [1] 5 
  17. attr(,"match.length") 
  18. [1] 4 
  19. attr(,"useBytes") 
  20. [1] TRUE 
  21. [[3]] 
  22. [1] 14 
  23. attr(,"match.length") 
  24. [1] 4 
  25. attr(,"useBytes") 
  26. [1] TRUE 
  27. > regexec("Adam", text) 
  28. [[1]] 
  29. [1] 9 
  30. attr(,"match.length") 
  31. [1] 4 
  32. [[2]] 
  33. [1] 5 
  34. attr(,"match.length") 
  35. [1] 4 
  36. [[3]] 
  37. [1] 14 
  38. attr(,"match.length") 
  39. [1] 4 

 

五、字符串替換

雖然sub和gsub是用于字符串替換的函數(shù),但嚴(yán)格地說R語言沒有字符串替換的函數(shù),因?yàn)镽語言不管什么操作對參數(shù)都是傳值不傳址。

 

  1. > text 
  2. [1] "Hello Adam!\nHello Ava!" 
  3. > sub(pattern="Adam"replacement="world", text) 
  4. [1] "Hello world!\nHello Ava!" 
  5. > text 
  6. [1] "Hello Adam!\nHello Ava!" 

 

可以看到:雖然說是“替換”,但原字符串并沒有改變,要改變原變量我們只能通過再賦值的方式。

sub和gsub的區(qū)別是前者只做一次替換(不管有幾次匹配),而gsub把滿足條件的匹配都做替換:

 

  1. > sub(pattern="Adam|Ava"replacement="world", text) 
  2. [1] "Hello world!\nHello Ava!" 
  3. > gsub(pattern="Adam|Ava"replacement="world", text) 
  4. [1] "Hello world!\nHello world!" 

 

sub和gsub函數(shù)可以使用提取表達(dá)式(轉(zhuǎn)義字符+數(shù)字)讓部分變成全部:

> sub(pattern=".*(Adam).*", replacement="\\1", text)

[1] "Adam"

六、字符串提取

substr和substring函數(shù)通過位置進(jìn)行字符串拆分或提取,它們本身并不使用正則表達(dá)式,但是結(jié)合正則表達(dá)式函數(shù)regexpr、gregexpr或regexec使用可以非常方便地從大量文本中提取所需信息。兩者的參數(shù)設(shè)置基本相同:

 

  1. substr(x, start, stop) 
  2. substring(text, first, last = 1000000L

 

第 1個參數(shù)均為要拆分的字串向量,第2個參數(shù)為截取的起始位置向量,第3個參數(shù)為截取字串的終止位置向量。但它們的返回值的長度(個數(shù))有差 別:substr返回的字串個數(shù)等于***個參數(shù)的長度;而substring返回字串個數(shù)等于三個參數(shù)中最長向量長度,短向量循環(huán)使用。先看第1參數(shù)(要 拆分的字符向量)長度為1例子:

 

  1. > x <- "123456789" 
  2. > substr(x, c(2,4), c(4,5,8)) 
  3. [1] "234" 
  4. > substring(x, c(2,4), c(4,5,8)) 
  5. [1] "234"     "45"      "2345678" 

 

因?yàn)閤的向量長度為1,所以substr獲得的結(jié)果只有1個字串,即第2和第3個參數(shù)向量只用了***個組合:起始位置2,終止位置4。

而substring的語句三個參數(shù)中最長的向量為c(4,5,8),執(zhí)行時按短向量循環(huán)使用的規(guī)則***個參數(shù)事實(shí)上就是c(x,x,x),第二個參數(shù)就成了c(2,4,2),最終截取的字串起始位置組合為:2-4, 4-5和2-8。

請按照這樣的處理規(guī)則解釋下面語句運(yùn)行的結(jié)果:

 

  1. > x <- c("123456789", "abcdefghijklmnopq") 
  2. > substr(x, c(2,4), c(4,5,8)) 
  3. [1] "234" "de"  
  4. > substring(x, c(2,4), c(4,5,8)) 
  5. [1] "234"     "de"      "2345678" 

 

用substring函數(shù)可以很方便地把DNA/RNA序列進(jìn)行三聯(lián)拆分(用于蛋白質(zhì)翻譯):

 

  1. > bases <- c('A','T','G','C') 
  2. > DNA <- paste(sample(bases, 12, replace=T), collapse=''
  3. > DNA 
  4. [1] "CCTTTACGGTGT" 
  5. > substring(DNA, seq(1,10,by=3), seq(3,12,by=3)) 
  6. [1] "CCT" "TTA" "CGG" "TGT" 

 

用regexpr、gregexpr或regexec函數(shù)獲得位置信息后再進(jìn)行字符串提取的操作可以自己試試看。

七、其他:

比如strtrim、strwrap、charmatch、match和pmatch等,甚至是 %in% 運(yùn)算符都是可以使用的。R的在線幫助很全,自己看吧,就當(dāng)學(xué)習(xí)E文。

原文鏈接:http://helloxxxxxx.blog.163.com/blog/static/21601509520133492033667/?latestBlog

 

【編輯推薦】

1.R語言學(xué)習(xí)筆記(1):R是什么

1.R語言學(xué)習(xí)筆記(2):數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)

 

責(zé)任編輯:彭凡 來源: 網(wǎng)易博客
相關(guān)推薦

2024-09-30 11:16:39

C#正則表達(dá)式

2012-04-28 15:22:46

PHP

2009-09-16 17:02:15

正則表達(dá)式匹配字符串

2009-08-20 14:31:55

C#正則表達(dá)式字符串

2017-05-12 10:47:45

Linux正則表達(dá)式程序基礎(chǔ)

2010-03-15 16:13:11

Python正則表達(dá)式

2009-09-16 17:54:31

正則表達(dá)式實(shí)現(xiàn)

2009-08-14 17:44:46

C#中使用正則表達(dá)式匹

2009-06-08 16:49:05

Java正則表達(dá)式group

2024-04-16 00:11:05

Python換行符測試

2009-08-20 13:26:35

C#正則表達(dá)式

2009-09-16 11:17:12

PHP正則表達(dá)式定位字

2009-09-16 17:25:53

正則表達(dá)式字符集

2009-11-27 09:05:50

PHP函數(shù)split(

2019-10-29 09:20:48

Python文本正則表達(dá)式

2020-09-04 09:16:04

Python正則表達(dá)式虛擬機(jī)

2018-09-27 15:25:08

正則表達(dá)式前端

2009-09-16 10:59:24

PHP正則表達(dá)式元字符

2024-09-14 09:18:14

Python正則表達(dá)式

2009-08-20 13:30:38

C#正則表達(dá)式
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日本精品一区二区三区在线观看视频 | 亚洲成人综合在线 | 午夜99| 久久久久黄 | 日韩伦理一区二区 | 成人免费视频观看视频 | 久久久久久99 | 日韩在线高清 | 国产成人精品免费 | 91久色 | 久久一二| 欧洲亚洲一区 | 久久草视频 | www.日本在线| 国产1区2区3区 | 欧美激情精品久久久久久 | 国产欧美一区二区三区久久 | 亚洲精品久久久久久首妖 | 国产精品视频一二三区 | 狠狠操电影 | 午夜久久av | 国产乱码精品1区2区3区 | 日本一区视频在线观看 | 国产精品亚洲第一 | 国产精品久久久久久久久久久久冷 | 色精品视频 | 在线亚洲电影 | av中文字幕在线观看 | 午夜精品一区二区三区在线观看 | 国产日韩精品在线 | 国产精品久久国产精品 | 日韩综合在线 | 欧美视频三区 | 日本一区二区高清视频 | 成人精品视频免费 | 国产成人在线视频 | 午夜免费电影 | 亚洲人一区 | 午夜男人天堂 | 91色网站 | 天天射天天干 |