成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

_{<ol id="ixyum"></ol>}

<cite id="ixyum"></cite>

<button id="ixyum"><form id="ixyum"></form></button>

<blockquote id="ixyum"></blockquote>

_{<abbr id="ixyum"></abbr>}

<mark id="ixyum"><tbody id="ixyum"></tbody></mark>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

用 Go 如何實現精準統計文章字數

作者：站長polaris 2021-01-21 05:45:07

統計字數是一個很常見的需求，很多人印象最深的應該是微博早些時候限制 140 字，而且邊輸入會邊統計剩余字數?，F在很多社區文章也會有字數統計的功能，而且可以依據字數來預估閱讀時間。比如 Go語言中文網就有這樣的功能。

大家好，我是站長 polarisxu。

今天要聊的內容應該可以當做一道面試題，你可以先想想該怎么實現。

統計字數是一個很常見的需求，很多人印象最深的應該是微博早些時候限制 140 字，而且邊輸入會邊統計剩余字數?，F在很多社區文章也會有字數統計的功能，而且可以依據字數來預估閱讀時間。比如 Go語言中文網就有這樣的功能。

01 需求分析

下手之前先分析下這個需求。從我個人經驗看，在實際面試中，針對一個面試題，你的分析過程，循序漸進的解決方案，可以很好的展示你的思考過程。正所謂分析問題、解決問題。這會給你加分的。

我們采用類似詞法分析的思路分析這個需求。

一篇文章通常包含如下元素，我們也稱之為 token：

普通文字
標點符號
圖片
鏈接(包含各種協議的鏈接)
代碼

其中普通文字通常會分為歐美和中日韓(CJK)，因為 CJK 屬于表意文字，和歐美字母的文字差異很大。同時這里還涉及到編碼的問題。本文假設使用 UTF-8 編碼。

對于標點符號，中文標點和英文標點也會很不一樣。

此外還有全角和半角的問題。

根據以上分析，對于該需求作如下假定：

空格(包括換行)不算字數;
HTML 標簽需要剔除;
編碼方式：假定為 UTF-8 編碼;
標點符號算不算做字數。如果算，像括號這樣的按 2 個字算;
鏈接怎么算?一個鏈接約定為 1 個字可能更合適，大概閱讀時只是把它當鏈接，而不太會關心鏈接由什么字母組成;
圖片不算做字數，但如果計算閱讀時間，可能需要適當考慮圖片的影響;
對于技術文章，代碼是最麻煩的。統計代碼字數感覺是沒多大意義的。統計代碼行數可能更有意義;

本文的解決方案針對以上的假定進行。

02 Go 語言實現

先看最簡單的。

純英文

根據以上分析，如果文章只包含普通文本且是英文，也就是說，每個字(單詞)根據空格分隔，統計是最簡單的。

func TotalWords(s string) int { 
 n := 0 
 inWord := false 
 for _, r := range s { 
  wasInWord := inWord 
  inWord = !unicode.IsSpace(r) 
  if inWord && !wasInWord { 
   n++ 
  } 
 } 
 return n 
}

還有一種更簡單的方式：

len(strings.Fields(s))

不過看 strings.Fields 的實現，性能會不如第一種方式。

回顧上面的需求分析，會發現這個實現是有 Bug 的。比如下面的例子：

s1 := "Hello,playground" 
s2 := "Hello, playground"

用上面的實現，s1 的字數是 1，s2 的字數是 2。它們都忽略了標點符號。而且因為寫法的多樣性(不規范統一)，導致計算字數會有誤差。所以我們需要對寫法進行規范。

規范排版

其實和寫代碼要有規范一樣，文章也是有規范的。比如出版社對于一本書的排版會有明確的規定。為了讓我們的文章看起來更舒服，也應該遵循一定的規范。

這里推薦一個 GitHub 上的排版指南：《中文文案排版指北》，它的宗旨，統一中文文案、排版的相關用法，降低團隊成員之間的溝通成本，增強網站氣質。這個規范開頭關于空格的一段話很有意思：

有研究顯示，打字的時候不喜歡在中文和英文之間加空格的人，感情路都走得很辛苦，有七成的比例會在 34 歲的時候跟自己不愛的人結婚，而其余三成的人最后只能把遺產留給自己的貓。畢竟愛情跟書寫都需要適時地留白。

建議大家可以看看這個指北，一些知名的網站就是按照這個做的。

因為 GCTT 的排版在這個規范做，但人為約束不是最好的方法，所以我開發了一個 Go 工具：https://github.com/studygolang/autocorrect，用于自動給中英文之間加入合理的空格并糾正專用名詞大小寫。

所以為了讓字數統計更準確，我們假定文章是按一定的規范書寫的。比如上面的例子，規范的寫法是 s2 := "Hello, playground"。不過這里標點不算作字數。

剛去微博上試了一下，發現微博的字數計算方式有點詭異，竟然是 9 個字。

測試一下發現，它直接把兩個英文字母算作一個字(兩個字節算一個字)。而漢字是正常的。大家可以想想微博是怎么實現的。

中英文混合

中文不像英文，單詞之間沒有空格分隔，因此開始的那兩種方式不適合。

如果是純中文，我們怎么計算字數呢?

在 Go 語言中，字符串使用 UTF-8 編碼，一個字符用 rune 表示。因此在標準庫中查找相關計算方法。

func RuneCountInString(s string) (n int)

這個方法能計算字符串包含的 rune(字符)數，對于純中文，就是漢字數。

str := "你好世界" 
fmt.Println(utf8.RuneCountInString(str))

以上代碼輸出 4。

然而，因為很多時候文章會中英文混合，因此我們先采用上面的純英文的處理方式，即：strings.Fields()，將文章用空格分隔，然后處理每一部分。

func TotalWords(s string) int { 
 wordCount := 0 
   
 plainWords := strings.Fields(s) 
 for _, word := range plainWords { 
  runeCount := utf8.RuneCountInString(word) 
  if len(word) == runeCount { 
   wordCount++ 
  } else { 
   wordCount += runeCount 
  } 
 } 
 
 return wordCount 
}

增加如下的測試用例：

func TestTotalWords(t *testing.T) { 
 tests := []struct { 
  name  string 
  input string 
  want  int 
 }{ 
  {"en1", "hello,playground", 2}, 
  {"en2", "hello, playground", 2}, 
  {"cn1", "你好世界", 4}, 
  {"encn1", "Hello你好世界", 5}, 
  {"encn2", "Hello 你好世界", 5}, 
 } 
 for _, tt := range tests { 
  t.Run(tt.name, func(t *testing.T) { 
   if got := wordscount.TotalWords(tt.input); got != tt.want { 
    t.Errorf("TotalWords() = %v, want %v", got, tt.want) 
   } 
  }) 
 } 
}

發現 en1 和 encn1 測試不通過，因為沒有按照上面說的規范書寫。因此我們通過程序增加必要的空格。

// AutoSpace 自動給中英文之間加上空格 
func AutoSpace(str string) string { 
 out := "" 
 
 for _, r := range str { 
  out = addSpaceAtBoundary(out, r) 
 } 
 
 return out 
} 
 
func addSpaceAtBoundary(prefix string, nextChar rune) string { 
 if len(prefix) == 0 { 
  return string(nextChar) 
 } 
 
 r, size := utf8.DecodeLastRuneInString(prefix) 
 if isLatin(size) != isLatin(utf8.RuneLen(nextChar)) && 
  isAllowSpace(nextChar) && isAllowSpace(r) { 
  return prefix + " " + string(nextChar) 
 } 
 
 return prefix + string(nextChar) 
} 
 
func isLatin(size int) bool { 
 return size == 1 
} 
 
func isAllowSpace(r rune) bool { 
 return !unicode.IsSpace(r) && !unicode.IsPunct(r) 
}

這樣可以在 TotalWords 函數開頭增加 AutoSpace 進行規范化。這時結果就正常了。

處理標點和其他類型

以上例子標點沒計算在內，而且如果英文和中文標點混合在一起，情況又復雜了。

為了更好地實現開始的需求分析，重構以上代碼，設計如下的結構：

type Counter struct { 
 Total     int // 總字數 = Words + Puncts 
 Words     int // 只包含字符數 
 Puncts    int // 標點數 
 Links     int // 鏈接數 
 Pics      int // 圖片數 
 CodeLines int // 代碼行數 
}

同時將 TotalWords 重構為 Counter 的 Stat 方法，同時記錄標點數：

func (wc *Counter) Stat(str string) { 
 wc.Links = len(rxStrict.FindAllString(str, -1)) 
 wc.Pics = len(imgReg.FindAllString(str, -1)) 
 
 // 剔除 HTML 
 str = StripHTML(str) 
 
 str = AutoSpace(str) 
 
 // 普通的鏈接去除（非 HTML 標簽鏈接） 
 str = rxStrict.ReplaceAllString(str, " ") 
 plainWords := strings.Fields(str) 
 
 for _, plainWord := range plainWords { 
  words := strings.FieldsFunc(plainWord, func(r rune) bool { 
   if unicode.IsPunct(r) { 
    wc.Puncts++ 
    return true 
   } 
   return false 
  }) 
 
  for _, word := range words { 
   runeCount := utf8.RuneCountInString(word) 
   if len(word) == runeCount { 
    wc.Words++ 
   } else { 
    wc.Words += runeCount 
   } 
  } 
 } 
 
 wc.Total = wc.Words + wc.Puncts 
} 
 
var ( 
 rxStrict = xurls.Strict() 
 imgReg   = regexp.MustCompile(`<img [^>]*>`) 
 stripHTMLReplacer = strings.NewReplacer("\n", " ", "</p>", "\n", "<br>", "\n", "<br />", "\n") 
) 
 
// StripHTML accepts a string, strips out all HTML tags and returns it. 
func StripHTML(s string) string { 
 // Shortcut strings with no tags in them 
 if !strings.ContainsAny(s, "<>") { 
  return s 
 } 
 s = stripHTMLReplacer.Replace(s) 
 
 // Walk through the string removing all tags 
 b := GetBuffer() 
 defer PutBuffer(b) 
 var inTag, isSpace, wasSpace bool 
 for _, r := range s { 
  if !inTag { 
   isSpace = false 
  } 
 
  switch { 
  case r == '<': 
   inTag = true 
  case r == '>': 
   inTag = false 
  case unicode.IsSpace(r): 
   isSpace = true 
   fallthrough 
  default: 
   if !inTag && (!isSpace || (isSpace && !wasSpace)) { 
    b.WriteRune(r) 
   } 
  } 
 
  wasSpace = isSpace 
 
 } 
 return b.String() 
}

代碼過多的細節不討論。此外，關于文章內的代碼行數統計未實現(目前沒有想到特別好的方法，如果你有，歡迎交流)。

03 總結

通過本文的分析發現，精準統計字數沒那么容易，這里涉及到很多的細節。

當然，實際應用中，字數不需要那么特別精準，而且對于非正常文字(比如鏈接、代碼)怎么處理，會有不同的約定。

本文涉及到的完整代碼放在 GitHub：https://github.com/polaris1119/wordscount。

本文轉載自微信公眾號「polarisxu」，可以通過以下二維碼關注。轉載本文請聯系polarisxu公眾號。

責任編輯：武曉燕來源： polarisxu

Go 字數統計

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产色片 | 台湾佬久久 | 欧美中文 | 四虎在线播放 | 国产免费一区 | 国产成人精品999在线观看 | 日韩久久网 | 国产99精品| 国产黄色在线观看 | 精品视频一区二区三区 | 四虎成人免费电影 | 天堂影院av | 91九色麻豆 | av黄色在线观看 | 97人人超碰 | 欧美激情综合五月色丁香小说 | 欧美在线a | 欧美性极品xxxx做受 | 二区不卡| 欧美精品一区三区 | 国产精品一区在线观看 | 中文字幕在线观看av | 久久精品16 | 久久久久久亚洲 | 久久久一区二区 | 国产精品99久久久久久www | 日本人和亚洲人zjzjhd | 日本黄色大片免费 | 在线只有精品 | 国产精品一区在线 | 国产伦精品一区二区三区在线 | 精品视频一区二区三区在线观看 | 一级在线视频 | 蜜桃视频在线观看免费视频网站www | 日韩一区二区福利视频 | h片在线观看网站 | 久久久99精品免费观看 | 亚洲一二三区精品 | 欧美日韩中文在线 | 免费一区二区在线观看 | av在线伊人 |

<ol id="xmopq"></ol>

<output id="xmopq"></output>

<code id="xmopq"><dl id="xmopq"></dl></code>

<button id="xmopq"><form id="xmopq"></form></button>

<code id="xmopq"><dl id="xmopq"></dl></code>