最新 Linux awk 命令實戰教程:從日志分析到性能監控
大家好,我是小康。上次我們一起學習了 Linux 的 sed 命令,今天要介紹的是文本處理的"瑞士軍刀" —— awk。無論是分析日志、處理數據,還是提取信息,它都能幫你輕松搞定。
第一部分: 初識 awk
作為一名開發老兵,我整理了這些年和 awk 打交道的心得。希望能幫你少走彎路,快速掌握這個強大的工具。
記得剛入行那會兒,面對成堆的日志文件,我跟大多數新手一樣一籌莫展。直到遇到了 awk 這個老伙計,才算找到了"趁手的兵器"。
今天,就讓我用一個開發工程師的視角,帶你認識這個陪伴了我 6 年多的老朋友。
1. 第一次相遇:awk 是個什么樣的角色?
就像一個心靈手巧的老師傅,awk 最擅長的就是把大段大段的文本"解剖"開來,精準地找出你想要的信息。它的名字來自三位創始人(Aho、Weinberger、Kernighan)的首字母,雖然不好念,但本事真不小。
2. 從一個真實案例開始
還記得我遇到的第一個挑戰:leader 讓我從一個幾GB的服務日志里找出造成系統故障的元兇。
當時的日志大概長這樣:
2024-02-13 10:00:01 [192.168.1.100] "GET /api/users" 200 89ms
2024-02-13 10:00:02 [192.168.1.101] "POST /api/orders" 500 1230ms
2024-02-13 10:00:03 [192.168.1.102] "GET /api/products" 200 45ms
我需要:
- 找出所有響應時間超過1秒的請求
- 分析高峰期的訪問量
- ......
用 awk 的解決方案出奇簡單:
# 1、找出所有響應時間超過1秒的請求
awk '
{
# 提取并轉換響應時間
time = $7 # 取最后一個字段
gsub(/ms/, "", time) # 去掉ms
time = time + 0 # 確保轉成數字
# 只打印超過1秒(1000ms)的請求
if(time >= 1000) {
printf "時間: %s %s\nIP: %s\n請求: %s %s\n響應時間: %dms\n----------\n",
$1, $2, substr($3, 2, length($3)-2), $4, $5, time
}
}' access.log
# 輸出:
時間: 2024-02-13 10:00:02
IP: 192.168.1.101
請求: "POST /api/orders"
響應時間: 1230ms
----------
# 2、分析高峰期的訪問量
awk '
BEGIN {
print "每分鐘訪問量統計:"
print "-------------------"
}
{
# 提取時分
split($2, t, ":")
minute = t[1] ":" t[2] # 只取小時和分鐘
count[minute]++
}
END {
# 按時間排序輸出
n = asorti(count, sorted)
for(i=1; i<=n; i++) {
printf "%s:00 - %d次訪問\n", sorted[i], count[sorted[i]]
}
}' access.log
# 輸出:
每分鐘訪問量統計:
-------------------
10:00:00 - 3次訪問
10:01:00 - 2次訪問
10:02:00 - 1次訪問
第二部分 : awk 基本功
老規矩,我們先來看看最常用的 awk 基礎命令。這些都是我這些年解決問題的"殺手锏",保證你學了就能用。
1. awk的基本結構
在開始學習具體命令前,我們先來了解awk程序的基本結構:
awk 'BEGIN {動作前}
pattern {動作}
END {動作后}' 文件名
就像一個完整的故事有開頭、主體和結尾,awk 也有三個主要部分:
(1) BEGIN塊:開場白
- 在讀取文件前執行
- 常用來打印表頭、初始化變量
# 例如:輸出前先打印個表頭
BEGIN {print "=== 進程列表 ==="}
(2) pattern {action}:主體部分
- pattern:匹配條件,決定要處理哪些行
- action:具體操作,決定要做什么
# 例如:找出root的進程
$1=="root" {print $0}
(3) END塊:收尾工作
- 在處理完所有行后執行
- 常用來輸出統計結果
# 例如:最后輸出總行數
END {print "共有"NR"個進程"}
此外,awk 還提供了一些常用的內置變量:
- $0:整行內容
- 2..:第1、2列
- NR:當前行號
- NF:當前行的列數
2. 實例講解
理解了基本結構,我們來看些實際例子。假設我們有一個進程列表 process.txt:
root 1234 5.0 2.5 mysql running
admin 2345 3.2 1.5 nginx running
root 3456 8.5 4.0 java stopped
nobody 4567 2.1 1.0 nginx running
(1) 提取特定列
# 看看誰在運行這些進程
awk '{print $1}' process.txt
# 輸出:
root
admin
root
nobody
# 查看進程名和狀態
awk '{print $5, $6}' process.txt
# 輸出:
mysql running
nginx running
java stopped
nginx running
(2) 條件過濾(最常用)
# 找出 CPU 使用率超過5%的進程
awk '$3 > 5 {print $5 "進程CPU使用率:", $3"%"}' process.txt
# 輸出:
java進程CPU使用率: 8.5%
# 找出狀態為 running 的進程
awk '$6=="running" {print $1,$5}' process.txt
# 輸出:
root mysql
admin nginx
nobody nginx
2. 實用統計功能
(1) 常用統計
# 統計進程數量, NR: NR 是 awk 的一個內置變量,表示當前已經處理的記錄(行)數量。
awk 'END {print "總進程數:", NR}' process.txt
# 輸出:
總進程數: 4
# 我們也可以在處理過程中看到NR的變化
awk '{print "當前處理第" NR "行"}' process.txt
# 輸出:
當前處理第1行
當前處理第2行
當前處理第3行
當前處理第4行
# 計算所有進程的平均CPU使用率
awk '{sum += $3} END {print "平均CPU使用率:", sum/NR"%"}' process.txt
# 輸出:
平均CPU使用率: 4.7%
(2) 分組統計(特別常用)
# 看看每個用戶開了多少個進程
awk '{count[$1]++} END {
for(user in count) {
print user "的進程數:", count[user]
}
}' process.txt
# 輸出:
root的進程數: 2
admin的進程數: 1
nobody的進程數: 1
# 統計每種狀態的進程數
awk '{states[$6]++} END {
for(state in states) {
print state, states[state]
}
}' process.txt
# 輸出:
running 3
stopped 1
3. 實戰常用技巧
(1) 匹配特定內容
# 找出 java 相關的進程
awk '/java/ {print $0}' process.txt # $0 代表當前行的整行內容
# 輸出:
root 3456 8.5 4.0 java stopped
# 找出包含特定字符的行并突出顯示重要信息
awk '/nginx/ {print "進程ID:"$2, "內存:"$4"%"}' process.txt
# 輸出:
進程ID:2345 內存:1.5%
進程ID:4567 內存:1.0%
(2) 多條件組合(經常用到)
# 找出 CPU 高、狀態為 running 的進程
awk '$3 > 3 && $6=="running" {
print "警告 -", $5, "進程CPU使用率:", $3"%"
}' process.txt
# 輸出:
警告 - mysql 進程CPU使用率: 5.0%
警告 - nginx 進程CPU使用率: 3.2%
4. 小貼士
(1) 實用的判斷方法:
# 找出異常的進程(CPU或內存使用過高)
awk '$3 > 5 || $4 > 3 {
print $5 "進程異常:"
print " CPU:", $3"%"
print " 內存:", $4"%"
}' process.txt
# 輸出:
java進程異常:
CPU: 8.5%
內存: 4.0%
(2) 累加統計:
bash
# 計算 nginx 進程的總內存占用
awk '/nginx/ {total += $4}
END {print "nginx總內存占用:", total"%"}' process.txt
# 輸出:
nginx總內存占用: 2.5%
記住:
- $1,$2,$3... 代表第幾列
- NR 代表當前行號
- print 和 printf 都是打印命令
- 用 $0 可以打印整行
這些都是我平時工作中最常用的簡單命令,基本夠用了。等你熟悉了這些,我們再學更高級的用法。
第三部分: awk高級應用指南(性能分析)
接下來我們來點高級的,帶大家用 awk 處理日常工作中最常見的幾個場景。每一步我們都從簡單的開始,循序漸進地掌握。
1. 基礎日志處理
先從一個簡單的接口日志開始:
2024-02-14 10:00:01 [api=/user/login] cost=100ms status=200
2024-02-14 10:00:02 [api=/user/info] cost=50ms status=200
2024-02-14 10:00:03 [api=/user/login] cost=800ms status=500
2024-02-14 10:00:04 [api=/order/create] cost=150ms status=200
(1) 提取重要信息(簡單)
# 只看接口名和響應時間
awk '{print $3, $4}' api.log
# 輸出:
[api=/user/login] cost=100ms
[api=/user/info] cost=50ms
[api=/user/login] cost=800ms
[api=/order/create] cost=150ms
(2) 查找異常請求(常用)
# 找出響應時間超過500ms的慢請求
awk '
{
# 提取響應時間的數字部分
gsub(/cost=|ms/, "", $4) # 去掉"cost="和"ms"
# 如果響應時間超過500ms
if($4 > 500) {
print "慢請求: " $0
}
}
' api.log
# 輸出:
慢請求: 2024-02-14 10:00:03 [api=/user/login] cost=800ms status=500
2. 接口性能分析
(1) 計算接口的平均響應時間(入門級)
# 計算每個接口的平均響應時間
awk '
{
# 提取接口名稱
api=$3
# 提取響應時間的數字部分
gsub(/.*=|ms.*/, "", $4)
# 累加響應時間
sum[api] += $4
# 統計請求次數
count[api]++
}
END {
print "接口平均響應時間:"
for(api in sum) {
printf "%s: %.2fms\n", api, sum[api]/count[api]
}
}' api.log
# 輸出:
接口平均響應時間:
[api=/user/login]: 450.00ms
[api=/user/info]: 50.00ms
[api=/order/create]: 150.00ms
(2) 統計接口QPS(常用)
先從一個簡單的接口日志開始:
2024-02-14 10:00:01 [api=/user/login] cost=100ms status=200
2024-02-14 10:00:02 [api=/user/info] cost=50ms status=200
2024-02-14 10:00:03 [api=/user/login] cost=800ms status=500
2024-02-14 10:00:04 [api=/order/create] cost=150ms status=200
# 命令:計算每秒的請求數(QPS)
awk '{
# 把時間列拼接起來: $1是日期,$2是時間
# 例如: "2024-02-14 10:00:01"
time = $1" "$2
# substr 函數用于截取字符串
# 從拼接的時間字符串中取前19位,精確到秒
# 如: "2024-02-14 10:00:01"
second = substr(time, 1, 19)
# 用時間作為key,計數+1
count[second]++
}
END {
# 處理完所有行后,打印統計結果
print "每秒請求數(QPS):"
# 遍歷統計結果
for(s in count) {
print s ": " count[s] "次/秒"
}
}' api.log
(3) 分析響應時間分布(進階)
# 按區間統計響應時間分布
awk '
BEGIN {
print "響應時間分布統計:"
}
{
# 提取cost=后面的數字,去掉ms
split($4, arr, "=|ms") # 用=或ms分割,如:"cost=100ms" -> arr[2]="100"
time = arr[2] # 提取數字部分
# 按區間統計請求數
if(time <= 100) {
range["0-100ms"]++ # 統計小于等于100ms的請求
} else if(time <= 200) {
range["101-200ms"]++ # 統計101ms到200ms的請求
} else {
range["200ms+"]++ # 統計大于200ms的請求
}
total++ # 總請求數加1
}
END {
# 遍歷每個區間并打印統計結果
for(r in range) {
percent = range[r]/total*100
printf "%s: %d個請求 (%.1f%%)\n", r, range[r], percent
}
}' api.log
# 現在輸出應該是:
響應時間分布統計:
0-100ms: 2個請求 (50.0%)
101-200ms: 1個請求 (25.0%)
200ms+: 1個請求 (25.0%)
3. 錯誤分析
統計錯誤率(常用)
2024-02-14 10:00:01 [api=/user/login] cost=100ms status=200
2024-02-14 10:00:02 [api=/user/info] cost=50ms status=200
2024-02-14 10:00:03 [api=/user/login] cost=800ms status=500
2024-02-14 10:00:04 [api=/order/create] cost=150ms status=200
# 計算接口錯誤率
awk '
{
api=$3
status=$5
gsub(/.*=/, "", status)
# 統計總請求和錯誤請求
total[api]++
if(status >= 400) {
errors[api]++
}
}
END {
print "接口錯誤率統計:"
for(api in total) {
if(errors[api] > 0) {
err_rate = errors[api]/total[api]*100
printf "%s: %.1f%% (%d/%d)\n",
api, err_rate, errors[api], total[api]
}
}
}' api.log
# 輸出:
接口錯誤率統計:
[api=/user/login]: 50.0% (1/2)
4. 生成性能報告(高級)
把前面學到的都用上,生成一個完整的性能報告:
# 生成完整的接口性能分析報告
awk '
BEGIN {
print "=== 接口性能分析報告 ==="
print "時間范圍:" strftime("%Y-%m-%d %H:%M:%S")
print "\n1. 總體統計"
}
{
# 記錄基礎信息
api=$3
gsub(/.*=|ms.*/, "", $4)
cost=$4
gsub(/.*=/, "", $5)
status=$5
# 統計總請求
total_reqs++
# 按接口統計
reqs[api]++
total_cost[api] += cost
# 記錄最大最小響應時間
if(cost > max_cost[api]) max_cost[api] = cost
if(min_cost[api] == 0 || cost < min_cost[api])
min_cost[api] = cost
# 統計錯誤
if(status >= 400) errors[api]++
}
END {
# 1. 打印總體統計
printf "總請求數:%d\n", total_reqs
# 2. 打印接口詳情
print "\n2. 接口詳情"
for(api in reqs) {
printf "\n接口:%s\n", api
printf " 總調用次數:%d\n", reqs[api]
printf " 平均響應時間:%.2fms\n",
total_cost[api]/reqs[api]
printf " 最大響應時間:%dms\n", max_cost[api]
printf " 最小響應時間:%dms\n", min_cost[api]
if(errors[api] > 0) {
printf " 錯誤率:%.1f%%\n",
errors[api]/reqs[api]*100
}
}
}' api.log
# 輸出:
=== 接口性能分析報告 ===
時間范圍:2024-02-14 10:00:00
1. 總體統計
總請求數:4
2. 接口詳情
接口:[api=/user/login]
總調用次數:2
平均響應時間:450.00ms
最大響應時間:800ms
最小響應時間:100ms
錯誤率:50.0%
接口:[api=/user/info]
總調用次數:1
平均響應時間:50.00ms
最大響應時間:50ms
最小響應時間:50ms
接口:[api=/order/create]
總調用次數:1
平均響應時間:150.00ms
最大響應時間:150ms
最小響應時間:150ms
5. 實用小技巧
(1) 處理大文件時先取樣分析:
head -1000 big_log.txt | awk '你的命令'
(2) 實時監控錯誤和慢請求:
測試用例:
? cat api.log
# api.log 示例數據:
2024-02-14 10:00:01 [api=/user/login] cost=100ms status=200 # 正常請求
2024-02-14 10:00:02 [api=/user/info] cost=550ms status=200 # 慢請求(>500ms)
2024-02-14 10:00:03 [api=/user/login] cost=800ms status=500 # 慢請求且報錯
2024-02-14 10:00:04 [api=/order/create] cost=150ms status=404 # 錯誤請求
2024-02-14 10:00:05 [api=/user/profile] cost=200ms status=200 # 正常請求
# 監控命令:
tail -f api.log | awk '
$4 ~ /cost=[5-9][0-9][0-9]ms/ || $5 ~ /status=[45][0-9][0-9]/ {
# 檢查是否是慢請求
if($4 ~ /cost=[5-9][0-9][0-9]ms/) {
msg="慢請求"
}
# 檢查是否有錯誤狀態碼
if($5 ~ /status=[45][0-9][0-9]/) {
msg=msg?msg" 且 狀態碼異常":"狀態碼異常"
}
# 打印告警信息
print "\033[31m告警:" $0 " # " msg "\033[0m"
# 重置消息變量
msg=""
}'
# 輸出(紅色顯示):
告警:2024-02-14 10:00:02 [api=/user/info] cost=550ms status=200 # 因為響應時間>500ms
告警:2024-02-14 10:00:03 [api=/user/login] cost=800ms status=500 # 因為響應時間>500ms且狀態碼500
告警:2024-02-14 10:00:04 [api=/order/create] cost=150ms status=404 # 因為狀態碼404
記住:
- 先從簡單的統計開始
- 需要時再加更多的統計維度
- 復雜的分析可以分步驟進行
- 多用print調試你的統計邏輯
學會了這些,你就能應對大部分的日志分析工作了!
第四部分:實戰篇 - 應用日志分析
接著我們來分析實際工作中最常見的幾種應用日志。咱們由淺入深,一步步來。
1. 基礎日志分析
(1) 簡單的應用日志
先來看一個最基礎的應用日志:
2024-02-14 10:00:01 [INFO] UserService - 用戶登錄成功,用戶名=admin
2024-02-14 10:00:02 [ERROR] OrderService - 訂單創建失敗:數據庫連接超時
2024-02-14 10:00:03 [WARN] UserService - 密碼錯誤,用戶名=test
2024-02-14 10:00:04 [ERROR] PaymentService - 支付失敗:余額不足
(2) 基礎日志過濾(最簡單的用法)
# 命令1:顯示所有ERROR日志
awk '/ERROR/' app.log
# 輸出:
2024-02-14 10:00:02 [ERROR] OrderService - 訂單創建失敗:數據庫連接超時
2024-02-14 10:00:04 [ERROR] PaymentService - 支付失敗:余額不足
# 命令2:查看特定服務的日志
awk '/UserService/' app.log
# 輸出:
2024-02-14 10:00:01 [INFO] UserService - 用戶登錄成功,用戶名=admin
2024-02-14 10:00:03 [WARN] UserService - 密碼錯誤,用戶名=test
(3) 統計日志級別(常用功能)
# 命令:統計每種日志級別的數量
awk '
# 匹配有方括號的行
/\[.*\]/ {
# 提取方括號中的內容,存入arr數組
match($0, /\[(.*?)\]/, arr)
# 對應的日志級別計數加1
level[arr[1]]++
}
# 所有行處理完后執行
END {
print "日志級別統計:"
# 遍歷統計結果并打印
for(l in level) {
print l ": " level[l] "條"
}
}
' app.log
# 輸出:
日志級別統計:
INFO: 1條
ERROR: 2條
WARN: 1條
2. 接口調用日志分析
(1) 接口日志示例
2024-02-14 10:00:01 [api=/user/login] cost=120ms status=200
2024-02-14 10:00:02 [api=/order/create] cost=500ms status=500
2024-02-14 10:00:03 [api=/user/info] cost=80ms status=200
(2) 分析接口響應時間
# 命令:統計每個接口的平均響應時間
awk '
{
# 提取接口名和響應時間
api=$3 # 獲取接口名稱列
gsub(/\[|\]/, "", api) # 去掉方括號
gsub(/.*=|ms/, "", $4) # 提取響應時間的數字部分
# 統計數據
apis[api] += $4 # 累加響應時間
count[api]++ # 統計調用次數
}
END {
print "接口平均響應時間:"
for(a in apis) {
printf "%s: %.2fms\n", a, apis[a]/count[a]
}
}' api.log
# 輸出:
接口平均響應時間:
api=/user/login: 120.00ms
api=/order/create: 500.00ms
api=/user/info: 80.00ms
3. 錯誤日志分析
(1) 異常堆棧日志
> cat Service.log
2024-02-14 10:00:01 [ERROR] NullPointerException: 空指針異常
at com.example.UserService.getUser(UserService.java:15)
at com.example.UserController.login(UserController.java:10)
2024-02-14 10:00:02 [ERROR] SQLException: 數據庫連接失敗
at com.example.OrderService.create(OrderService.java:25)
(2) 提取完整異常信息
# 命令:提取異常信息及其堆棧
awk '
# 匹配錯誤行
/ERROR/ {
print "\n發現異常:"
print $0 # 打印錯誤行
print "異常堆棧:"
}
# 匹配堆棧信息(以空格開頭的行)
/^[[:space:]]/ {
print $0 # 打印堆棧行
}
' Service.log
# 輸出:
發現異常:
2024-02-14 10:00:01 [ERROR] NullPointerException: 空指針異常
異常堆棧:
at com.example.UserService.getUser(UserService.java:15)
at com.example.UserController.login(UserController.java:10)
發現異常:
2024-02-14 10:00:02 [ERROR] SQLException: 數據庫連接失敗
異常堆棧:
at com.example.OrderService.create(OrderService.java:25)
4. 性能問題分析
(1) 數據庫慢查詢日志
2024-02-14 10:00:01 [SLOW_QUERY] cost=2.5s sql="SELECT * FROM orders WHERE user_id=123"
2024-02-14 10:00:05 [SLOW_QUERY] cost=1.8s sql="UPDATE users SET status=1"
2024-02-14 10:00:10 [SLOW_QUERY] cost=3.1s sql="SELECT * FROM order_items"
(2) 分析慢查詢
# 命令:分析超過2秒的慢查詢
awk '
{
# 提取執行時間,去掉s得到純數字
time_str = $4
gsub("cost=|s", "", time_str) # 將cost=和s都替換為空
time = time_str + 0 # 轉換為數字
# 提取完整SQL語句
sql = substr($0, index($0, "sql="))
# 如果查詢時間超過2秒
if(time > 2) {
printf "\n時間:%s %s\n", $1, $2
printf "耗時:%.1f秒\n", time
printf "SQL:%s\n", sql
printf "----------\n"
}
}' slow_query.log
# 輸出:
時間:2024-02-14 10:00:01
耗時:2.5秒
SQL:"SELECT * FROM orders WHERE user_id=123"
----------
時間:2024-02-14 10:00:10
耗時:3.1秒
SQL:"SELECT * FROM order_items"
----------
5. 監控告警分析
(1) 告警日志
2024-02-14 10:00:01 [ALERT] service=order-service type=cpu_high value=92%
2024-02-14 10:00:05 [ALERT] service=user-service type=memory_high value=85%
2024-02-14 10:00:10 [ALERT] service=order-service type=disk_usage value=95%
(2) 統計告警情況
# 命令:按服務統計告警
awk '
BEGIN {
print "=== 告警分析報告 ==="
print "分析時間:" strftime("%Y-%m-%d %H:%M:%S")
print "-------------------"
}
/\[ALERT\]/ { # 只處理包含[ALERT]的行
# 提取基本信息
gsub(/service=|type=|value=|%|threshold=/, " ", $0)
for(i=1; i<=NF; i++) {
if($i == "[ALERT]") {
service = $(i+1) # 服務名
type = $(i+2) # 告警類型
value = $(i+3) # 當前值
threshold = $(i+4) # 閾值
}
}
# 計算超出閾值的百分比
exceed = value - threshold
# 根據超出程度分級
if(exceed >= 20) {
level = "嚴重"
} else if(exceed >= 10) {
level = "警告"
} else {
level = "注意"
}
# 統計信息
services[service]++
types[type]++
levels[level]++
# 記錄最大值和時間
if(max_value[type] < value) {
max_value[type] = value
max_time[type] = $1 " " $2
}
# 保存詳細信息
details[++count] = sprintf("時間:%s %s\n服務:%-15s 類型:%-12s 當前值:%d%% (超出閾值:%d%%) 級別:%s",
$1, $2, service, type, value, exceed, level)
}
END {
# 1. 告警級別統計
print "\n1. 告警級別分布:"
for(l in levels) {
printf "%-6s: %d次\n", l, levels[l]
}
# 2. 服務告警統計
print "\n2. 服務告警統計:"
for(svc in services) {
printf "%-20s: %d次告警\n", svc, services[svc]
}
# 3. 告警類型統計
print "\n3. 告警類型統計:"
for(t in types) {
printf "%-15s: %d次\n", t, types[t]
printf " 最大值: %d%% (發生時間: %s)\n", max_value[t], max_time[t]
}
# 4. 詳細告警記錄
print "\n4. 詳細告警記錄:"
print "-------------------"
for(i=1; i<=count; i++) { # 使用count而不是NR
print details[i] "\n----------"
}
}' alert.log
# 輸出:
告警統計:
=== 告警分析報告 ===
分析時間:2025-02-14 21:34:52
-------------------
1. 告警級別分布:
注意 : 3次
警告 : 2次
2. 服務告警統計:
order-service : 3次告警
user-service : 2次告警
3. 告警類型統計:
memory_high : 2次
最大值: 95% (發生時間: 2024-02-14 10:00:20)
cpu_high : 2次
最大值: 92% (發生時間: 2024-02-14 10:00:01)
disk_usage : 1次
最大值: 95% (發生時間: 2024-02-14 10:00:10)
4. 詳細告警記錄:
-------------------
時間:2024-02-14 10:00:01
服務:order-service 類型:cpu_high 當前值:92% (超出閾值:12%) 級別:警告
----------
時間:2024-02-14 10:00:05
服務:user-service 類型:memory_high 當前值:85% (超出閾值:5%) 級別:注意
----------
時間:2024-02-14 10:00:10
服務:order-service 類型:disk_usage 當前值:95% (超出閾值:5%) 級別:注意
----------
時間:2024-02-14 10:00:15
服務:user-service 類型:cpu_high 當前值:88% (超出閾值:8%) 級別:注意
----------
時間:2024-02-14 10:00:20
服務:order-service 類型:memory_high 當前值:95% (超出閾值:15%) 級別:警告
----------
這些是日常工作中最常用到的日志分析場景。我們從最簡單的日志過濾開始,逐步深入到了復雜的統計分析。記住,解決復雜的問題時,可以先拆分成小步驟,一步一步來處理。
總結
看到這里,相信你已經掌握了 awk 這個文本處理利器的基本使用。從最初的字段提取,到復雜的日志分析,再到性能監控,只要靈活運用,awk 幾乎能解決所有的文本處理需求。
不過,真實的工作環境中,往往需要 多個命令配合使用 才能達到最好的效果。就像武俠小說里的武功招式,單招玩得再熟,也不如組合技來得實用。
比如:
# 先用grep找出錯誤日志,再用awk分析
grep "ERROR" app.log | awk '{print $1,$2}'
# 用sed處理格式,再用awk統計
sed 's/"http://g' access.log | awk '{count[$1]++} END{for(ip in count) print ip,count[ip]}'
下一篇,我將為大家帶來 grep、sed、awk 這三劍客的組合應用,教你如何在實戰中發揮它們的最大威力。相信這些實用的"組合技",一定能幫你在日常工作中事半功倍。