成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一日一技:如何正確使用正則表達式的字符串替換

開發 前端
在日常工作中,可能需要一次性給大模型發送N篇文章,讓其幫忙提取并返回Markdown格式的產品信息。然后,讓大模型從這N篇文章中提取出產品信息,標明對應產品的出處URL,并以Markdown表格返回。

在日常工作中,可能需要一次性給大模型發送N篇文章,讓其幫忙提取并返回Markdown格式的產品信息。假設這N篇文章的json格式如下:

[
{"id": 1, "title": "xxx", "content": "yyyy", "url": "https://..."},
{"id": 2, "title": "xxx", "content": "yyyy", "url": "https://..."}
{"id": 3, "title": "xxx", "content": "yyyy", "url": "https://..."}
]

然后,讓大模型從這N篇文章中提取出產品信息,標明對應產品的出處URL,并以Markdown表格返回。返回的Markdown格式如下:

| 產品名稱 | 產品價格 | 出處 |
| --- | --- | --- |
| xx | 100 | https://xxxx |
| yy | 200 | https://yyyyy |

但上述這種直接處理方法有兩個弊端。一是有些網站的URL很長,讓大模型原樣將URL返回出來,會浪費輸出token,且輸出token一般都比較貴。二是大模型容易出錯,可能會生成假的URL。

因此,一種常見的做法是讓大模型用文章ID來代替出處URL這一列。上述示例如下:

| 產品名稱 | 產品價格 | 出處 |
| --- | --- | --- |
| xx | 100 | article_1 |
| yy | 200 | article_2 |

這里提醒大家一下,如果文章ID是1、2、3這種簡單的數字,建議拼接一個前綴,否則在進行替換時容易將其他字段正常的數字給替換掉。例如,這里我使用article_1來表示文章ID。

這樣我們在拿到返回的文本以后,還需要寫很長的replace語句將文章ID全部替換成Markdown格式的網址,如下:

answer = ask_llm(參數)
answer = (answer.replace('article_1', f'[{article["title"]}]({article["url"]})')
          .replace('article_2', f'[第二個標題](第二個連接)')
          .replace('article_3', f'[第3個標題](第3個連接)')
          。。。
          )

上述replace寫法的代碼長得太丑了。另一方面,每次replace都會完整掃描一次文本,如果返回的Markdown很長的話,非常浪費時間。

最近發現一個非常簡單的辦法,只需要掃描一次Markdown就可以完成全部替換。就是使用re.sub并且把第二個參數改寫成函數。

一般使用re.sub的時候,第二個參數都是字符串,例如:

re.sub('目標正則表達式', '新的字符串', '原始字符串')

下面例子是使用re.sub將一段話中的具體郵箱地址替換為[EMAIL],手機號替換為[PHONE]。

圖片圖片

但是re.sub的第二個參數實際上也可以是函數。下面用一個例子來展示。

首先定義一個字典:

article_id_url_map = {
    "article_1": '[文章標題1](https://example.com/article1)',
    "article_2": '[文章標題2](https://example.com/article2)',
    "article_3": '[文章標題3](https://example.com/article3)',
}

然后使用如下代碼:

answer = re.sub('(article_\d+)', lambda x: article_id_url_map[x.group(1)], answer)

就搞定了。

運行效果如下:

圖片圖片

這樣可以在處理返回包含 URL 的 Markdown 時,僅掃描一次就完成全部替換,提高效率。

責任編輯:武曉燕 來源: 未聞Code
相關推薦

2024-05-29 00:00:01

字符串Python縮進

2021-06-15 20:56:39

Python正則表達式

2022-06-10 12:19:24

正則表達式可讀性

2022-11-06 21:04:49

字符串字段參數

2024-07-30 08:16:18

Python代碼工具

2010-03-15 16:13:11

Python正則表達式

2022-06-20 19:37:59

Python字符串HTML

2021-05-08 19:33:51

移除字符零寬

2021-09-14 21:29:01

項目環境變量

2021-06-08 21:36:24

PyCharm爬蟲Scrapy

2021-10-20 20:02:47

字符變量函數

2021-10-15 21:08:31

PandasExcel對象

2022-06-28 09:31:44

LinuxmacOS系統

2022-03-12 20:38:14

網頁Python測試

2025-05-28 03:15:00

Scrapy數據sleep

2024-08-27 22:08:13

2020-12-04 06:39:25

爬蟲網頁

2010-03-25 18:25:36

Python正則表達式

2021-04-27 22:15:02

Selenium瀏覽器爬蟲

2009-08-14 17:44:46

C#中使用正則表達式匹
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久草在线 | 欧美色综合一区二区三区 | 综合久久av| 久久国产一区二区三区 | 亚洲一区av | 久久久一 | 欧美久久一区 | 亚洲性网 | 有码一区| 美国黄色毛片 | 一区二区三区在线观看免费视频 | 成人免费视频网站在线看 | 黄色网页在线 | 欧美区在线 | 美国黄色毛片 | 9久9久9久女女女九九九一九 | 黄色一级大片视频 | 欧美日韩视频在线 | 成人在线免费网站 | 亚洲欧美中文日韩在线v日本 | 亚洲视频一区在线 | 国产精品二区三区 | 一二区视频 | 91免费观看| 久久精品欧美一区二区三区不卡 | 国产高清免费视频 | 视频在线一区二区 | 精品国产乱码久久久 | 欧美精品久久久 | 男女羞羞视频大全 | 精品99久久 | 在线一级片 | 91国产在线播放 | 中文字幕一区二区三区在线视频 | 日韩成人一区二区 | 一区二区三区中文字幕 | 免费在线观看成人 | 国产黄色一级片 | 国产一区二区免费 | 国产高清一区二区三区 | 在线观看亚洲欧美 |