成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek 新專利公布:減少數據采集時網絡資源消耗

人工智能
DeepSeek 關聯公司杭州深度求索人工智能基礎技術研究有限公司申請的“一種廣度數據采集的方法及其系統”專利于 4 月 1 日公布。

4 月 2 日消息,IT之家從國家知識產權局中國專利公布公告網獲悉,DeepSeek 關聯公司杭州深度求索人工智能基礎技術研究有限公司申請的“一種廣度數據采集的方法及其系統”專利于 4 月 1 日公布。

專利摘要顯示:

該發明的有益效果在于:發現盡可能多的網頁鏈接,并減少對網站的流量沖擊;對已經下載的內容進行分析,對未下載的鏈接進行質量推斷,通過擇優下載分配額度的方式,減少低質量網頁下載和重復下載,提高數據質量及下載效率,減少在數據采集過程中網絡資源的消耗;采用單獨的信息回灌隊列,保證網頁元信息庫修改操作的原子性和穩定性。

背景技術稱:近年來,隨著人工智能技術的進展,NLP 自然語言領域取得了巨大的進步。許多大語言模型 (Large Language Models,LLMs) 被訓練應用于自然語言處理領域,用于研究實現人與計算機之間用自然語言進行有效通信的各種理論和方法。

大語言模型的訓練需要構建一個高質量、多樣化的大語言模型數據集,這需要將網頁數據采集并處理后得到大量高質量的文本信息作為模型的輸入,用于大語言模型進行訓練。

然而,現有的數據采集技術存在諸多問題,比如對復雜站點進行采集時,無法獲取完整鏈接;容易過量下載,造成對方網站崩潰;對下載頁面不進行內容質量分析和推斷,造成重復下載或低質下載、影響數據采集的效率。

因此,在大量網頁數據獲取的過程中,如何快速、精準、安全、高效地采集互聯網數據變得至關重要。

責任編輯:龐桂玉 來源: IT之家
相關推薦

2022-02-21 10:14:15

數據中心電力

2010-06-13 10:07:10

數據中心電力

2023-06-20 10:48:47

2017-01-04 12:53:51

2022-10-13 19:14:17

Python網絡資源

2013-01-30 17:23:22

數據中心碳排量節能

2011-03-07 15:30:14

2018-06-14 14:02:30

蘋果防水iPhone

2018-07-13 16:09:03

數據中心審計物理設備

2022-01-04 19:21:46

數據存儲數據存儲

2009-01-15 13:52:16

數據庫管理開銷

2012-05-31 13:43:09

IPv6網絡IPv6IPv6網絡資源

2022-03-13 08:52:07

數據安全數據泄露

2023-03-09 10:40:17

數據中心能源

2009-05-22 18:37:30

數據中心虛擬化服務器

2023-02-01 16:11:58

2013-06-19 09:20:53

Web開發Web性能優化高性能

2009-09-23 10:30:14

Android開發者

2011-07-06 09:11:40

MozillaFirefox

2011-12-04 12:21:14

蘋果專利
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色在线看 | 日韩av免费看 | 免费成人高清 | 色网站入口 | 午夜影视大全 | 欧美日韩a | 久久综合成人精品亚洲另类欧美 | 黄色毛片大全 | 97久久精品 | 久久99国产精品 | 色婷婷av777 av免费网站在线 | 天天躁日日躁狠狠的躁天龙影院 | 国产精品久久久久久久久久久久午夜片 | 精品1区2区3区4区 | 久久电影一区 | 91精品国产一区二区三区 | 日韩欧美国产精品一区 | 久久久男人的天堂 | 人人做人人澡人人爽欧美 | 欧美在线播放一区 | 久久69精品久久久久久久电影好 | 超碰人人91 | 91免费版在线观看 | 9191av| 日本中文字幕视频 | 亚洲高清在线视频 | 嫩草视频免费 | 欧美一级精品片在线看 | 黄色精品 | 精品一区二区久久久久久久网站 | 久久综合久久久 | 国产精品不卡一区 | 欧美精品一区二区三区在线播放 | 拍真实国产伦偷精品 | 精品久久久网站 | 人妖av | 天堂免费 | 黄色一级电影在线观看 | 日韩乱码在线 | 精品久久久网站 | 日韩午夜影院 |