成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字段抽取:異構(gòu)數(shù)據(jù)結(jié)構(gòu)化的利器

大數(shù)據(jù)
鴻鵠系統(tǒng)旨在提供一站式的異構(gòu)數(shù)據(jù)平臺(tái),提供了一套完整的關(guān)于數(shù)據(jù)分析的開(kāi)箱即用的用戶界面,簡(jiǎn)化整體的數(shù)據(jù)分析過(guò)程。字段抽取功能,實(shí)現(xiàn)了鴻鵠系統(tǒng)中重要的技術(shù)特點(diǎn)——讀時(shí)建模,提供了端到端的海量異構(gòu)數(shù)據(jù)處理工具,提高了數(shù)據(jù)分析的效率和準(zhǔn)確性。

一、字段抽取與讀時(shí)建模

1、Why 讀時(shí)建模?

在處理傳統(tǒng)業(yè)務(wù)數(shù)據(jù)時(shí),一般使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)來(lái)解決問(wèn)題。在當(dāng)前云原生大數(shù)據(jù)時(shí)代,日志分析愈加重要。日志分析的痛點(diǎn)主要有如下三點(diǎn):

  • 海量機(jī)器數(shù)據(jù)的產(chǎn)生,會(huì)消耗大量存儲(chǔ)空間,同時(shí)要求較高的寫(xiě)入速度;
  • 微服務(wù)架構(gòu)流行,整體業(yè)務(wù)迭代迅速,數(shù)據(jù)(日志)格式變化頻繁,數(shù)據(jù)格式統(tǒng)一工作需要耗費(fèi)較高的時(shí)間和物理成本;
  • 格式不統(tǒng)一的數(shù)據(jù)寫(xiě)入關(guān)系型數(shù)據(jù)庫(kù),需要維護(hù)額外的 ETL 任務(wù)(如數(shù)據(jù)清理、轉(zhuǎn)換等),一方面增加系統(tǒng)維護(hù)成本,另一方面額外的性能開(kāi)銷(xiāo)可能導(dǎo)致數(shù)據(jù)寫(xiě)入速度降低。

鴻鵠系統(tǒng)在設(shè)計(jì)之初決定采用讀時(shí)建模來(lái)有效地解決以上幾個(gè)問(wèn)題。如下圖所示,左側(cè)為讀時(shí)建模系統(tǒng),右側(cè)為寫(xiě)時(shí)建模系統(tǒng)。

圖片

寫(xiě)時(shí)建模系統(tǒng)中,通常需要預(yù)先定義好若干張表格,并定義好表中列名和屬性等。將來(lái)自不同系統(tǒng)的 Access Log 日志寫(xiě)入到預(yù)定義好的關(guān)系型數(shù)據(jù)庫(kù)表格中,需要額外維護(hù)三個(gè) ETL 任務(wù),并將數(shù)據(jù)格式統(tǒng)一。

鴻鵠系統(tǒng)(讀時(shí)建模)中,數(shù)據(jù)寫(xiě)入時(shí)不需要對(duì)數(shù)據(jù)格式做轉(zhuǎn)換,無(wú)需額外的 ETL  任務(wù)開(kāi)銷(xiāo),寫(xiě)入速度相比寫(xiě)時(shí)系統(tǒng)較快。數(shù)據(jù)寫(xiě)入只需存儲(chǔ)數(shù)據(jù)的原始信息以及對(duì)后續(xù)查詢有益的元信息(目標(biāo)數(shù)據(jù)集、數(shù)據(jù)導(dǎo)入時(shí)間等),寫(xiě)入磁盤(pán)的內(nèi)容相比寫(xiě)時(shí)建模系統(tǒng)較少,節(jié)約整體磁盤(pán)空間。當(dāng)用戶進(jìn)行查詢,使用目標(biāo)數(shù)據(jù)時(shí),會(huì)通過(guò)預(yù)定義的計(jì)算規(guī)則,動(dòng)態(tài)生成一張包括新富化字段的表格,也即在查詢時(shí)完成數(shù)據(jù)的建模。

2、字段抽取的定義

針對(duì)讀時(shí)建模系統(tǒng),字段抽取是指原始數(shù)據(jù)在被查詢時(shí),通過(guò)預(yù)先定義的字段提取規(guī)則,對(duì)數(shù)據(jù)進(jìn)行字段規(guī)整、字段富化的過(guò)程。字段抽取的作用是在查詢時(shí),通過(guò)消耗 CPU 的算力,來(lái)?yè)Q取查詢的靈活性,可以節(jié)省大量的存儲(chǔ)空間。

鴻鵠數(shù)據(jù)平臺(tái)中,字段抽取功能實(shí)現(xiàn)了在查詢過(guò)程中將異構(gòu)數(shù)據(jù)動(dòng)態(tài)結(jié)構(gòu)化,為數(shù)據(jù)分析提供了很大的靈活性,這是鴻鵠系統(tǒng)讀時(shí)建模的最大特性。

二、字段抽取功能實(shí)現(xiàn)原理

字段抽取需要預(yù)定義一系列抽取規(guī)則,規(guī)則是否復(fù)雜,是否需要額外的編程學(xué)習(xí)呢?帶著這些問(wèn)題,下面來(lái)看一下字段抽取功能的實(shí)現(xiàn)原理。

在鴻鵠系統(tǒng)中,字段抽取功能是通過(guò)定義字段抽取規(guī)則應(yīng)用來(lái)實(shí)現(xiàn)的,每一個(gè)字段抽取規(guī)則應(yīng)用由若干個(gè)字段抽取規(guī)則組合而成。每個(gè)規(guī)則應(yīng)用,根據(jù)內(nèi)部字段抽取規(guī)則定義先后順序,依次執(zhí)行字段抽取規(guī)則,實(shí)現(xiàn)數(shù)據(jù)字段的歸整和富化功能。

通過(guò)將規(guī)則應(yīng)用與數(shù)據(jù)源類型相互綁定,可以明確字段抽取應(yīng)用的目標(biāo)數(shù)據(jù),當(dāng)目標(biāo)數(shù)據(jù)被使用(查詢)時(shí),根據(jù)該數(shù)據(jù)所屬數(shù)據(jù)源類型,執(zhí)行綁定的字段抽取規(guī)則應(yīng)用。

1、字段抽取規(guī)則

在鴻鵠系統(tǒng)中,一條字段抽取規(guī)則是由來(lái)源字段和抽取規(guī)則類型組成的。

(1)來(lái)源字段

來(lái)源字段即需要應(yīng)用字段抽取規(guī)則的原始字段名。通過(guò)選擇來(lái)源字段,即可知道抽取規(guī)則需要應(yīng)用到原始數(shù)據(jù)的哪一部分內(nèi)容中。

舉例說(shuō)明,一條日志信息可能包含日志的時(shí)間、日志的 log、level 以及一些用戶的具體請(qǐng)求信息。

  • 通常針對(duì)某一個(gè)字段抽取規(guī)則并不需要將其應(yīng)用到原始數(shù)據(jù)的整體;
  • 只需要指定來(lái)源字段,如數(shù)據(jù)的時(shí)間信息進(jìn)行詳細(xì)抽取,或?qū)θ罩镜挠脩粜袨樽龇治觥R环矫婵梢越档妥侄纬槿∫?guī)則應(yīng)用時(shí)所消耗的系統(tǒng)資源;另一方面,限定了字段抽取應(yīng)用的原始文本內(nèi)容,可以有效避免誤抽取。

(2)來(lái)源字段類型

  • 原始數(shù)據(jù)本身(即 _message 字段)——鴻鵠系統(tǒng)內(nèi)置
  • 任意通過(guò)字段抽取規(guī)則富化出的新字段。(該抽取規(guī)則必須在生成來(lái)源字段的抽取規(guī)則之后定義)

(3)抽取規(guī)則類型

當(dāng)前鴻鵠系統(tǒng)內(nèi)置四種抽取規(guī)則類型,下面介紹這些規(guī)則的具體適用場(chǎng)景及其作用。

正則抽取

正則抽取,利用正則表達(dá)式從原始事件中提取出匹配的內(nèi)容作為字段,是處理非結(jié)構(gòu)化事件中最常用的一種抽取方式。在鴻鵠系統(tǒng)中,通過(guò)定義若干個(gè)命名捕獲組(捕獲組的名稱為新抽取或新富化出的字段名稱),捕獲組所匹配的內(nèi)容為字段值。

以如下日志數(shù)據(jù)為例,包含多個(gè)子信息,每個(gè)子信息是固定的 pattern:

  • 綠色部分:日志產(chǎn)生的時(shí)間信息
  • 紅色部分:日志對(duì)應(yīng)的模塊信息
  • 藍(lán)色部分:日志對(duì)應(yīng)的詳細(xì)信息

圖片

上述情況非常適用于正則抽取,對(duì)原始數(shù)據(jù)進(jìn)行內(nèi)容的切分。上述三個(gè)信息可以對(duì)應(yīng)三個(gè)命名捕獲組,當(dāng)對(duì)原始日志數(shù)據(jù)應(yīng)用了該條正則抽取規(guī)則后,可在查詢時(shí)動(dòng)態(tài)生成三個(gè)新的字段(time 字段、module 字段、message 字段)以及它們對(duì)應(yīng)的字段值。

正則抽取的方式:

  • 用戶手工撰寫(xiě)正則表達(dá)式
  • 通過(guò) UI 界面,劃詞自動(dòng)生成正則表達(dá)式

JSON 抽取

JSON 抽取主要針對(duì)原始數(shù)據(jù)中包含有類似 JSON 的文本數(shù)據(jù),通過(guò)內(nèi)置的 JSON 字段解析,將原始的 JSON 對(duì)象中對(duì)應(yīng)的屬性值和屬性名提取為新的字段。

針對(duì)如下包含 json 格式的文本內(nèi)容的日志數(shù)據(jù),應(yīng)用內(nèi)置的 JSON 抽取后,可以非常方便地將原始的半結(jié)構(gòu)化數(shù)據(jù)自動(dòng)轉(zhuǎn)換成一個(gè)動(dòng)態(tài)的表格,表格中每一列是JSON 對(duì)象中的屬性名,屬性值會(huì)自動(dòng)匹配到對(duì)應(yīng)的屬性列。

圖片

鍵值對(duì)抽取

鍵值對(duì)抽取,主要針對(duì)原始數(shù)據(jù)中包含有類似 key=value 的文本數(shù)據(jù),通過(guò)內(nèi)置的鍵值對(duì)抽取的方式,抽取出新的字段,等號(hào)左側(cè)的 key 提取為新字段,等號(hào)右側(cè)的 value 提取為新字段值。

以如下包含 key-value 的日志數(shù)據(jù)為例,應(yīng)用了鴻鵠系統(tǒng)內(nèi)置的鍵值對(duì)抽取,可將半結(jié)構(gòu)化的鍵值對(duì)自動(dòng)轉(zhuǎn)換成一個(gè)動(dòng)態(tài)的表格。所有的 key 值被提取成了字段名,value 值會(huì)動(dòng)態(tài)地應(yīng)用到相應(yīng)字段值。

圖片

IP 地址抽取

IP 地址抽取,主要針對(duì)原始數(shù)據(jù)中包含有 IP 地址信息的內(nèi)容,通過(guò)內(nèi)置的方法可快速提取出 IP 地址對(duì)應(yīng)的國(guó)家、城市、省市、運(yùn)營(yíng)商等信息。

圖片

2、數(shù)據(jù)源類型綁定

在鴻鵠系統(tǒng)中,針對(duì)每一個(gè)定義好的具體規(guī)則應(yīng)用,需按照抽取規(guī)則定義的先后順序依次執(zhí)行。使用某個(gè)規(guī)則應(yīng)用時(shí),必須將規(guī)則應(yīng)用與特定的數(shù)據(jù)源類型做綁定,才能在查詢時(shí)動(dòng)態(tài)地將該規(guī)則應(yīng)用到讀時(shí)建模的目標(biāo)數(shù)據(jù)。

從外部導(dǎo)入數(shù)據(jù)到鴻鵠系統(tǒng),無(wú)論是文件導(dǎo)入、HTTP 采集還是采集 CS log 數(shù)據(jù),除了需指定數(shù)據(jù)集,另一個(gè)必填項(xiàng)為數(shù)據(jù)源類型。

圖片

鴻鵠系統(tǒng)是 NoSQL 范疇,將數(shù)據(jù)集比喻為數(shù)據(jù)庫(kù)或 Namespace,則數(shù)據(jù)源類型是一張表格,字段抽取規(guī)則應(yīng)用,可類比為表格所對(duì)應(yīng)的表格定義。

圖片

通過(guò)數(shù)據(jù)源類型,可區(qū)分一個(gè)數(shù)據(jù)集當(dāng)中的不同類型數(shù)據(jù),針對(duì)不同類型的數(shù)據(jù),需采用不同的抽取規(guī)則進(jìn)行后續(xù)查詢時(shí)的讀時(shí)建模。舉例說(shuō)明,IT 運(yùn)維人員在采集設(shè)備的數(shù)據(jù)集中同時(shí)接收交換機(jī)數(shù)據(jù)、防火墻數(shù)據(jù),路由器數(shù)據(jù)。由于三種設(shè)備的數(shù)據(jù)格式各不相同,在數(shù)據(jù)導(dǎo)入時(shí),需新建三種不同的數(shù)據(jù)源類型。

圖片

3、規(guī)則應(yīng)用界面

在規(guī)則應(yīng)用頁(yè)面中,可點(diǎn)開(kāi)“字段加工”選擇“字段抽取”標(biāo)簽頁(yè),支持展示如下內(nèi)容:

  • 內(nèi)置或自定義的若干個(gè)規(guī)則應(yīng)用。
  • 每個(gè)規(guī)則應(yīng)用綁定到哪些數(shù)據(jù)源類型。
  • 可點(diǎn)擊左側(cè)加號(hào)按鈕,對(duì)規(guī)則應(yīng)用下的某一抽取規(guī)則進(jìn)行展開(kāi)。
  • 可以查看抽取規(guī)則的執(zhí)行順序。
  • 抽取規(guī)則的元素組成。

圖片

三、字段抽取示例

以常用的日志數(shù)據(jù)為例,通過(guò)鴻鵠系統(tǒng)提供的開(kāi)箱即用的 UI 界面,建立讀時(shí)建模中抽取規(guī)則應(yīng)用的過(guò)程如下圖所示。

圖片


  • 確定查詢結(jié)果,即確定對(duì)哪些目標(biāo)數(shù)據(jù)進(jìn)行字段抽取。
  • 選擇具體樣例事件,用于預(yù)覽字段抽取規(guī)則的部分結(jié)果進(jìn)行分析。
  • 抽取規(guī)則編輯、變形、修改,預(yù)覽讀時(shí)建模的整體效果,保存抽取規(guī)則。
  • 在查詢頁(yè)面,查詢?cè)寄繕?biāo)數(shù)據(jù),自動(dòng)應(yīng)用定義的抽取規(guī)則來(lái)動(dòng)態(tài)富化出分析所需的額外字段。

1、檢索原始數(shù)據(jù)

  • 通過(guò)查詢檢索原始數(shù)據(jù),即字段抽取的目標(biāo)數(shù)據(jù)。輸入類似于 select * from xxx event set 的查詢,為后臺(tái)系統(tǒng)提供字段抽取所需的數(shù)據(jù)源字段及其對(duì)應(yīng)的數(shù)據(jù)源類型。
  • 確保查詢結(jié)果包含自定義的數(shù)據(jù)源類型字段,否則無(wú)法應(yīng)用到原有的數(shù)據(jù)中。最佳實(shí)踐:使用自定義的數(shù)據(jù)源類型。
  • 點(diǎn)擊抽取新字段進(jìn)入字段抽取頁(yè)面。


圖片

2、選取樣例事件

在下面的選取樣例事件的字段抽取頁(yè)面,用戶可選擇一條簡(jiǎn)單的樣例事件,進(jìn)行后續(xù)的字段抽取規(guī)則的修改、預(yù)覽和調(diào)整。

  • 選定進(jìn)行字段抽取的目標(biāo)數(shù)據(jù)源類型,后續(xù)系統(tǒng)會(huì)自動(dòng)將新建的規(guī)則應(yīng)用與數(shù)據(jù)源類型進(jìn)行綁定。
  • 通過(guò)過(guò)濾條件對(duì)原始事件進(jìn)行篩選,如篩選臟數(shù)據(jù)等。
  • 基于查詢結(jié)果表格中選取任意一個(gè)具體的樣例事件,進(jìn)到字段抽取規(guī)則設(shè)置頁(yè)面。對(duì)用戶選擇的樣例事件及樣例事件字段抽取結(jié)果進(jìn)行預(yù)覽。中間的用戶編輯區(qū)域(新增、刪除或者編輯抽取規(guī)則),可選擇來(lái)源字段,也可選擇抽取規(guī)則。

圖片

3、抽取規(guī)則設(shè)置

字段抽取規(guī)則設(shè)置頁(yè)面:

  • 用戶選擇的樣例事件及中間的用戶編輯區(qū)域(新增、刪除或者編輯抽取規(guī)則),可選擇來(lái)源字段,也可選擇抽取規(guī)則。
  • 完成字段抽取規(guī)則的編輯后,下方是樣例事件字段抽取結(jié)果的預(yù)覽,如富化出的字段。


圖片

下面以一個(gè)常見(jiàn)的日志數(shù)據(jù)為例,該數(shù)據(jù)包含日志產(chǎn)生的 IP 地址、日志時(shí)間信息以及日志對(duì)應(yīng)的詳細(xì)信息三部分。這個(gè)日志數(shù)據(jù)每部分信息可通過(guò)固定 pattern 分割,選取正則抽取,對(duì)原始數(shù)據(jù)做富化。

圖片

下面展示在鴻鵠系統(tǒng)中如何便捷地在 UI 上劃詞生成正則表達(dá)式的過(guò)程:

  • 選擇一個(gè)來(lái)源字段(默認(rèn)原始數(shù)據(jù)本身,_messsage 字段)。
  • 選擇抽取規(guī)則為正則抽取。
  • 在規(guī)則下方的文本框中,劃取想要抽取的文本內(nèi)容,可快速選取一部分關(guān)鍵信息進(jìn)行字段富化,并對(duì)字段內(nèi)容起個(gè)名字。

圖片

如上圖所示,用戶不需要寫(xiě)任何正則表達(dá)式,只需要通過(guò)用戶界面上的一些鼠標(biāo)操作即可完成正則表達(dá)式的抽取。同時(shí),鴻鵠系統(tǒng)會(huì)在文本框中把用戶所有已抽取過(guò)的字段所匹配的文本內(nèi)容做高亮顯示,如下圖所示:

圖片

此外,當(dāng)用戶完成了一個(gè)字段劃取的操作后,在下方的整體預(yù)覽表格中可預(yù)覽到正則抽取及其應(yīng)用到原始數(shù)據(jù)后的具體結(jié)果、原始數(shù)據(jù)富化出的字段等。

需要注意的是:有一些原始數(shù)據(jù)顯示的數(shù)據(jù)都為 none 的原因是劃詞抽取只針對(duì)用戶所選擇的一條樣例事件,并生成后續(xù)的正則表達(dá)式,可能無(wú)法匹配到原始數(shù)據(jù)中所有的信息。

在上述情況下,如捕獲組的信息過(guò)于籠統(tǒng)的話,建議通過(guò)手動(dòng)編輯正則表達(dá)式的方式對(duì)其進(jìn)行修改。


圖片

因此,最佳實(shí)踐為劃詞與手動(dòng)編輯相結(jié)合生成正則表達(dá)式。如最后的 detail 信息,無(wú)需將正則表達(dá)式寫(xiě)得過(guò)于詳細(xì),可對(duì)正則表達(dá)式進(jìn)行簡(jiǎn)化,能更精準(zhǔn)獲得 IP 字段、time 字段以及 detail 字段。此外,在第一步抽取的信息可能較粗,可對(duì)其富化出的字段進(jìn)行進(jìn)一步詳細(xì)抽取。

圖片

如下,可針對(duì)第一步富化得到的 IP 地址信息,進(jìn)一步通過(guò) IP 地址抽取規(guī)則,得到詳細(xì)的地理位置信息。

圖片

圖片

類似地,針對(duì)第一步提取出的時(shí)間信息—time 字段,通過(guò) UI 劃詞的正則抽取,可得到詳細(xì)的年月日以及時(shí)區(qū)信息。

圖片

圖片

最后針對(duì)包含兩部分子信息的日志詳細(xì)信息 detail 字段,可對(duì)鍵值對(duì)信息做額外提取。首先通過(guò)正則表達(dá)式抽取,將日志詳細(xì)信息提取成兩部分;其次,對(duì)只包含鍵值對(duì)文本信息的部分進(jìn)行鍵值對(duì)抽取。這樣,首先通過(guò)正則抽取縮小范圍,可避免誤抽取。

圖片

圖片

在上述示例中,首先通過(guò)劃詞抽取和用戶手動(dòng)編輯正則表達(dá)式相結(jié)合的方式,將原始數(shù)據(jù)切割成三部分;其后,針對(duì)第一步抽取出的若干子字段再進(jìn)行一次細(xì)致的字段抽取,從而將原始非結(jié)構(gòu)化日志數(shù)據(jù)富化出所需的額外信息;最后對(duì)該規(guī)則進(jìn)行預(yù)覽后進(jìn)行保存。

圖片


4、抽取規(guī)則預(yù)覽

在建立完抽取規(guī)則后,鴻鵠系統(tǒng)會(huì)自動(dòng)將抽取規(guī)則與數(shù)據(jù)源類型進(jìn)行綁定,無(wú)需用戶手工操作。通過(guò)用戶界面建立的屬于該抽取規(guī)則應(yīng)用的所有規(guī)則都可進(jìn)行預(yù)覽,如下圖所示為來(lái)源字段信息和抽取方式,無(wú)需額外編程或第三方系統(tǒng)集成。

圖片

5、查詢結(jié)果

下面對(duì)應(yīng)用字段抽取規(guī)則前后的查詢結(jié)果進(jìn)行對(duì)比。

  • 原始的查詢結(jié)果:通過(guò) select* from dataset,只能查詢到系統(tǒng)中預(yù)保存的一些原始字段,如數(shù)據(jù)來(lái)源、數(shù)據(jù)的數(shù)據(jù)源類型以及抽取時(shí)間等。
  • 應(yīng)用字段抽取規(guī)則后:同樣的查詢,會(huì)展示出富化的新字段。因此,引用了抽取規(guī)則后,可以非常快速地完成查詢的讀時(shí)建模。

圖片

四、問(wèn)答環(huán)節(jié)

Q1:鴻鵠系統(tǒng)中字段抽取與索引時(shí)字段抽取的差別?

A1:鴻鵠系統(tǒng)中字段抽取:在數(shù)據(jù)寫(xiě)入的時(shí)候,不需要對(duì)數(shù)據(jù)做任何預(yù)處理,不需要預(yù)先定義數(shù)據(jù)包含哪些列,有哪些特定的格式;查詢時(shí),通過(guò)一個(gè)靈活的動(dòng)態(tài)規(guī)則,根據(jù)用戶的需求對(duì)相關(guān)字段進(jìn)行提取。

索引時(shí)字段抽取:在查詢時(shí)將一些字段預(yù)先提取出來(lái)落到磁盤(pán)上,可加速查詢時(shí)的查詢效率,不需要通過(guò)額外的抽取規(guī)則生成那些列,但會(huì)增加磁盤(pán)的開(kāi)銷(xiāo)。

基于用戶的實(shí)際場(chǎng)景,如數(shù)據(jù)查詢快還是數(shù)據(jù)查詢靈活,進(jìn)行分別處理:若數(shù)據(jù)包含特定幾列,希望加快這些列的查詢速度,則可使用索引詞的字段抽取;數(shù)據(jù)非常靈活,希望保持?jǐn)?shù)據(jù)查詢時(shí)的靈活性,則是建議定義字段抽取規(guī)則完成查詢時(shí)的字段抽取。

Q2:是否可通過(guò)日志的 IP 地址直接識(shí)別出國(guó)家和省市區(qū)的信息?

A2:首先通過(guò)正則抽取或其他抽取方式,將日志中包含 IP 地址文本內(nèi)容做提取,去除額外的干擾項(xiàng);數(shù)據(jù)中沒(méi)有任何干擾項(xiàng),只包含 IP 地址的文本內(nèi)容,則可直接使用IP 地址進(jìn)行國(guó)家和省市區(qū)信息的抽取。

Q3:讀時(shí)建模和寫(xiě)時(shí)建模的性能比較?

A3:讀時(shí)建模下計(jì)算引擎通常缺少 SQL 的優(yōu)化能力,鴻鵠系統(tǒng)中讀時(shí)建模在查詢時(shí)設(shè)定的動(dòng)態(tài)規(guī)則會(huì)額外消耗算力,相比寫(xiě)時(shí)建模會(huì)有性能上的損失。

若用戶場(chǎng)景是不需要額外靈活的數(shù)據(jù)富化的過(guò)程,或數(shù)據(jù)相對(duì)較固定,則可利用鴻鵠系統(tǒng)中的固化視圖和預(yù)查詢功能,進(jìn)行加速,使得讀時(shí)建模與寫(xiě)時(shí)建模的查詢速度差異較小。

Q4:最佳實(shí)踐中需使用自定義的數(shù)據(jù)源類型,是否可使用鴻鵠系統(tǒng)中自帶的數(shù)據(jù)源類型來(lái)接收數(shù)據(jù)?

A4:用戶在初始使用鴻鵠系統(tǒng)時(shí),或者非常明確只有 json 和 csv 的數(shù)據(jù)類型,可使用系統(tǒng)內(nèi)置的數(shù)據(jù)源類型。但仍推薦使用自定義數(shù)據(jù)源類型。其原因是若修改某個(gè)數(shù)據(jù)類型的綁定規(guī)則,會(huì)導(dǎo)致數(shù)據(jù)影響面大,一方面會(huì)降低查詢效率,另一方面會(huì)出現(xiàn)誤抽取。

若用戶后續(xù)會(huì)對(duì)數(shù)據(jù)做額外查詢時(shí)加工,處理實(shí)際的業(yè)務(wù)場(chǎng)景,推薦用戶針對(duì)每個(gè)業(yè)務(wù)場(chǎng)景自建一個(gè)自定義的數(shù)據(jù)源類型來(lái)接收該場(chǎng)景數(shù)據(jù)。

Q5:在 UI 界面上生成字段規(guī)則后,后續(xù)是否可修改?

A5:點(diǎn)擊規(guī)則應(yīng)用列表頁(yè)面的右側(cè)一列操作欄的“筆圖標(biāo)”編輯功能按鈕,會(huì)進(jìn)入到字段抽取頁(yè)面,可對(duì)用戶已定義好的某個(gè)特定規(guī)則進(jìn)行修改和調(diào)試。

若用戶已對(duì)某個(gè)特定的數(shù)據(jù)源類型綁定好一個(gè)具體的規(guī)則,可在查詢頁(yè)面點(diǎn)擊抽取新字段按鈕,進(jìn)入到前述的字段抽取頁(yè)面,系統(tǒng)會(huì)預(yù)先加載選定的數(shù)據(jù)源類型及其對(duì)應(yīng)的抽取規(guī)則,用戶可對(duì)現(xiàn)有的抽取規(guī)則進(jìn)行修改,并可預(yù)覽修改后的效果。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2021-12-12 08:37:18

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)

2018-04-03 14:00:03

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫(kù)

2024-05-27 00:32:45

2011-05-25 15:16:55

非結(jié)構(gòu)化數(shù)據(jù)庫(kù)異構(gòu)數(shù)據(jù)庫(kù)

2023-12-05 08:47:30

Pandas數(shù)據(jù)處理

2014-02-17 10:28:34

大數(shù)據(jù)

2017-05-16 21:31:03

結(jié)構(gòu)化數(shù)據(jù)新模式

2014-03-14 09:52:15

非結(jié)構(gòu)化數(shù)據(jù)

2021-11-14 20:29:56

web結(jié)構(gòu)化數(shù)據(jù)

2023-12-25 15:00:18

結(jié)構(gòu)化布線光纖

2009-02-02 09:05:08

GoogleWebWeb結(jié)構(gòu)化

2019-07-13 15:00:17

結(jié)構(gòu)化SQLNOSQL數(shù)據(jù)庫(kù)

2012-02-08 15:54:05

ibmdw

2014-12-31 14:14:26

AdapterListView List View

2019-10-18 13:07:14

PB數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)集

2017-11-16 05:22:34

非結(jié)構(gòu)化數(shù)據(jù)分析數(shù)據(jù)

2014-02-09 09:53:05

2017-12-06 15:46:31

深度學(xué)習(xí)結(jié)構(gòu)化數(shù)據(jù)NLP

2023-03-29 21:06:53

數(shù)據(jù)中心

2017-03-29 20:57:21

數(shù)據(jù)計(jì)算講座
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产一区免费视频 | 欧美激情亚洲激情 | 天天干狠狠操 | 国产成人精品在线播放 | 欧美日韩亚洲国产综合 | 久久精品视频在线播放 | 国产在线精品一区二区三区 | 久久久久久国产一区二区三区 | 亚洲精品一区二区三区蜜桃久 | 亚洲精品国产一区 | 亚洲视屏| 天天干天天爱天天 | 日韩中文一区二区三区 | 日韩中文在线观看 | 一区二区三区国产精品 | 人人看人人干 | 欧美激情视频一区二区三区免费 | 欧美视频二区 | 亚洲综合三区 | 欧美精品一区二区三区蜜臀 | 亚洲一一在线 | 91精品国产91久久久久久不卞 | 91成人免费观看 | 7777在线视频 | 女人毛片a毛片久久人人 | 午夜一级黄色片 | 羞羞免费网站 | 日韩在线观看网站 | 亚洲一区二区网站 | 久久久久久国产 | 亚洲精品一区二区三区在线 | 欧美伊人| 一区二区三区久久 | 欧美中文在线 | 日韩视频在线免费观看 | 台湾a级理论片在线观看 | 视频一区二区三区中文字幕 | 国产高清在线精品一区二区三区 | 免费成人高清在线视频 | 91精品国产综合久久久久久蜜臀 | 在线欧美亚洲 |