一種基于機器學習的自動文檔標簽圖譜技術

作者：佚名 2021-04-08 10:19:39

人工智能

本文主要詳細講解了是個方面，即：知識圖譜技術發展趨勢、基于機器學習的標簽圖譜技術思路、關鍵技術分析、典型應用案例分享。

本期課程重點分為以下四個方面：知識圖譜技術發展趨勢、基于機器學習的標簽圖譜技術思路、關鍵技術分析、典型應用案例分享。

　　一、知識圖譜技術發展趨勢

　　1. 知識圖譜

　　（1）定義

　　知識圖譜：是一種規模非常大的語義網絡系統，是海量文本知識挖掘最常見的手段之一。知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系，一般用三元組表示。知識圖譜亦可被看作是一張巨大的圖，節點表示實體或概念，而邊則由屬性或關系構成。

[[391855]]

（2）發展歷程

　　知識圖譜的發展分為起源、發展、繁榮三個階段。

　　（3）應用

　　目前，知識圖譜在金融、醫療、教育、司法等多個行業領域廣泛應用。

　　• 金融行業：反洗錢、反欺詐等

　• 醫療行業

• 教育行業

• 司法：知識圖譜在司法中能解決證據索引、類案推送、結果預判、證據分析、文書生成和智慧調解

（4）重要作用

　　知識圖譜具有獲取、表示和處理知識的能力，是人類心智區別于其它物種心智的重要特征，且已成為推動機器基于人類知識來獲取認知能力的重要途徑，并將逐漸成為未來智能社會的重要生產資料。

　　知識圖譜是人工智能的基石，包括感知層與認知層。知識圖譜推動人工智能的應用，是強人工智能發展的核心驅動力之一。

　　（5）知識圖譜的特點

　　• 特點：

　　√ 適用范圍：面向文本知識和數據

　　√ 數據方面：要求具備一定的數據量

　　√ 知識內容：對知識的寬度、深度有要求，視具體業務情況

　　√ 要求數據標注：機器學習的前提，越多越好

　　√ 需要業務專家評估結果的準確性

　　√ 通用性較差：不同行業效果差異很大

　　√ 技術復雜：涉及業務、信息、網絡、人工智能、算法、圖形和大數據等多個方面

　　2. 知識圖譜面臨多方面的挑戰

　　（1）數據方面的挑戰：多源數據的歧義多、噪聲大，數據關聯性不明確

　　（2）算法挑戰：現有算法知識抽取準確性、算法性能和算法可解釋性的挑戰(各行業不一樣)

　　（3）基礎知識庫的挑戰：知識庫融合、垂直領域知識庫構建、基礎知識庫不開放

　　（4）開發工具的挑戰：全生命周期平臺的缺失、算法工具專家間人機協同需要提升、基于文本的知識圖譜構建工具性能弱、跨語言語系的挑戰、知識圖譜中間件缺乏

　　（5）隱私、安全方面的挑戰

　　（6）測試認證方面的挑戰

　　（7）商業模式與人才相關的挑戰

　　（8）標準化方面的挑戰

　　3. 工業領域文檔知識特點

　　知識圖譜在通用領域得到廣泛的應用與發展，但在工業領域的應用卻不是很多，這與工業領域的行業特點、專業性、保密性和復雜性有關。

　　（1）原始文檔知識數據龐大、格式繁多：知識獲取很復雜、技術難度高、成本高、時間長

　　（2）年增長速度很快、存儲分散

　　（3）專業性太強：與具體的場景關聯很強

　　（4）公開的工業知識庫很少

　　（5）保密性強：知識傳播、共享有限制

　　（6）專業學科多，知識應用復雜：通用性不強，成本高

　　4. 工業領域知識圖譜面臨的問題

　　與傳統通用領域不同，工業領域的知識圖譜在知識獲取、知識應用方面存在較大的困難，總結起來主要有以下幾點：

　　• 工業知識獲取技術難度高、投入大、周期長

　　• 小批量、小樣本下的知識圖譜如何生成

　　• 知識圖譜的準確度問題

　　• 與結構化數據的知識融合問題

　　• 缺乏標準化的知識圖譜平臺：任意擴展算法、語種、專業學科

　　• 自主可控問題

　　二、基于機器學習的標簽圖譜技術思路

　　1. 標簽的定義與意義

　　（1）標簽定義：是知識內容高度抽象、高度概括的具現化，是知識某個維度的特征。它具有豐富的含義和內涵，內容簡單、明了。

　　（2）標簽作用：分類、快速查找、快速了解、用戶畫像、產品畫像……

　　（3）標簽在工業領域中的意義：

　　• 具備常規標簽功效和能力

　　• 專業性：專業術語、詞匯、主題……

　　• 是工業知識圖譜基于知識運維模式的重要方法之一：標簽可以認為是關鍵詞、主題、事件

　　2. 標簽應用

　　標簽應用：非常廣泛，比如知識分類、信息關聯、用戶畫像、產品畫像、數據統計挖掘等。以客戶管理為例，客戶管理是制定六大目標的相關標簽體系，可以實現精確客戶營銷，產生最大客戶價值。

　　3. 標簽體系構建方法

　　（1）三大原則：

　　• 放棄大而全的框架，以業務場景倒推標簽需求

　　• 標簽生成自動化，解決效率和溝通成本

　　• 有效的標簽管理機制

　　（2）建立一個完整的標簽體系需要注重四點

4. 標簽示例

電商標簽體系示例

　知識三維標簽體系示例

　　5. 基于標簽圖譜的技術思路

　　（1）思路重點：標簽代替實體

　　（2）影響準確度的因素：

　　• 預處理結果質量

　　• 標簽實體識別

　　• 關系抽取

　　• AI算法優化

　　• 業務協同程度

　　（3）基于知識運維的知識圖譜特點：原始數據少、通過迭代逐步豐富數據、通過迭代校正圖譜中的錯誤、逐步把專家頭腦中的知識挖掘出來，特別注重人機協同。

　三、關鍵技術分析

　　1. 智能標簽技術

　　（1）技術要點：基于人工智能算法，從單個文檔里提取若干個內容特征詞作為文檔的內容標簽

　　（2）標簽目的：為下一步內容標簽實體處理、標簽實體關系和標簽應用提取做準備

　　（3）專業要求：

　　• 提供專業詞匯庫、術語庫、近義詞/同義詞庫可以提高專業性(必填項)

　　• 通過預設標簽和編碼，可以規范標簽名稱，縮小標簽范圍

　　• 通過預設關聯詞之間的關系和權重，可以精確語義理解，消除二義性

　　• 通過人工標注，可以提高準確性(可選項)

　　• 在標簽使用過程中，可以人工糾錯(類似人工標注，小樣本知識圖譜常用的手段)

　　2. 標簽關系抽取技術

　　• 常規知識圖譜要素：實體、關系、方向

　　• 標簽知識圖譜要素：與常規知識圖譜類似

　　√ 標簽=實體

　　√ 關系：按常規方法抽取

　　√ 方向：按常規方法抽取

　　√ 標簽圖譜類似關鍵詞圖譜、主題圖譜

　　√ 自動化：輔以人工標注(工作量小、簡單)

　　3. 標簽圖譜存儲與可視化技術

　　• 圖譜結構：三元關系，即對象A-關系-對象B

　　• 圖譜存儲：RDBMS數據庫或圖數據庫

　　• 圖譜檢索：以標簽為基礎，也可以是一段文字

　　• 可視化：ECHART圖表等，與具體的圖譜數據沒有直接關系，擴展能力強

　　四、典型應用案例分享

　　1. 基于試驗知識文檔的標簽知識圖譜需求

　　• 背景：

　　在某試驗單位試驗設計師的工作電腦上，存放著多年與試驗相關的參考文檔。雖然已對其進行初步分類，整理成多個分件夾和子文件夾，但有些文件夾下文檔比較多，而有些文件夾下僅有一個文檔，同時每年都在不停地更新，這會造成使用時的不便，我們可以將其歸納為以下幾點主要問題：

　　√ 麻煩：每次查找資料時不能一下全部找到，需要按文件夾逐層往下找

　　√ 效率低：每次查看文檔時，必須要打開文檔大概看一遍，才知道里面是否有想要的內容

　　√ 專業性不精確：與試驗相關的資料越來越多，專業性越來越強，文件夾命名已不能體現文檔的內容

　　√ 信息孤島現象嚴重：想要的內容分散在不同的文檔里，不能在多個文檔中快速找到想要的內容

　　• 需求：提供一個工具或方法，能快速解決上述問題

　　2. 試驗參考文檔分析

　　（1）源文檔分析

　　• 文檔總數：3500多篇

　　• 目錄個數：82個

　　• 二三級目錄有不少

　　• 多種文件格式：WORD、PDF、TXT

　　• 涉及專業比較寬：試驗、大數據、云計算、試驗件、試驗方案和試驗報告等

　　• 試驗相關的文獻占一半左右

　　（2）試驗類文檔分析

　　• 業務類：31個目錄，647個文獻

　　• 數據類：11個目錄，982個文獻

　　• 文檔分布不均：有的多，有的少

　　（3）技術思路

　　• 總體思路：采用基于機器學習的自動文檔標簽圖譜技術來解決

　　• 理由：

　　√ 文檔覆蓋面比較寬，但細分類的文檔數量太少，最少的僅有一篇文檔，不適合大規模知識圖譜技術

　　√ 文檔在不斷更新，但更新的數量不會很多

　　√ 使用者是業務專家，有足夠的資歷、能力來協助工人智能自動打標簽、生成知識圖譜

　　√ 使用者可以隨時糾正圖譜中的錯誤

　　• 主要步驟：

　　√ 文本預處理

　　√ 知識文檔語義化

　　√ 智能自動打標簽

　　√ 校正智能標簽準確性

　　√ 自動標簽圖譜

　　√ 校正標簽圖譜的準確性

　　• 預處理要點與結果展示：

　　√ 必須把文檔里的圖片、表格單獨抽取出來做特殊處理

　　√ 注意論文豎排版面格式

　　√ 表格里的數據需要單獨處理

3. 試驗知識文檔智能標簽

　　智能自動標簽：預設標準化的試驗標簽與編碼，由人工智能根據文檔內容來決定對標預設的標簽，通過多種標簽提取算法綜合分析來決定合適的標簽(默認前10個)。在試驗專業術語、詞匯、同近義詞輔助下，準確率高達90%以上。

　　4. 試驗標簽知識圖譜

　　（1）圖譜生成

　　基于中文語法、詞性和句子成分，采用先進、成熟的標簽實體關系抽取算法來抽取關系，標簽實體構成圖譜“三元”關系。　　

地面模型試驗圖譜示例

　　（2）準確性提升

　　• 試驗數據方面：

　　√ 試驗輔助詞庫：專業術語、同義詞、近義詞、關聯詞

　　√ 二義性消除：通過關聯詞權重規則

　　√ 擴大關聯詞范圍：人工給出小部分，大部分由人工智能給出，然后由人工確定是否選用為關聯詞

　　√ 通過專業工具對兩豎排排版的文獻進行單獨處理

　　• 技術方面：

　　√ 選用多種算法綜合比較分析，擇優選擇標簽并排序

　　√ 輔助人工標注、學習，提升準確性

責任編輯：梁菲來源：互聯網

人工智能機器學習知識圖譜

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一種基于機器學習的自動文檔標簽圖譜技術