成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NLP與知識圖譜的對接

大數據 數據可視化 知識圖譜
本文整理自中國中文信息學會常務理事、白碩博士在杭州金融知識圖譜論壇上的演講。

 

本文整理自中國中文信息學會常務理事、白碩博士在杭州金融知識圖譜論壇上的演講。

兩個問題

第一個問題是,為什么有人說“中文知識圖譜”,難道知識圖譜是有國籍的嗎?它是有母語的嗎?知識是無國界的,這個當然是理論上的說法。具體到一個國度,一個語言文化的大環境,我們就會發現,事實上知識是有母語的。理論依據就是所謂的 語言相對論 。可能大家最近都看了《降臨》,《降臨》講的就是語言相對論。一種思維方式、一種文化是被它的語言,它所操的母語所塑造。這是一個很重要的論斷,也正因為這個,在英語世界里搞得非常好的一些技術,到漢語的世界來,就有可能水土不服。這給我們提出的任務,就不止是一個移植、漢化的問題。實際上與 NLP 的對接,就是知識處理。與 NLP 對接的這一塊,任務比我們想象中重。語言的差距越大,親疏關系離得越遠,這個任務就越重。因為英語和德語之間不會那么費勁,法語跟意大利語之間也沒有那么費勁,但是英語跟漢語之間,可能就是要費勁的。這與語言相對論是同樣的道理。

第二個問題,知識圖譜與 NLP 對接是一個新問題嗎?這需要看我們從什么意義上講。

大數據

從學術意義上講,肯定不是一個新問題,這個問題我們早已有之。在知識圖譜不叫知識圖譜的年代,實際上自然語言處理的研究者們,就已經在研究如何表示自然語言的語義。自然語言的語義和具體的知識,具體的常識,具體的一些事實陳述之間,到底是什么樣的關系,也有不少研究。這里面我們暫且還不說這些具體的研究。知識抽取有很多經典性的工作,比如恐怖活動,恐怖事件這樣一個大的范疇,它里面一系列的環節,再比如兇殺案、恐嚇信。還有事件范圍更大的,比如總統選舉,它的選舉前期怎么樣,中期怎么樣,后期怎么樣,就不是一個事件而是一個話題了。作為自然語言的語義和作為知識的表示之間,是有著天然的聯系的。但是還不完全是一回事。因為語言有語言的單位,它敘述的單位,有它切入的視角。敘述單位和知識要把握的,一個大的場景要把握的單位之間,可能會有一個粒度不一樣的銜接。比如我們可能一句一句地說發生了什么事情,什么人死了,在什么地點,那么語義理解也是一句一句把它轉義為語義的表示。但是這個語義的表示,還不直接就是知識圖譜,還不直接就是那樣一個大的場景的描述。所以還要通過不同的蛛絲馬跡,通過不同外圍的描述,再去激發核心的大的場景,然后再往里面添一些相應的添項。以上是從學術觀點看。

從技術觀點看,它也是一個不新不舊的問題。不新不舊就是說它與過去是有很多銜接的。但是在新的形勢下,對技術也提出了一些新的要求。這些新的要求,也需要我們把它落地。具體到金融領域,我們也會看到確實是有一些新的要求,面對這樣一些要求,需要去把它們落地。

從產業來看則是一個新的問題。我們怎樣有效地把知識圖譜的資源和 NLP 的資源銜接起來。不久前,在一個微信群里面,有一位投資人說他想找這樣的資源,找這樣的人,找這樣的團隊合作,把 NLP 直接與量化投資結合,一起合作開發搞成一個系統。在我看來,這不是一個系統,這是好幾個系統了。系統之間是有銜接的,你不能說淘金的人,把賣水的生意都一塊做了,這是不行的。術業有專攻,有人擅長這個,你就讓擅長這個的人去做,有什么需求就給人家提,但你不要把大家都搞成一個系統,那就沒法玩了。這個說明了領域的產業分工,NLP 做哪一段,知識圖譜做哪一段,知識圖譜的應用做哪一段,這分別是幾個系統,分別由不同的人來提供。這個事情可能還是沒有形成一個穩定的業態導致的。因此需要我們大家一起來探索和努力。

模態算子

我現在介入一些比較專業的話題,模態算子。這個模態算子是什么東西,大家一看就知道的。因為我們在一些報道中,在一些關于產業、經濟發展的這種新聞報道中,以及各種各樣的公司公告和業績公告中,都會看到有這樣一些描述。這些描述是一個事實在前面加了一個東西,如果我們不認真對待或者說把它們忽略了,是會有問題的。

這個東西叫模態算子,它有幾種表達形式。

大數據

第一種表示 未然 ,就是說還沒發生,但是預計或者計劃,或者將要發生。我們看這樣一些例子,第一個,我們預計增產 15%,第二個是 準備 裁員 20%, 計劃 漲價 50%, 采購多少多少噸。如果我們把這些詞放過去了,那就可能錯把一個未然的東西,當成一個事實來處理。如果放到知識庫,那么這個沒有發生的事情,跟已經發生的事情攪在一起,你有一些推理能力的話,就會推出很多最后你自己都不相信的結果。所以怎么樣去處理未然?這里面我們提出的模態算子一類,在我們中文的這個語言學里面,算是計劃類。

大數據

第二類在陳述前面加了主觀的折扣或者表示分寸的東西。比如說我不認為有必要怎樣,這樣一個前綴,或者說傾向于暫緩什么,或者說堅信一定不會怎么樣。可能會用一些,就是副詞或者說一些表示認知的這樣一些詞,再進行什么樣的組合。這樣一種組合,它會把一個裸的陳述加上一些分寸感,一種主觀的過濾。這樣一些東西,我們也要注意,不能忽略。如果把這些前綴都忽略掉,然后把后面的被前綴約束的東西,當做一種事實陳述,然后再跟事實混在一起,無論是進行推理也好,進行問答也好,都可能會放大一些小概率的事情。

大數據

第三類是一些高階表述。我們在外交場合會見到一些高階表述的外交辭令。不幸的是,關于財經類的新聞報道中,也看到了這樣的表述。比如說對房價過快上漲的預期減弱,這里面對價格做了上漲的修飾,然后又對預期價格上漲這件事做了減弱 。對于這種套了好幾層的套路,是一些對高階導數的定性描述。我們怎樣去把它落到所謂的知識庫里面,也是一個問題。比如對去產能措施的成功充滿信心,還沒成功呢只是充滿信心,還沒有去產能,只是要采取一些措施。

如果我們去采集這樣一些數據,采集到的不全是客觀事實。因為除了陳述本身之外,還覆蓋了一些東西,到底是誰說的,說的是哪個世界的事,是現實世界的事還是我們未來世界的事,說的時候打了多少折扣,從里到外套了多少套路,這些都是我們需要關注的。如果不關注這些點,或者只去采認識的東西,就是采出一些裸事實來。如果不看這些裸事實外面套的外套,可能會有偏頗。

大數據

另一方面,這些不全是客觀事實的表述,它也有自己的意義。尤其是在金融領域,資本市場是最典型的,不管有沒有風,起浪就夠了。因為它造成的一些效果,在人的心理有投射,而這些效果會引發后面的一些動蕩和行為。不管這個東西是真是假,它引發行為總是真的。如果焦點恰恰在引發行為的這個分析上,那么有這個風,它的作用就會存在,我們就要分析它的作用。那么具體怎么分析呢?我們剛才說的這三類,一類是未然的,那它到底能不能變成已然,這里面是有它的主觀性在內的,是誰說的,來源是否可靠。其來源是否可靠,也對它從未然到已然的概率,會產生影響。所以這時候我們需要一些標簽把看到的模態算子變成標簽,比如說消息源的標簽,就緒度的標簽。第二類就是打了折扣的這些,我們就要根據這個折扣的分寸感,去給它標注相應的可信度的標簽。第三類是定性的導數,我們還要給它標變化率的標簽,比如表現率的定性曲直。通過這樣一些標簽,我們就能夠區分帶了模態算子帽子的陳述跟裸的事實陳述。這些標簽也可以在后期加以利用,我們把它叫做模態元數據。

如何使用模態元數據?

可以想到的三種方法,一種是分庫存放,隔絕推理。我推我的,事實跟事實在一起推,不是事實也許可能成為事實的,或者說有一定概率成為事實的或者怎么樣的,那些放到另外的地方另外推,這兩個互相不相往來。這樣分庫存放可以減少一定的混亂,但隔絕推理就可能會使我們失去了一些挖到更多知識的機會。

第二種方式就是混合存放,放開推理,這種其實也不好。因為它們長的也不一樣,性質也是有所區別的,如果全放在一起,放開推理的話,推出來的東西可能你就無法掌控。

我們推薦的是第三種,就是分庫存放。同時對推理有一定的控制,就不讓它放開了推。當然說是這么說,具體實施還是要注意到很多事情,我們這里就是從學術角度強調,有這樣一類陳述,這類陳述需要大家引起重視。那么一些路徑上的考慮先放在這兒,至于說怎么樣去實現,我們可以底下再做一些探討。

大數據

它能怎么用呢?比如說這個公司在不同的時間,會承諾未來做一些事情,它到底做的怎么樣呢?這個可以給進度,通過計劃最終給進度劃線,什么時候哪些東西的未然成為已然了,我們可以看它實現的情況。還有就是觀點聚類,那也就是說根據大家對同一件事情打的不同的折扣,我們可以給這樣一個人群的觀點的分布畫像,讓他知道誰是站在左邊,誰是站在右邊,誰是站在中間。我們還可以對趨勢進行一些定性導數的分析。

深層語言分析結果的對接

下一個話題,深層語言分析的結果如何與知識圖譜進行對接。

深層語言分析,傳統來說是把這個語言分成詞法、句法、語義三個層面,然后剩下的就是計入應用場景,語義也屬于應用場景的一部分。有一條線,線的左邊是語言,線的右邊是知識,實際上語義已經延伸到知識領域一小塊了,但場景基本都屬于知識這個領域,而還有一大部分語義,一大半句法,詞法的全部都是屬于語言這個領域的。從什么地方出發,來達到我們最終的目標,場景,會產生不同的技術路線。

大數據

最早是用詞袋來激活場景,在知識圖譜里面當時叫框架。從這兒就隔得非常遠,我們可以利用的信息就非常少。當然這個應用,如果說有一些非常限定領域的應用,出于效率的考慮,我們可以這樣用。那么基于模板往前了一步,它利用了一些淺層的句法,但是這個句法不夠深。不夠深的情況下,它再進一步,就離場景近了一點,但是實際上它還是有一些信息沒有捕捉到,或者有一些結構性的關鍵信息沒有捕捉到。因為沒有捕捉到,所以這里面還是有一些失誤,或者說不夠精準的情況。利用句法分析去做,可以用所謂的 SVO, 就是主謂賓語言上的一個簡寫。去找這種主謂賓的搭配,然后利用主謂賓的組合這種深層的信息,跟相應的一些場景里面的知識圖譜也好,什么樣的表示也好去對接。SVO 也有它的一個位置,在上圖我們畫星星的地方。它除了采用深層的句法之外,還采用了一定的語義特征,我們叫次范疇語義特征,這個深層句法加上次范疇語義特征能干的事,又比這個又多一點。現在這種對接的效果,我們看它處的位置跟我們的場景距離就比較短了,它能夠利用的一些結構性的信息就更多了。

說到這兒,我想說一個產品,小孩拿到了一個新機器人,很高興跟機器人對話玩。小孩說,你給我講個故事吧,然后機器人從故事庫里面挑一些故事就開始講了。小孩挺高興,但是過一會,他表現欲很強,就跟機器人說,那我給你講個故事吧。機器人不懂,以為是讓他講故事,又開始講。是“我給你”還是“你給我”這個事情沒有搞明白。可以肯定,它是基于模板來做的,可你要考慮一下語序這個事情,至少你這個技能就不會是單打一的出來,一定是成對的或者怎么樣出來。正因為它不是成對出來的,所以我們可以很有信心的說,他們是基于模板的技術。基于模板里面就是說,我給你,你給我這個語序的信息,它是沒有捕捉到的。

在證券市場里,買賣,在銀行里面借貸,包括我們生活當中的娶嫁,都存在一個相對關系,一個講一個聽。你賦予它講故事的能力,如果說同時能夠因為語義上的關聯,賦予他一個傾聽的能力,不是更好嘛。所以這個是我們從這里面看到的,基于模板的對接。

SVO 的局限

那么 SVO 會出現什么問題呢?它會出現這樣的問題:比如說一個公司增長率超過了 15%,然后另一個場景表示,它的增長率是超過了聯想(公司)。這都是主謂賓,賓語是放在不同地方的,說明我們知道誰跟誰有關系,但是關系的性質其實是不一樣的,而這個是一個細粒度才能區分,只從 SVO 區別不了這件事情。為什么區別不了?因為超過了聯想的意思是以聯想為對標,在這個增長率上,是超過了聯想的那個增長率。

大數據

我們的做法就是深層 parsing,這里面我們看底下那行,這一行就是語義次范疇,那個 Cat 還是句法的范疇,這個 Subcat 就是語義次范疇。那么在這里面,我們就看到有一個做法,就是腦補。把聯想順著桿往下滑,從一個組織滑到一個組織的某項指標,然后在某項指標的數值,用這種方法順著桿滑下來,然后從不可比就變成可比了。其實我們提出語法分析的過程,不僅能分析我們金融領域比較實用的句子,還能分析看起來老大難的句子。

比如說“這個問題老張的處理方法我有意見”,這句就不是常規的用法,而是賓語提前的用法。這種賓語提前的用法,就是說處理的,處理的是問題,辦法是處理的辦法,意見是對辦法的意見。像這樣一些名詞,按說都是不挖坑的,但是我們這里是要挖坑的,而且要有其他的名詞給它填坑,甚至是動詞給它填坑,那么這樣復雜的過程,我們也可以做,比如說用線圖的方式去表達這個分析的結果,或者用平面圖的方式去表達這個分析的結果,這都是可以做的。

大數據

最后我們簡單說一下自然語言當中的風格選擇問題。大家看這個就知道了,實際上我們很多的地方,每一個零件都是可替換的,而替換的不同選擇反映了風格。風格反映了聽說對方的關系,反映了說話人的性格特征和情緒狀態。

知識圖譜跟自然語言的對接,知識圖譜自身的推理需要有一個共同的中間站,我們比擬的說法,虛擬的說法,它是圖譜操作的系統,這可能是需要的。

責任編輯:張燕妮 來源: 36大數據
相關推薦

2023-04-26 06:22:45

NLPPython知識圖譜

2021-01-18 10:50:29

知識圖譜人工智能深度學習

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2021-01-25 10:36:32

知識圖譜人工智能

2017-03-06 16:48:56

知識圖譜構建存儲

2025-06-03 15:00:04

2025-06-06 01:00:00

AI人工智能知識圖譜

2024-10-08 10:37:12

語言數據自然語言

2024-09-02 10:13:54

2025-06-05 02:00:00

人工智能知識圖譜AI

2025-06-09 09:10:26

2024-06-03 07:28:43

2025-06-05 09:09:50

2025-06-03 06:03:06

2022-03-01 15:14:36

圖數據庫知識圖譜

2022-08-11 14:11:14

知識圖譜人工智能

2025-04-18 12:49:58

知識圖譜大模型人工智能

2025-06-09 03:00:00

人工智能AI知識圖譜

2017-05-04 13:18:18

深度學習知識圖譜
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91大片| 男女羞羞视频在线免费观看 | 成人在线精品 | 欧美日韩在线看 | 亚洲欧美激情精品一区二区 | 天天操天天干天天爽 | 国产综合久久久 | 日韩在线看片 | 亚洲天堂av在线 | 男女羞羞视频免费看 | 91精品久久久 | 北条麻妃国产九九九精品小说 | 一区二区免费看 | 国产成人精品一区 | 国产精品99久久久久久久久久久久 | 成年免费大片黄在线观看一级 | 国产成人精品一区二区三区在线 | 日本成人中文字幕在线观看 | 91视频导航 | 一区二区三区四区五区在线视频 | 九九热精品视频 | 91免费福利视频 | 91亚洲国产成人精品一区二三 | 一区日韩 | 福利片在线观看 | 精品久久久久久久久久久久 | 亚洲精品综合一区二区 | 日韩一区二区三区四区五区 | 成人午夜激情 | 午夜成人在线视频 | 中文字幕一区二区视频 | 天天曰夜夜操 | 国产精品欧美一区二区三区 | 国产精品高潮呻吟久久av野狼 | 欧美精品一区在线发布 | 羞羞的视频免费观看 | 亚洲国产成人精品女人久久久 | 日韩欧美国产一区二区三区 | 五月天婷婷激情 | 美女福利视频 | wwwww在线观看|