Casetext如何使用人工智能為法律行業賦能

作者：學習中的Leo 2023-11-15 16:14:30

Casetext 目前在我們業務的許多領域都采用了人工智能技術，我們將繼續部署研究實驗室的最新進展。在Casetext，我們在系統設計方面的指導原則是讓人類和機器分別完成最適合的任務。

人類和人工智能——發揮各自的優勢

Casetext 目前在我們業務的許多領域都采用了人工智能技術，我們將繼續部署研究實驗室的最新進展。在Casetext，我們在系統設計方面的指導原則是讓人類和機器分別完成最適合的任務。通過在實踐中應用這一原則，我們的后端數據管道將人工智能驅動的過濾與人工專家審查相結合，我們的前端面向用戶的服務，如 CARA AI，會顯示最相關的信息，然后我們的用戶可以消化這些信息并用于制定論點。

CARA AI 是我們面向用戶的旗艦 AI 產品。關于其內部工作原理的討論值得單獨討論，但我們 Casetext 也在將 AI 整合到我們運營的更多領域，我們將討論我們在過去一年中使用 AI 的一些新領域。

類似問題

對于我們的類似問題功能，我們使用一種技術將一段法律文本轉換為高維向量——代表該段落的數字列表，可以將其視為坐標系內具有一定長度和方向的直線。在二維中，向量如下所示：

我們用來表示一段文本的向量的維數比二維多得多，但是，在這個高維空間中，我們用于操作二維向量的某些數學技術仍然成立。通過這些技術，相似的通道得到相似的向量表示，導致兩個相似通道的向量之間的角度很小，而兩個非常不同的通道向量之間的角度很大。對于給定的文本段落，將其稱為段落 A，我們的系統從整個法律中返回其他段落，其向量與段落 A 的向量的角度最小。

引用者

Citator 是 Casetext 對不再是良法的案件發出危險信號的系統。Casetext 可以以比我們的競爭對手低得多的價格提供準確的引用者，因為我們使用 AI 來過濾掉我們的律師審稿人不需要閱讀的新案件部分。在上訴法院或更高級別出現的每一個新案件都可能推翻先前的案件。我們不是讓律師閱讀每個案件的全部內容，而是讓我們的人工智能閱讀每個案件的全部內容，然后只將案件中有機會推翻另一個案件的部分傳遞給我們的律師。我們撒下了一張非常寬廣的網，并向我們的審稿人展示我們的人工智能模型認為哪怕是很小的機會包含壓倒性語言的任何段落。這意味著我們掃過許多沒有推翻的段落，這樣我們就可以抓住所有推翻另一個案例的段落。

我們的律師會審查模型選擇的每個段落，確定它是否確實推翻了另一個案件，然后記錄哪個案件被推翻了。這種人工智能驅動的方法不僅節省了大量人力，而且還提高了準確性。必須閱讀整個案例以尋找壓倒性語言的人工審稿人往往會掩蓋或遺漏關鍵信息。然而，我們的人工智能算法永遠不會感到疲倦或無聊，它們會閱讀每一段文本。我們已經看到過這樣的例子，我們發現了競爭對手遺漏的推翻案例，例如，推翻性的語言被埋藏在腳注中，而他們的人工審稿人必須跳過。

我們的人工智能在數千個推翻案件的例子中進行了訓練，在這些例子中，我們的律師手工突出顯示了案件中代表推翻裁決的特定語言。使用這個數據集，我們訓練了一個人工智能模型來區分推翻段落和非推翻段落。我們讓人類審查模型告訴我們的任何段落，哪怕只有一點點機會包含壓倒性的語言。隨著我們逐漸訓練出更準確的模型，我們已經能夠在不犧牲引用者的全面性的情況下逐步減少審稿人需要閱讀的段落數量。

這些是我們在過去一年中添加的人工智能應用。在下一節中，我將介紹最新的人工智能研究的狀況，以及未來一年的機會。

人工智能驅動的法律信息學的現狀

對于人工智能在法律行業來說，我們正處于一個非常激動人心的時刻。直到最近，人工智能在自然語言處理（NLP）方面的進步遠遠落后于計算機視覺方面的進步。

計算機視覺從2012年左右開始爆炸式增長的一個主要原因是，計算機視覺最有效的算法類型，即深度卷積神經網絡，適合遷移學習。遷移學習是一種技術，在這種技術中，首先對 AI 模型進行預訓練，以在大型數據集上針對特定任務進行預訓練，然后在小型數據集上針對不同任務進行微調。

神經網絡對數據的需求量很大——當您向它們提供更多訓練數據時，其他類型模型的性能會趨于平穩，即使有大量訓練數據，足夠大小的神經網絡也會繼續改進。然而，訓練數據通常需要人工標記——例如，如果你想訓練一個 AI 模型來識別圖像中的對象，你需要讓人類查看每個圖像，并用它所包含的對象的名稱標記每個圖像。人工貼標既昂貴又耗時。因此，在大多數業務情況下，可用的手動標記數據點相對較少。如果神經網絡必須在每個任務的小型數據集上從頭開始訓練，那么它們就不會像現在這樣有用。然而，事實證明，神經網絡在一項計算機視覺任務上所做的大部分學習也對其他視覺任務有用。

卷積神經網絡可以理解為逐漸變得更加復雜的模式識別器，它們相互堆疊。以下是計算機視覺神經網絡中漸進層識別的模式類型的可視化。該模型是在包含超過 100 萬張帶有標簽的圖像的公共數據集上訓練的。如您所見，第一層圖案是簡單的線條和漸變。下一層是由前一層的線條和漸變組合而成的紋理和基本形狀，第三層是由第二層的簡單形狀組合而成的更復雜的形狀。

許多形狀和紋理，當然還有線條和漸變，幾乎在任何視覺識別任務中都很有用。因此，一旦在大型數據集上訓練到能夠識別這些類型的模式，計算機視覺模型的下層就可以重新用于許多不同的視覺任務。使用這種被稱為遷移學習的技術，擁有少于 100 萬張標記圖像的人能夠在自己的計算機視覺任務中獲得出色的結果。

直到最近，遷移學習在自然語言處理中還不如在計算機視覺中有效。由于大多數與法律相關的人工智能任務都涉及自然語言處理，這一直是人工智能在法律中的應用的一個限制。

通過對預先訓練的詞向量（在大型文本語料庫上訓練的單詞的表示）進行遷移學習，取得了一些收益。詞向量于 2003 年首次提出，并于 2013 年通過一種稱為 word2vec 的重要技術進行了改進。Word2vec 看起來相當令人印象深刻——例如，從“國王”的向量中減去“男人”的向量，然后加上“女人”的向量，得到一個非常接近“女王”向量的向量。這些結果表明，詞向量技術正在捕捉單詞中的許多含義。

詞向量推動了該領域的發展，但未能實現計算機視覺中遷移學習所看到的那種結果。用預先訓練的詞向量替換單詞僅代表神經網絡第一層的遷移學習。第一層之外的所有層仍然必須從頭開始訓練，這限制了NLP中遷移學習的能力。

這一切都在 2018 年發生了變化，引入了可用于多層遷移學習的自然語言處理 AI 模型架構。基于過去幾年的進步，許多組件進入了這些模型架構。

2017 年，谷歌的一個研究小組發表了一篇題為《注意力就是你所需要的一切》的論文，該論文闡述了神經轉換器的架構——一種有效的方法，在決定輸出序列的每個部分時，通過“注意”輸入序列的關鍵部分來獲取輸入序列并輸出不同的文本序列。這種類型的架構最初被證明在機器翻譯中非常有用，但很快擴展到其他領域，因為它是迄今為止已知的創建整個句子長度文本序列的矢量化表示的最佳方式（而不僅僅是單詞，就像單詞嵌入一樣）。

2018年初，艾倫研究所（Allen Institute）和華盛頓大學（University of Washington）的一個研究小組推出了ELMo，這是一種用于創建多層上下文相關詞嵌入的技術。ELMo通過兩種方式改進了預先存在的單詞嵌入技術：1.它根據單詞的上下文為每個單詞的序列創建嵌入，而不是為每個單詞創建一組嵌入，而不管上下文如何。這使得“Will went to the store”中“Will”的嵌入與“Will you go to the concert？”中“Will”的嵌入不同。2. ELMo 單詞嵌入是從經過訓練的模型的許多層創建的，這些模型可以預測給定文本序列的下一個單詞，而不僅僅是從第一層創建，從而實現單詞的更穩健的表示。

同樣在 2018 年初，Jeremy Howard 和 Sebastian Ruder 推出了 ULMFiT，它引入了在 NLP 的整個模型上使用遷移學習的想法。這涉及在不需要人工標記的任務上預訓練整個模型（在本例中，預測單詞序列中的下一個單詞），然后在目標任務上微調模型。

在2018年末，所有這些想法與一些新想法一起被組合成由領先的NLP小組創建的各種模型類型。谷歌在 2018 年底發布了 BERT，OpenAI 在 2019 年初發布了 GPT-2。兩者都利用轉換器、上下文深度詞嵌入和對任務進行預訓練，而無需人工標記，然后對特定任務進行微調。兩者都取得了令人印象深刻的成果，在廣泛的 NLP 基準測試中取得了新的記錄。

谷歌通過使用這兩個任務，而不是預測序列中下一個單詞的常規任務，在沒有人工標記的情況下對預訓練進行了新的改變：

1. 在一個刪除了兩個單詞的句子中，BERT 被訓練來預測這兩個單詞是什么。

2. 給定兩個句子，BERT 被訓練以確定這些句子中的一個句子是否在一段文本中緊隨其后，或者它們是否只是兩個不相關的句子。

在 Casetext，我們使用了類似于 BERT 和 GPT-2 的技術來大幅改進我們的引用者過濾算法。結合這些新技術，我們可以將律師審稿人需要閱讀的段落百分比從所有新案件中的 10% 減少到僅 3%。我們的競爭對手有律師閱讀 100% 的案件。生產我們的 citator 所需的工時大幅減少，使我們能夠以比競爭對手低得多的價格提供 citator，而不會犧牲準確性。

責任編輯：華軒來源： AI技術和商業思維

人工智能法律

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Casetext如何使用人工智能為法律行業賦能

人類和人工智能——發揮各自的優勢

類似問題

引用者

人工智能驅動的法律信息學的現狀