微軟發布實驗性SpreadsheetLLM模型 幫助AI更好理解電子表格
微軟的研究人員近日發布了實驗性人工智能模型SpreadsheetLLM的詳細信息,這個模型是與Excel以及Google Sheets等電子表格配合使用的。
微軟在7月12日發表在Arxiv.org上的一篇研究論文中討論了該模型,模型旨在解決將AI應用于電子表格的挑戰,電子表格在商業世界中被廣泛使用,但事實證明電子表格很難被大型語言模型掌握。
據微軟研究人員稱,SpreadsheetLLM采用了一種新穎的方法將電子表格內容編碼為大型語言模型更容易使用的新格式,因此為這些模型“推理電子表格內容”鋪平了道路。
研究人員強調了對這個特定AI領域迫切的改進需求。電子表格用于各種任務,從簡單的數據輸入和分析到復雜的財務建模和決策,但現有的大型語言模型很難理解和推理電子表格的內容,問題在于電子表格中數據具有高度結構化的性質,此外還有復雜的公式和引用。
據報道,SpreadsheetLLM通過以更適合大型語言模型的方式對電子表格數據進行編碼來解決這個問題,這樣就可以更好地理解電子表格內容。
為此,研究人員制定了一種名為SheetCompressor的新型編碼機制,它保留了數據的結構和關系,同時使大型語言模型可以訪問它。SheetCompressor特別將數據壓縮高達96%,這樣大型語言模型就可以在其token限制內處理大型數據集。
研究人員還強調了另一個稱為“結構錨提取”的功能,可以識別定義表結構的關鍵行和列。同時,“倒排索引翻譯”是一種高效編碼單元格內容和地址以最小化冗余的方法,而“數據格式感知聚合”則有助于對以相似格式的單元格進行分組,從而進一步最小化token的使用。
研究人員在實驗中發現,SpreadsheetLLM在電子表格的表格檢測測試中取得了一些令人印象深刻的結果,比現有方法改進12.3%。此外,它在電子表格問答任務上也取得了突出的成績。
SpreadsheetLLM被應用于一系列知名的大型語言模型,包括GPT-3.5、GPT-4和Llama 2,測試表明,它顯著增強了這些模型在電子表格理解任務方面的能力。例如,GPT-4的表格檢測得分為78.9%。
研究人員表示,SpreadsheetLLM仍是一種實驗性的模型,在更復雜的電子表格格式方面存在一些局限性,但他們也相信它具有很大的潛力,例如,他們說該模型可以應用于諸如自動化常規數據分析等任務,以根據電子表格內容生成見解和建議。通過幫助大型語言模型理解電子表格、回答有關電子表格的問題,甚至根據自然語言提示創建新的電子表格,它為AI輔助數據分析和決策的新可能性打開了一扇大門。
SpreadsheetLLM 還可以幫助人類工作者更容易使用電子表格,因為很多人難以掌握Excel等工具更復雜的功能。使用電子表格的挑戰之一,就是需要學習復雜的公式來操作其中的數據,但SpreadsheetLLM可以幫助用戶使用自然語言命令來操作這些數據。
最后,研究人員表示,SpreadsheetLLM可以幫助對一些與電子表格相關的、更繁瑣的任務實施自動化,例如數據清理、格式化和聚合。
Constellation Research分析師Holger Mueller表示,這項研究意義重大,因為有許多業務都依賴于Excel電子表格。“微軟必須走在前沿,通過AI讓Excel電子表格更易于訪問。口頭訪問電子表格具有巨大的價值,無論是對于創建還是分析Excel文件來說。”
Mueller表示,AI還有可能使電子表格的使用變得普及,讓任何人都能輕松地使用電子表格。他預測說:“如果微軟能夠正確地做到這一點,那么不僅會確保Excel的未來,還會改變我們所知的工作方式的未來。”
目前,SpreadsheetLLM只是一個研究項目,微軟還沒有表示是否有計劃將其轉化為實際產品。但不難想象,這項研究可能會打造出某種“Copilot for Excel”。