OpenING:用于評估開放式交錯圖文生成的綜合基準 原創
摘要
多模態大型語言模型(MLLMs)在視覺理解和生成任務中取得了顯著進展。然而,生成交錯的圖文內容仍然是一個挑戰,這需要集成多模態理解和生成能力。盡管統一模型的進展提供了新的解決方案,但現有基準由于數據規模和多樣性的限制,不足以評估這些方法。為了填補這一空白,我們引入了 OpenING,這是一個綜合基準,包含 56 個真實世界任務的 5400 個高質量人工標注實例。OpenING 涵蓋了旅游指南、設計和頭腦風暴等多樣化的日常場景,為挑戰交錯生成方法提供了強大的平臺。此外,我們還提出了 IntJudge,一種用于評估開放式多模態生成方法的判斷模型。通過新穎的數據管道訓練,我們的 IntJudge 與人類判斷的一致率達到 82.42%,比基于 GPT 的評估器高出 11.34%。在 OpenING 上的大量實驗表明,當前的交錯生成方法仍有很大的改進空間。我們還提出了關于交錯圖文生成的關鍵發現,以指導下一代模型的開發。
1. 引言
基于大型語言模型(LLMs)[1,64,65,67] 卓越的理解和生成能力,多模態大型語言模型(MLLMs)在各種任務中取得了進展 [5,42,84,87,91]。然而,生成交錯的圖文內容仍然具有挑戰性 [37,63,71],盡管它在研究和應用中都扮演著重要角色(例如,多模態推理 [11,46]、教育 [17,36] 和設計 [34,59])。由于人類大腦可以自然地結合視覺和文本信號以實現更高效的信息交換 [25,31],實現這種集成能力對于向通用人工智能(AGI)邁進至關重要。
如圖 1 所示,結合理解和生成能力的統一模型的出現為交錯圖文生成開辟了新的可能性 [79,96]。然而,缺乏可靠的基準來評估交錯生成仍然是一個障礙 [62,71]。大多數現有基準分別評估文本或圖像輸出,未能捕捉到同時生成兩者的復雜性 [44,61,85,86]。像 OpenLEAF [4] 和 InterleavedBench [43] 這樣的交錯基準在規模、范圍和查詢多樣性上都有限。例如,InterleavedBench 僅包含來自 VIST [32] 和 WikiHow [83] 等公共數據集的 10 個任務的 815 個實例。這些基準不能充分反映現實世界的需求,并且容易受到數據污染 [78]。
圖1. 研究動機:(a) 圖文交錯生成技術的快速發展;(b) 交錯內容對于現實復雜任務(如產品設計)的關鍵信息供給具有不可替代性。
為了填補這一空白,我們引入了 OpenING,這是一個用于評估開放式交錯生成的綜合基準。與以往的基準不同,OpenING 提供了更廣泛的真實世界數據和任務(例如,頭腦風暴、推薦和內容創作),這些數據和任務源自時尚、烹飪和旅游等日常場景。如圖 2 和表 1 所示,精心策劃的 OpenING 包含 23 個元主題和 56 個任務的 5400 個多步驟交錯圖文內容實例,以及針對各種主題的多樣化、精心設計的查詢。為了應對從不同領域收集和標準化數據的挑戰,我們開發了一個高效的標注管道,并生成了高質量的人工標注數據,降低了數據污染的風險。
圖2. OpenING基準測試框架包含23個元主題(內環),并進一步細分為56項具體任務(外環數字標注任務量,詳見補充材料)。示例展示了八個代表性領域的交錯生成效果。
此外,許多先前的基準依賴于基于 GPT 的評分指標 [4,43],這些指標容易受到 GPT 模型固有偏差和 API 使用中潛在數據泄露的影響 [72]。為了克服評估開放式多模態生成的挑戰,我們引入了 IntJudge,一種強大的判斷模型。我們還提出了 Interleaved Arena 來促進訓練數據的標注,以及參考增強生成(RAG)方法來擴展數據規模。通過這種增強的數據管道訓練,IntJudge 與人類判斷的平均一致率達到 82.42%,比作為判斷器的 GPT-4o 提高了 11.34%。
我們使用 OpenING 評估了代表性的交錯生成方法。實驗的關鍵發現包括:1)生成連貫和高質量的交錯內容對所有模型來說仍然具有挑戰性,而人工標注的內容始終比生成的內容獲得最高評分;2)集成管道(例如 Gemini+Flux)在圖文連貫性和視覺質量方面優于端到端模型(例如 Anole),這可能是由于更發達的基礎模型;3)盡管 GPT 生成的文本答案可能比人工標注的答案更具信息量,但人工標注的自然圖像仍然比生成的圖像更受歡迎,這凸顯了高質量圖像生成的挑戰。本文的主要貢獻總結如下:
?高質量基準:我們提出了 OpenING,這是一個用于評估開放式交錯圖文生成的綜合基準。OpenING 包含 56 個真實世界任務的 5400 個人工標注實例,旨在挑戰和改進交錯生成方法,并支持開發用于評估開放式多模態生成的判斷模型。
?強大的判斷器:我們引入了 IntJudge,一種用于評估交錯生成方法的判斷模型。我們使用增強的數據管道訓練 IntJudge,與人類判斷的一致率達到 82.42%,顯著優于基于 GPT 的判斷器。此外,IntJudge 已被證明在評估新的未知模型方面有效。
?綜合排行榜:我們提供了交錯生成方法的詳細排名和分析,并比較了 IntJudge 和 GPT-4o 評估與人類判斷的結果。我們的發現表明,盡管當前的開源端到端模型落后于集成管道,但具有統一架構的端到端和兩階段生成器表現出巨大潛力,值得進一步探索以推進交錯圖文生成。
2. 相關工作
2.1 交錯圖文生成
MLLMs 的發展極大地推動了交錯圖文生成 [35]。早期的模型如 Stable Diffusion [20,53]、DALL?E [52] 和自回歸(AR)方法(如 VAR [66] 和 Lumina-mGPT [41])專注于單向任務,如圖像理解和文本到圖像生成。Flamingo [2] 是第一個處理交錯圖文內容的 MLLM。最近的模型,如 MiniGPT-5 [92] 和 SEED 系列 [23,24,81],通過結合基于 AR 的文本生成和基于擴散的視覺生成來實現交錯生成。像 Emu3 [71] 和 Chameleon [63] 這樣的原生 AR 模型提供了一個統一的框架來生成和推理混合模態文檔。Anole [16] 通過在交錯圖文數據上進行高效微調,再現了 Chameleon 的圖像生成能力。然而,評估交錯圖文生成的基準仍處于早期階段。先前的工作,如 OpenLEAF [4] 和 InterleavedBench [43],專注于一小部分主題,缺乏現實應用所需的深度和廣度。為了實現對交錯生成更可靠和全面的評估,我們基于全面的現實場景提出了 OpenING。
2.2 開放式多模態生成的評估
評估開放式多模態生成本質上具有挑戰性,因為需要評估開放領域的視覺和文本質量 [4,56,74]。現有的文本生成指標,如 BLEU [49] 和 ROUGE [39],在衡量視覺質量和圖文連貫性方面存在不足。相反,視覺質量指標如 FID [30] 和 IS [54] 缺乏對文本元素的考慮。對比指標,如 CLIPScore [29],可以測量圖文對齊,但無法充分評估開放式交錯內容的質量,因為開放式交錯內容可能存在多個正確答案。基于 GPT 的評分 [43,89] 提供了改進的測量方法來評估交錯輸出的多樣性和連貫性。然而,GPT 往往存在偏差,偏愛自己生成的內容 [6,72]。人類評估雖然可靠,但由于其繁瑣的性質,無法擴展。為了填補這一空白,我們引入了 IntJudge,這是一種在評估開放式多模態生成時與人類判斷高度一致的判斷模型。為了減輕主觀評分的不穩定性 [14,93],我們的 IntJudge 通過在競技場式框架 [38] 中進行成對比較來評估模型。
3. OpenING 基準
3.1 問題定義
交錯圖文生成任務涉及根據給定的提示生成文本和圖像的序列。每個交錯生成模型(稱為多模態代理)接收一個輸入提示 P,該提示可以是純文本或包含文本和圖像。多模態代理輸出一個交錯圖文序列:S=[s_{1}, s_{2}, ..., s_{N}],其中 N 是步驟數。步驟 i 中的每個元素s_{i}=由文本段T_{i}和圖像I_{i}組成。每個s_{i}是基于提示 P 和所有輸出歷史生成的,即s_{i}=f(P, s_{1}, s_{2}, ..., s_{i-1}),其中 f 表示代理的生成函數。目標是找到最優的輸出序列集S^{*}:
其中,每個步驟中的s_{i}^{*}在語義上與輸入提示一致,同時在整個序列中保持連貫性。代理的性能根據生成的 S 滿足預定義標準的程度進行評估。
3.2 數據策劃
由于高質量數據的稀缺,收集和標注交錯圖文數據具有內在的挑戰性。從不同領域收集和配對多模態數據并確保一致性尤其困難 [82]。我們用了三個月的時間創建了 OpenING,近 50 人參與了一個高效的管道,如圖 3 (a) 所示。
圖3. 數據構建與評估流程總覽:(a) OpenING基準采用自上而下的構建方式,包含概念化、數據收集、標注、過濾和處理五個階段;(b) 使用OpenING開發集訓練IntJudge評估器,并在測試集上對比評估圖文交錯生成任務,將IntJudge與人類評估員及GPT-4o進行性能對比。
3.2.1 主題概念化
在多個 AI 代理的協助下,我們集思廣益,確定了需要交錯圖文生成的最相關的現實世界場景。這些見解被概念化為 23 個元主題,并劃分為 56 個具體任務。
3.2.2 數據收集和標注
交錯圖文數據來自 20 多個來源,包括社交媒體(如小紅書)、視頻分享網站(如 YouTube)、搜索引擎(如 Google)和開放數據集平臺(如 OpenDataLab [28])。完整的數據源列表在補充材料中提供。為了確保最高的數據質量,28 名專業標注員在 14 名數據專家的監督下進行了貢獻。他們使用我們開發的 IntLabel 工具進行高效的人工標注。標注內容被組織成標準格式,每個實例限制為十個步驟,以避免上下文約束的潛在破壞。
3.2.3 數據過濾和質量控制
我們與標注員和數據專家進行了交叉檢查,以確保每個實例的一致性、相關性和連貫性。每個任務需要包含多樣化的來源和主題。在數據獲取復雜的情況下,指示標注員用 GPT-4o [48] 和 Stable Diffusion XL [51] 生成的內容補充數據集。為了進一步提高數據質量,提出了專屬協議來過濾不合格的數據。合格的數據隨后被重新分配到各個任務,以達到所需的數量。
3.2.4 數據處理
進行后處理以確保我們基準的語言一致性。使用 GPT-4o API 將標注的中文文本翻譯成英文,然后由數據專家審查準確性。我們還實現了圖像翻譯,將圖像中的任何漢字轉換為英文。最后,為每個任務優化提示,以實現所需的生成結果,詳細信息見補充材料。
3.2.5 數據集劃分
如圖 2 所示,我們的 OpenING 基準最終包含 5400 個標注實例,涵蓋 23 個不同的元主題和 56 個任務。OpenING 的標注實例分為開發集(3240 個實例)和測試集(2160 個實例)。開發集支持判斷模型的訓練,測試集用于評估不同模型的零樣本性能。
4. IntJudge 模型
4.1 交錯競技場
由于評估多個圖像和文本的復雜性以及生成的開放性(一個查詢可能有多個有效答案),評估開放式交錯圖文生成具有挑戰性。鑒于成對比較比主觀評分更穩定 [14],我們引入了 Interleaved Arena,在其上使用三個評估器進行成對評估:人類判斷器、基于 GPT 的判斷器和提出的 IntJudge。
在 Interleaved Arena 中,來自代理在 OpenING 測試集上的交錯輸出以統一格式保存。在每個評估輪次中,判斷器比較兩個匿名代理的輸出,并根據七個標準對交錯輸出進行評分:正確性、圖文連貫性、多步驟一致性、內容質量、人類偏好對齊、完整性和內容豐富度(詳細信息見補充材料)。為了平衡評估的可靠性和效率,我們提出了一種輪盤匹配算法來為每個數據實例采樣 E 個不同的戰斗對。
設 κ 表示任務集,M 表示競技場代理集。每個任務k \in K有D_{k}個數據實例。通過隨機打亂代理順序采樣一個排列\sigma_{k} \in A_{|M|},其中A_{|M|}是所有代理排列的集合。采樣的戰斗對集合為:
\mathcal{P}_{k}=\left\{\left(\sigma_{k}(i \bmod |\mathcal{M}|), \sigma_{k}((i+1) \bmod |\mathcal{M}|)\right)\right\}, \quad(i=1,2, \ldots, D_{k})
可能需要執行額外的采樣輪次以獲得每個數據實例的 E 個不同戰斗對,其中E \leq|M|(|M|-1)/2。為了避免重復,在第 d 輪維護一個集合R_{k,d},存儲先前輪次中采樣的所有唯一對:
\mathcal{R}_{k, d}=\bigcup_{j=1}^{d-1}\left(\sigma_{k, j}(a), \sigma_{k, j}(b)\right)
對于當前對\sigma_{k,d}(a)和\sigma_{k,d}(b),我們強制:
\left(\sigma_{k, d}(a), \sigma_{k, d}(b)\right) \notin \mathcal{R}_{k, d} \text { ??” } \sigma_{k, d}(a) \neq \sigma_{k, d}(b)
在均勻分布的假設下,我們定義覆蓋時間T_{k}以確保所有代理在任務 k 中得到評估:
T_{k}=\left\lceil\frac{|\mathcal{M}|(|\mathcal{M}|-1)}{2 E} \cdot \frac{D_{k}}{\left|\mathcal{P}_{k}\right|}\right\rceil
總體預期覆蓋時間為:
E[T]=\frac{|\mathcal{M}|}{2} \cdot H_{|\mathcal{M}|}=\frac{|\mathcal{M}|}{2} \cdot\left(\sum_{i=1}^{|\mathcal{M}|} \frac{1}{i}\right)
其中H_{|M|}是第 | M | 個調和數。
4.2 判斷管道
4.2.1 人類判斷器
在人類判斷器中,標注員為每個輸入提示比較兩個多模態代理的輸出,并根據七個預定義標準選擇獲勝者。投票結果用于根據獲勝率對交錯生成方法進行排名。由于先前的研究 [14,93] 指出過多的平局會導致效率低下,我們的標注員被指示在平局情況下傾向于一個代理,根據輕微偏好標記為 Tie (A) 或 Tie (B)。
4.2.2 基于 GPT 的判斷器
為了實現可擴展性,我們使用 GPT-4o 自動化評估過程。提示 GPT-4o 分析交錯輸出并決定每個戰斗對的獲勝者。此外,我們使用額外的提示獲得分數分解和解釋。盡管這種策略允許可擴展和可解釋的評估,但基于 GPT 的判斷器由于其先驗偏差和與人類偏好的不一致,仍然具有較高的錯誤率。GPT 還引發了隱私、數據泄露和成本問題。
4.2.3 IntJudge
為了解決基于 GPT 的評估器的問題,我們提出 IntJudge 以提高評估準確性和與人類偏好的一致性。作為離線判斷器,IntJudge 提供高效的大規模評估,具有一致的標準,確保基準測試交錯圖文生成的公平和可重復結果。在探索了包括 InternLM-XComposer2.5(InternLM-X2.5)[88] 和 Qwen2-VL [69] 在內的多個 MLLMs 后,我們選擇 Qwen2-VL-7B 作為訓練 IntJudge 的基礎模型,在效率和準確性之間實現了最佳平衡。
4.3 IntJudge 的訓練
為了增強 IntJudge 的訓練,提出了參考增強生成(RAG)方法來擴展訓練數據集。如圖 3 (b) 所示,我們的 IntJudge 模型在開發集的人工標注成對數據和 RAG 對的組合上進行訓練。在我們的 RAG 方法中,向模型提供來自開發集的真實世界黃金答案,并提示模型基于這些黃金答案生成響應。成對數據通過將普通生成結果與基于 RAG 的輸出配對形成,其中 RAG 結果被指定為獲勝者。使用包括可見交錯生成方法在內的模型集合進行普通生成和 RAG。訓練目標定義為:
\mathcal{L}_{\text {total }}=\lambda_{1} \mathcal{L}_{C E}+\lambda_{2} \mathcal{L}_{C T}+\lambda_{3} \mathcal{L}_{M S E}+\lambda_{4} \mathcal{L}_{P R}
其中,\lambda_{1}、\lambda_{2}、\lambda_{3}和\lambda_{4}是權重系數,L_{CE}、L_{CT}、L_{MSE}和L_{PR}分別是交叉熵、對比、均方誤差和成對排序損失。訓練后的 IntJudge 在零樣本設置下對未知和已知模型進行測試,以驗證其泛化能力。
5. 實驗
5.1 實驗設置
5.1.1 模型
我們評估了 10 種代表性的交錯方法,分為三類:1)集成管道結合獨立的文本和圖像生成模型,例如 GPT-4o+DALL?E-3 [8,48] 和 Gemini1.5+Flux [9,64];2)兩階段生成器,如 Emu2 [60]、SEED-X [23] 和 Show-o [79],具有統一的模型架構,但分兩個階段生成文本和圖像;3)端到端生成器在單一階段生成圖文內容,此類模型包括 GILL [35]、NExT-GPT [75]、MiniGPT-5 [92]、SEED-LLaMA [22] 和 Anole [16]。我們將 GPT-4o+DALL?E-3、Anole、SEED-LLaMA 和 NExT-GPT 作為未知模型用于 IntJudge 驗證,其余模型在 IntJudge 訓練中可見。
5.1.2 評估指標
模型性能使用兩個關鍵指標進行評估:獲勝率和一致性。獲勝率表示模型在成對比較中獲勝的頻率。處理平局的四種方法包括 1)強制劃分平局(FDT):我們通過規則和提示強制判斷器在比較輪次中產生決定性結果。如果平局傾向于模型 A(Tie (A)),則 A 獲勝,B 同理。該指標允許清晰的排名,無歧義。2)無平局(w/o Tie):排除平局比較,僅考慮有明確獲勝者的比賽;3)平局計為 0(w/Tie (0)):包括平局,但不計入任何模型的獲勝次數;4)平局計為 0.5(w/Tie (.5)):每個平局為兩個模型各貢獻 0.5 次勝利。一致性衡量不同評估器(如自動化管道和人類判斷)在相同平局處理策略下的一致性,反映評估器在評估中達成一致的頻率。
5.2 總體評估
5.2.1 三個判斷器的評估
我們進行實驗,使用獲勝率和一致性指標評估不同模型的性能。表 2 展示了各種模型在不同判斷器方法(包括人類、基于 GPT 和基于 IntJudge 的評估)下的獲勝率。采樣輪次 E 設置為 2,形成 4320 個戰斗對。發現像 GPT-4o+DALL?E-3 和 Gemini1.5+Flux 這樣的集成管道無論評估器如何,始終優于其他模型,而端到端模型如 MiniGPT-5、GILL 和 NExT-GPT 表現較差。
5.2.2 成對模型性能
人類、GPT-4o 和 IntJudge 評估的成對比較結果如圖 5 所示。熱圖表示勝負關系,較暖的顏色表示較高的獲勝率,較冷的顏色反之。值得注意的是,GPT-4o+DALL?E-3 和 Gemini1.5+Flux 取得了最強的獲勝率,它們的生成甚至在 GPT 評估下可與人工標注輸出媲美。
5.2.3 純文本和純圖像評估
為了探索文本和圖像對模型性能的影響,我們在相同的采樣對上使用純文本和純圖像輸出評估模型。圖 4 顯示,MiniGPT-5 和 GILL 表現不佳主要是由于其文本輸出質量低。SEED-X 和 NExT-GPT 在純文本評估中獲得較高的獲勝率,但生成圖像的低質量限制了它們的排名,如表 2 所示。GPT-4o 生成的文本甚至優于人工標注內容,展示了其卓越的語言能力。
5.2.4 基于 GPT 的評分
圖 6 展示了基于 GPT 的評估,提供了不同模型的可解釋性能分析。GPT-4o+DALL?E-3 在交互式圖像編輯和具身 AI 任務等元主題中表現不佳,可能是由于這些類別中的訓練數據有限。GPT-4o 還對自己的輸出表現出偏差,在人類偏好對齊方面給它們打 10 分,而人工標注響應的平均得分為 9 分。
5.2.5 與人類的一致性
表 3 顯示了不同評估器與人類判斷的一致性,我們將隨機猜測(Random)作為基線。結果表明,IntJudge 與人類判斷的一致性通常更高(FDT 中為 82.42%),相比之下基于 GPT 的評估(FDT 中為 71.08%),表明其在可擴展評估交錯圖文生成方面的潛力。
5.3 消融研究
5.3.1 采樣大小的影響
我們評估了樣本大小對評估穩定性和可靠性的影響。圖 7 展示了不同采樣大小下獲勝率的趨勢。隨著樣本大小的增加,獲勝率趨于穩定,進一步增加時變化最小。這種穩定性表明我們的 4320 個戰斗對的采樣數量能夠支持穩健的評估結果。
5.3.2 判斷器訓練數據的影響
我們研究了納入 RAG 數據對 IntJudge 性能的影響。在兩種訓練配置之間進行比較:一種僅使用競技場數據(6014 個樣本),另一種使用 RAG 數據增強(25982 個樣本)。如圖 8 所示,納入 RAG 數據后,未知模型的 FDT 一致性提高了 7.8%,證明了我們基于 RAG 策略的有效性。
5.3.3 圖像生成器的影響
我們從所有任務中采樣 200 個數據實例,評估圖像生成器對交錯性能的影響。表 4 比較了與不同圖像生成器配對的基本文本生成方法。結果表明,圖像生成器極大地影響了交錯生成的質量。例如,當文本模型與 Flux-dev 配對時,性能顯著提高。還注意到,盡管 Flux-dev 的圖像質量優于 Flux-schnell,但其生成效率較慢。
5.4 分析與討論
5.4.1 錯誤分析
對 200 個實例的錯誤分析顯示,與人類相比,三種類型的模型表現不佳,如圖 9 所示。GPT-4o+DALL?E-3 遭受內容不一致和不連貫的問題,可能是由于 DALL?E-3 生成相同風格多個圖像的能力有限。圖像質量差是 Anole 面臨的主要問題,這可能歸因于圖像生成微調數據的有限。盡管大多數 SEED-X 輸出包含多種錯誤,但缺乏文本或圖像內容仍然是主要問題。
5.4.2 無圖像、無文本比率
表 5 列出了無圖像、無文本和無圖文的比率,表明模型未能生成視覺內容、文本內容或兩者的實例比例。人類、GPT-4o+DALL?E-3 和 Gemini1.5+Flux 的失敗率接近零(排除政策限制的敏感情況),表明它們一致的多模態生成能力。像 SEED-X 和 NExT-GPT 這樣的模型顯示出高無圖像比率,可能是由于它們較差的指令遵循和生成能力。這些發現表明,模型要在 OpenING 上獲得高排名,其生成的交錯內容必須在圖像和文本上都具有高質量。
5.4.3 發現與討論
我們討論實驗中的關鍵發現,以啟發未來的工作:1)所有生成模型在交錯生成中的排名均低于人類。統一的端到端模型明顯落后于結合更發達基礎模型的集成管道,統一的兩階段生成方法也需要進一步改進。2)自然圖像始終優于生成圖像,表明高質量圖像生成的重大挑戰。3)GPT 生成的文本質量可與人工標注文本媲美甚至超越,展示了 LLMs 在生成豐富信息文本內容方面的有效性。4)圖像生成對交錯生成有很大影響,當文本模型與更先進的圖像模型配對時,交錯內容的質量顯著提高。5)大規模數據對訓練判斷模型至關重要,通過擴展數據超越手動標注,我們的 RAG 方法有助于訓練更強大的判斷模型。
6. 結論
我們引入了 OpenING,這是一個用于評估開放式交錯圖文生成的綜合基準。OpenING 通過覆蓋更廣泛的多樣化數據和基于現實場景的任務,解決了現有基準的局限性。為了更好地評估開放式多模態生成,我們提出了 IntJudge,這是一種在 OpenING 開發集的人工標注和基于 RAG 的數據上訓練的強大判斷模型。預計我們的 IntJudge 可以作為未來基于 RL(如 GRPO)的生成模型的獎勵模型。在 OpenING 測試集上對各種交錯生成方法的評估揭示了生成連貫和高質量交錯圖文內容的挑戰。消融研究重申了我們基于 RAG 的數據管道對訓練 IntJudge 的有效性。展望未來,擴展交錯生成基準的規模和多樣性可以釋放更大的現實世界潛力和影響。我們期待 OpenING 激發 MLLMs 的未來研究,并受益于多模態評估模型的發展。
本文轉載自公眾號AIRoobt ,作者:Pengfei Zhou等
原文鏈接:??https://mp.weixin.qq.com/s/c3gwrH5X9k7AyCoHG5gfMA??
