成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華教授歐智堅專訪,深度剖析ChatGPT的光環背后及未來挑戰!

人工智能 新聞
嚴謹談談ChatGPT取得的進步、不足及邁向通用人工智能(AGI)的挑戰。

2022年11月底,ChatGPT一經推出,全球關注,風頭依舊強勁!取代搜索引擎,奇點說,拐點說,若干職業面臨失業危機,人類面臨終極挑戰…,面對如此熱點,本文分享我們的認識,歡迎討論和指正。

總的來說,ChatGPT取得了顯著科技進步,盡管有不足,但邁向AGI(artificial general intelligence,通用人工智能)仍充滿諸多挑戰!

圖片

圖1:https://openai.com/blog/chatgpt/ 網頁截圖

首先,介紹AI研究中的伊莉莎效應(Eliza Effect),也是與聊天機器人(chatbot)有關。

伊莉莎效應,指人會過度解讀機器的結果,讀出原來不具有的意義。人有一種心理趨向,在下意識中以為自然界現象與人類行為相似,心理學上稱為人的擬人化意識(anthropomorphisation),特別是當人類對新現象缺乏足夠認識的情況下。比如古時人們認為打雷是因為天上住著一個雷公,雷公生氣就打雷了。

名字「伊莉莎」取自1966年由MIT的計算機科學家Joseph Weizenbaum開發的一款聊天機器人。聊天機器人Eliza被設計成一個心理咨詢師,討巧的Eliza項目取得了意外的成功,效果讓當時的用戶非常震驚,引起轟動,但其實只是以簡單的規則文法為基礎的巧妙運用。

對ChatGPT的原理加以一定理解,應能減少在認知ChatGPT時的伊莉莎效應。有一個正確判斷,才能行健致遠。為此我們力求嚴謹,并提供參考文獻,以便讀者進一步了解。下文將分三大部分:

  • ChatGPT的進步
  • ChatGPT的不足
  • 邁向AGI的挑戰

圖片

個人主頁:http://oa.ee.tsinghua.edu.cn/ouzhijian

作者:歐智堅,清華大學電子工程系副教授、博士生導師。擔任IEEE音頻語音語言期刊(TASLP)副主編,Computer Speech&Language編委,IEEE語音語言技術委員會(SLTC)委員,IEEE言語技術(SLT)2021大會主席,中國計算機學會(CCF)杰出會員及語音對話與聽覺專委會委員等。發表論文近百篇,獲得省部級獎3項及多次國內外優秀論文獎。在隨機場語言模型,離散隱變量模型的學習算法,端到端對話模型及其半監督學習等方面做出基礎原創研究。

01 ChatGPT的進步

ChatGPT的進步,是站在多年來人工智能研究的巨人肩膀上,特別是深度學習技術,也就是使用多層神經網絡的技術。我們梳理了在ChatGPT的系統構建中,起著重要作用的幾個技術,如下圖。正是這些技術的共同作用(六部曲),才誕生了ChatGPT。

ChatGPT的模型骨架是,基于Transformer神經網絡架構的自回歸語言模型(language model)。基于微調(finetuning)的技術,基于Prompt(提示)的技術,情景學習(in-context learning),從人類反饋中強化學習(RLHF)技術,逐步發展并最終促成了ChatGPT的誕生。

圖片

圖2:ChatGPT的進步?

1. 語言模型(LM,language model)

語言模型,就是人類自然語言的概率模型。人類自然語言是一個個句子,一個句子是一個自然語言符號序列x1,x2,…,xn,服從概率分布

圖片

利用概率論乘法公式,可得

圖片

把這種從左至右,每個位置利用前面歷史符號x1,x2,…,xi-1(即上文),計算當前符號出現的(條件)概率P(x| x1,…,xi-1)的模型,稱為自回歸語言模型,非常自然可用來在給定上文條件下,生成當前符號。比如,下圖示例了在給定上文「The best thing about AI is its ability to」,下一個符號的出現概率。

圖片

依此可以遞歸生成,

圖片

語言模型問題的關鍵在于,構建什么樣的函數族來表示條件分布P(x| x1,…,xi-1),并能有效從大數據中學習到模型參數。ChatGPT基于的一個技術進步,就是利用神經網絡來表示P(x| x1,…,xi-1)

2. Transformer神經網絡架構

對于序列條件分布 P(x| x1,…,xi-1建模的一個挑戰就是,長程依存關系(long-range dependencies)的建模。利用普通遞歸神經網絡(recurrent neural network, RNN)的序列模型,在訓練時會遇到梯度爆炸和消失的缺陷(the exploding and vanishing gradient effects)[1],因此很長一段時間人們利用基于長短時記憶網絡(long short-term memory, LSTM)[2]的RNN來進行序列建模。LSTM通過引入門控機制一定程度上緩解了梯度爆炸和消失的缺陷。2017年發展的Transformer神經網絡架構[3],則徹底舍棄了遞歸計算,通過利用自注意力機制,使用前饋神經網絡(feed-forward neural network,FFNN)來進行序列建模,更好地解決了梯度爆炸和消失的缺陷。

讓我們直觀來理解Transformer在序列建模方面相比RNN的優勢。考慮序列中相距為n的兩處位置,這兩處位置間的在前向和后向計算中的信號,在神經網絡中行進的路徑長度,是影響神經網絡對長程依存關系學習能力的一個重要因素,RNN是O(n),而Transformer是O(1)。對這塊不理解的讀者,可以跳過,不影響后面內容的閱讀 :-)

圖片

圖3

3. GPT語言模型及預訓練+微調技術

自然語言理解包括范圍廣泛的不同任務,例如問答、語義相似性評估、文本蘊含關系判斷、文檔分類、機器翻譯、閱讀理解,摘要等等。人們發現可以先在大量(無需標注的)文本上訓練一個大型Transformer-LM(常稱為骨架),然后在面對不同的下游任務時,利用下游任務各自的標注數據對這個大型Transformer網絡進行微調,取得了很大性能提升,這就是所謂的預訓練+微調技術(pre-training + fine-tuning),典型技術包括2018-2019年發展的GPT [4]和BERT [5]。GPT是基于Transformer的自回歸語言模型,BERT是基于Transformer的掩碼語言模型(masked language model, MLM)。

正如GPT原文表述的「Our work broadly falls under the category of semi-supervised learning for natural language.」,這種無監督預訓練(unsupervised pre-training)結合有監督微調(supervised fine-tuning),是一種半監督學習,其本質是協同進行有監督學習和無監督學習。

圖片

(來自GPT原文[4]「Improving language understanding by generative pre-training」)

4. GPT-2及零樣本提示技術

在預訓練+微調技術框架下,仍然需要對每個下游任務,采集和標注各自不少的標注數據,然后微調得到各自任務上的一個「狹隘專家」(narrow expert),每個狹隘模型都需要單獨構建和存儲,這費時費力費資源。如果能建設更通用(more general)的系統,其能勝任很多任務,并且能免除為每個任務人工采集和標注數據集,就太棒了。在2019年GPT-2原文[6],有這樣愿景的清晰闡述,是不是已經看出了邁向AGI的味道 :-)

「We would like to move towards more general systems which can perform many tasks – eventually without the need to manually create and label a training dataset for each one.」

讓機器去學習執行一個自然語言理解任務(如問答),本質是去估計出條件分布

圖片

既然一個通用系統能執行許多不同的任務,那它的建模應該進一步條件于任務task,即建模

圖片

以GPT-2為代表的一個創新做法是,task、input、output 都用自然語言來表述成符號序列,這樣模型 P(output | task,input)就歸結為一個語言模型——給定上文,遞歸生成下一個符號。不同任務的訓練數據都統一組織成

圖片

這樣的符號序列的形式。比如,

(translate to french, english text, french text)

(answer the question, document, question, answer)

其中,task,常稱為是提示(prompt)。提示的做法很多,也有很多相關研究,本文不展開介紹了。

在GPT-2之前也有類似想法的研究,GPT-2把規模(無論訓練集還是模型的規模)拉到了一個新高度,采集百萬網頁創建了一個大數據集WebText(40GB),訓練出最大參數規模為1.5B的Transformer-LM,展示了零樣本情形下,在多個任務上的出色性能,不需要任何參數或模型架構修改(without any parameter or architecture modification)。值得指出一點,GPT-2的做法充分體現了多任務學習(multitask learning) 和元學習(meta-learning),可作為GPT-2之所以有出色性能的一個直觀解釋吧。

圖片

(來自GPT-2原文 [6]「 Language models are unsupervised multitask learners」。GPT-2訓練了系列的Transformer-LM,參數規模分別為117M、345M、762M、1542M,上圖展示了隨著模型參數規模的增大,各任務性能的不斷提升。)

5. GPT-3及in-context learning

2020年GPT-3的工作 [7],延續了GPT-2的愿景和技術路線,希望突破在各個任務中仍需任務特定標注及微調的缺陷(there is still a need for task-specific datasets and task-specific fine-tuning),希望能建設象人一樣的通用系統,文中清晰指出其中研究動機之一是注意到:

「humans do not require large supervised datasets to learn most language tasks – a brief directive in natural language (e.g. 『please tell me if this sentence describes something happy or something sad』) or at most a tiny number of demonstrations (e.g. 『here are two examples of people acting brave; please give a third example of bravery』) is often sufficient to enable a human to perform a new task to at least a reasonable degree of competence.」

也就是說給了任務描述(directive)和示范樣本(demonstrations),機器應該就能象人一樣執行多樣的任務。

GPT-3再次拉升規模(scaling up)到了一個新高度,訓練集規模為45TB文本(清洗前)、570GB(清洗后),Transformer-LM規模比GPT-2又增加了10倍,達到了175B(見下Table 2.1)。GPT-2文章主要做了零樣本提示情形,GPT-3則做了零樣本(zero-shot),單樣本(single-shot)以及少樣本(few-shot)情形的實驗,統稱為In Context Learning(情景學習),其中給出的示范樣本(demonstrations)可以是0個、1個或多個,但都會帶有任務描述(task description),見Figure 2.1的圖示說明。從Figure1.2可看出,隨著示范樣本的增多,不同規模的模型的性能提升的趨勢。

圖片

圖片

圖片

(以上均來自GPT-3原文 [7]「Language Models are Few-Shot Learners」)

6. InstructGPT, ChatGPT及RLHF技術

目前大型語言模型(large language model, LLM)用于自然語言理解的做法是,依據P(output | task,input),給定上文task,input,遞歸生成下一個符號。InstructGPT研究的一個出發點是考慮到在人機對話中,增大語言模型并不能從本質上使它們更好地遵循用戶意圖。大型語言模型也會表現出不盡人意的行為,如編造事實,生成有偏有害文本,或根本對用戶沒有幫助。

這是因為許多最近的大型 LM 使用的語言建模目標是,預測來自互聯網的網頁上的下一個符號,這不同于「有幫助和安全地遵循用戶的指示」的目標。因此,我們說語言建模目標是未對齊的(misaligned)。避免這些意外行為,對于在數百個應用程序中部署和使用語言模型尤為重要。2022年3月,InstructGPT工作[8]展示了一種途徑,可以通過根據人類反饋進行微調,使語言模型在一系列任務上對齊到用戶意圖(aligning language models with user intent),得到的模型稱為InstructGPT。具體來說,如下Figure 2所示,InstructGPT構建過程包含三步:

第1 步:收集演示數據(13K條數據),使用有監督學習微調GPT-3(大小為175B),訓練得到supervised policy(有監督策略)。

第2步:收集對比數據(33K條數據),訓練出reward model(獎勵模型),大小為6B。

第3步:收集31K條訓練數據,使用強化學習針對獎勵模型來優化策略,稱為從人類反饋中強化學習(reinforcement learning from human feedback, RLHF)。具體是使用稱為PPO的策略優化方法[9]。

對演示數據和對比數據的收集,使用了40人的外包標注員。

圖片

(來自IntructGPT原文[8]「Training language models to follow instructions with human feedback」)

2022年11月,OpenAI發布的ChatGPT模型 [10],基本是InstructGPT模型的沿襲,使用了相同的三步驟訓練方法,但是收集了更大規模的數據,進行模型訓練和系統構建。

總結:從語言模型研究、Transformer神經網絡架構、GPT語言模型及預訓練+微調、GPT-2及零樣本提示(zero-shot prompting)、GPT-3及情景學習(in-context learning),發展到InstructGPT,ChatGPT及RLHF技術,回頭看看上去是一條比較清晰的技術路徑,但事實上,其它類型的語言模型(比如基于能量的語言模型 [11])、其它類型的神經網絡架構(比如狀態空間模型 [12])、其它類型的預訓練辦法(比如基于隱變量模型 [13])、其它的強化學習辦法(比如基于用戶仿真器 [14])等,都在不斷發展中,新方法研究從來沒有停止過,不同方法間相互啟發、相互促進,形成通往通用人工智能的滾滾洪流,奔涌向前,生生不息。貫穿ChatGPT六部曲的很重要一點是,規模效應,俗稱暴力美學。在路線基本正確的判斷下,把規模拉上去,是提升性能的好辦法。

量變產生質變,量變未必產生質變,如果路線存在不足的話。下面談談ChatGPT的不足。

02 ChatGPT的不足

近年來人工智能領域的頂會(如ICML, ACL)的一個非常好的做法,就是對投稿增加了一項要求,在文章中需留一節表述自己工作的不足(Limitations)。相反,對不足避而不談,并不嚴謹,也不利于對一項技術的全面認識,可能誤導大眾、助長伊莉莎效應乃至錯誤判斷。

事實上,ChatGPT原文[10]對其不足,已經做了比較全面的聲明。

圖片

ChatGPT的不足(截圖來自ChatGPT原文[10])

讀者可以直接看上面英文,下面用中文稍做一下解釋。讀者可以結合下面的例子進行理解。我們對ChatGPT不足的更多分析,將在下一章探討邁向AGI(通用人工智能)所面臨的挑戰時來一起討論。

L1. ChatGPT 有時會寫出看似合理但不正確或荒謬的答案。

L2. ChatGPT 對輸入措辭的調整或多次嘗試相同的提示很敏感

L3. ChatGPT的生成,通常過于冗長并過度使用某些短語,例如重申它是 OpenAI 訓練的語言模型。

L4. 理想情況下,當用戶提供模棱兩可的查詢時,模型應該提出要求對方做澄清的問題。相反,當前的模型通常會猜測用戶的意圖。

L5. 雖然ChatGPT已努力使模型拒絕不當請求,但有時仍會響應有害指令或表現出有偏見的行為。

圖片

圖4:ChatGPT有關牛蛋和雞蛋的例子

圖片

圖5:有關ChatGPT實時信息處理不足的例子

03 邁向AGI的挑戰

結合ChatGPT原文[10]自述的不足,我們將ChatGPT的不足概括為以下五點。這五點也基本代表了從ChatGPT往未來看,邁向通用人工智能(AGI)所面臨的挑戰,是邁向AGI所亟待解決的重要科學問題和關鍵技術。值得指出的,本文的角度并不是以任務來分析不足和挑戰,而更多是從各類任務的共性問題的角度來分析。如果以任務為行,問題為列,那我們的角度是按列來分析。按行也可以給出非常好的分析和判斷。

當討論AGI之時,我們需跳出僅關注自然語言處理的局限,以更大的視野審視人工智能的研究和技術。參考人工智能經典著作[15],人工智能指智能體的研究與設計,智能體(intelligent agent)指任何設備,其可以觀察周遭環境并作出行動以最大化成功機會,更學術的說法是,最大化期望效用(utility)或最大化期望回報(return),如下圖所示。細心的讀者會發現,下圖也常用于強化學習的框架圖。確實如此,在[15]有類似闡述,「Reinforcement learning might be considered encompass all of AI」(強化學習可能被認為涵蓋了人工智能的所有)。帶著這些概念,我們來認識ChatGPT的不足。

圖片

圖6:智能體與環境的交互,常用于作為強化學習的框架圖[16]

1. ChatGPT會隨機編造(一本正經地給出錯誤的信息),在知識建模及利用上存在明顯不足。

這基本對應前面介紹的L1,可以從前面的例子清楚看出來。我們所說的知識,包括常識知識,專門知識,以及實時信息等方面。例如,從常識來講,ChatGPT一開始表現出并不知道牛是哺乳動物,不能產蛋。從實時信息來看,ChatGPT,本質上是一個基于Transformer架構的大型自回歸語言模型,其學到的知識僅限于其訓練數據,其截止年份為2021年。讀者可以自行嘗試使用ChatGPT,發現其在這方面的不足。

上述不足,從更深層次來說,反映了人工智能歷史上由來已久的聯結主義(connectionist)與符號主義(symbolism)的兩股思潮的紛爭。

  • 聯結主義,簡單說就是主張使用人工神經網絡(一種數學上的非線性函數)去實現人工智能。當前的深度學習以及ChatGPT是聯結主義路線下的成功。
  • 符號主義,簡單說就是主張使用符號是實現智能的核心手段,實現智能應該注重數理邏輯知識推理。舉一個符號系統的經典例子,語言的上下文無關語法認為語言包括一些終結符,一些非終結符,以及一些重寫規則。理解一句話,包括理解這句話背后的語法結構。

圖片

圖7

聯結主義認為知識埋藏于神經網絡的權重,訓練神經網絡調整其權重能讓其學習知識。符號主義主張知識由符號系統來組織,比如關系型數據庫,知識圖譜,數學物理等其它專門知識,以及數理邏輯。兩種思潮也在交叉融合,比如

  • 基于神經網絡的生成式對話系統,用從知識庫進行檢索來增強 [17];
  • 促進大型語言模型(LLM)推理能力的思維鏈(CoT,Chain of Thought)方法[18]。

因此,為克服ChatGPT在知識建模及利用上的不足,對現有技術的一個深層次挑戰是,神經網絡與符號邏輯的有效融合。數據與知識雙輪驅動,多年來有不少研究工作,但總的來說找到行之有效的融合辦法仍需持續努力。

2. ChatGPT在多輪對話交互上存在明顯不足,缺乏規劃能力。

這基本對應上面的L4,L4只是指出ChatGPT不會做澄清提問。但是我們看到比L4更嚴重的不足,從ChatGPT的構建過程看,它是建模條件分布 P(output | input) 進行預測(prediction),并不會做規劃(planning)。

在圖6所示框架中,一個很重要的概念是規劃(planning),規劃的目的是,為了最大化期望效用。這顯著不同于大型語言模型最大化語言符號出現的條件似然 P(output | input)。InstructGPT考慮系統應該遵循用戶意圖,用RLHF(從人類反饋中強化學習)的技術讓系統輸出對齊到人類提問,部分地緩解了對GPT-3做有監督學習而沒有進行規劃而帶來的未對齊問題。進一步提高規劃能力實現最大化期望效用,將是ChatGPT通往AGI的一個大挑戰。

那么人機交互系統的效用是什么呢?有關這點,InstructGPT的論文[8]對此從有幫助(helpful),誠實(honest),無害(harmless)三個維度有過討論?!肝覀兿MZ言模型是有幫助的(它們應該幫助用戶解決他們的任務)、誠實的(它們不應該偽造信息或誤導用戶)和無害的(它們不應對人或環境造成身體、心理或社會傷害)?!沟唧w的實現手段,尚需進一步探索,而不是止步于RLHF技術。

3. ChatGPT行為不可控(uncontrollable)。

這基本對應上面的L2、L3、L5。系統輸出對輸入很敏感(L2),沒法控制它輸出過于冗長或者過度使用某些短語(L3),沒法控制它響應有害指令或表現出有偏見的行為(L5)。這些不足不僅僅出現在ChatGPT,在以目前深度學習技術構建起來的計算機視覺,語音識別等智能系統中,也有類似不可控問題。

人類具有蘇格拉底式的智慧,即「自己知道自己不知道」,這正是現在的深度神經網絡系統欠缺的,自己不知道自己出錯了。現在的神經網絡系統大都過于自信(over-confident),不會向人類做出錯匯報,在出錯時似然仍出奇得高,讓人難以信賴和控制。可信賴(Trustworthy)和可控,將是通往AGI的一個大挑戰。

4. ChatGPT效率(efficiency)不足。

在ChatGPT聲明的不足中并沒重視這點。效率包括參數效率,數據效率,能耗效率等。ChatGPT通過使用超大數據,訓練超大模型,不斷拉升規模,取得了一個出彩的性能。但是,在同等規模下(同等的模型參數個數,同等的數據標注量或標注成本,同等的算力,同等的能耗),ChatGPT是否代表了最先進的技術呢?答案很多時候是否定的。例如,最近的研究報道[19],參數個數13B的LLaMA 模型在多個基準測試中性能優于175B的GPT-3模型,因此13B的LLaMA具有更好的參數效率。近期我們自己的工作也表明,一個良好設計的知識檢索對話模型僅用100M,性能顯著超過1B的大模型。

能耗效率好理解,我們來看數據效率。目前的智能系統構建,困于依賴大量人工標注下有監督學習范式,數據效率低。基于自回歸的大型語言模型,人們發現可以先在大量(無需標注的)文本上訓練,然后使用微調或提示技術,部分緩解了目前深度學習技術數據效率低的不足,但仍需要任務相關的標注數據。模型愈大,對標注量要求愈大。如何進一步高效協同利用有標數據和無標數據,是實現數據高效的一個挑戰。

5. 多模態具身智能,是探索AGI的重要內容。

ChatGPT僅限于文本輸入輸出,其所犯的許多錯誤也說明了它對語義、知識和因果推理的嚴重缺乏。單詞的意義似乎在于它們在統計學上的共現性,而非現實世界的基礎。所以即使未來的語言模型越來越大,它們在一些基本的物理常識方面還是表現不佳。

圖片

智力遠不止語言能力,生物智能的基本要素在于動物與世界進行感覺運動交互的能力[20]。未來的智能機器不一定具有人形,但是機器在聽、說、讀、寫、思考、操縱物體、行動等若干方面,通過具身與環境進行多模態互動,將極大促進機器智能的發展,也將助力機器智能超越文本單一模態局限,更好地幫助人類。

總結:從語言學看,語言知識包括單詞的結構和特性——形態學(morphology)和詞匯(lexicon),單詞如何構成短語和句子——句法學(syntax),詞素、單詞、短語、句子和語篇的意義——語義學(semantics)[21]。ChatGPT通過超大模型,學習到了相當的語言知識(特別是語義層次之下的知識),具備一定的語言理解能力,生成通順的句子,但是也存在明顯的不足:

  1. ChatGPT會隨機編造,在知識建模及利用上存在明顯不足。
  2. ChatGPT在多輪對話交互上存在明顯不足,缺乏規劃能力。
  3. ChatGPT行為不可控(uncontrollable)。
  4. ChatGPT效率(efficiency)不足。
  5. 多模態具身智能,是探索AGI的重要內容。

針對這些不足,我們梳理了從ChatGPT往未來看,邁向通用人工智能(AGI)所面臨的若干挑戰,如圖8所示,也指出若干重要的研究內容。值得指出的是,各塊研究的范疇并不是孤立的,而是彼此有交集。比如,在可信賴和可控研究中,希望系統輸出符合社會規范,那么在系統的效用中如何體現這種社會規范,從而系統規劃的輸出,能夠符合社會規范。因此,系統可控的研究與提高系統規劃能力的研究,是有交集的。又比如,在系統的規劃決策中,如何融合知識?

圖片

圖8:邁向AGI的挑戰

04 結束語

ChatGPT是人工智能研究中的一個重要事件,嚴謹認識其進步,不足及邁向AGI的未來挑戰,非常重要。我們相信,求真務實,不斷創新,推動人工智能發展到一個新的高度未來可期,歡迎大家多探討指正,謝謝!

責任編輯:張燕妮 來源: 新智元
相關推薦

2016-07-28 22:57:33

云計算Google

2025-03-27 09:58:50

StarRocks數據庫

2022-12-07 10:43:59

ChatGPT語言模型人工智能

2021-10-29 14:01:40

網絡安全/云安全/SA

2011-08-19 17:47:53

清華哈佛高管

2023-09-28 21:46:10

2012-11-30 11:24:51

歐德寧英特爾挑戰

2013-11-19 17:27:22

多看閱讀小米小說小米

2024-06-25 16:59:39

2012-02-08 10:37:42

Java反射

2023-02-17 08:57:03

2023-08-02 07:01:37

2017-07-21 11:25:25

人工智能深度學習機器學習

2019-08-12 13:53:59

報告

2023-05-08 15:09:49

AI開源

2017-11-21 11:15:10

Docker引擎Containerd

2023-08-09 09:33:01

ChatGPT流式網絡

2018-05-25 10:05:13

大數據架構實戰

2022-02-25 11:07:19

計算機圖像識別深度學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久吹潮 | 国产91视频免费 | 夜夜干夜夜操 | 在线观看国产 | 亚洲欧美日本在线 | 国产精品中文字幕在线观看 | 久久久久精| 高清欧美性猛交 | 欧美日韩一区二区在线 | 蜜桃av一区二区三区 | 精品久久不卡 | 亚洲免费视频网址 | 午夜免费av | 国产激情第一页 | 精品免费国产一区二区三区四区 | 黄色在线免费网站 | 久在线精品视频 | 在线欧美视频 | 五月综合激情在线 | 色视频www在线播放国产人成 | 成人av色 | 91久操视频| 日韩一区和二区 | 精品亚洲一区二区三区四区五区 | 九九精品影院 | 中文字幕一区二区三区日韩精品 | 国产精品一区在线 | 久久免费大片 | 国产高清精品在线 | 99久久久无码国产精品 | 欧美性video 精品亚洲一区二区 | 激情黄色在线观看 | 久久伊人免费视频 | 国产精品成人久久久久a级 久久蜜桃av一区二区天堂 | 久久国产精品久久国产精品 | 国产小网站 | 久久久精 | 国产精品九九九 | 久久久久无码国产精品一区 | 日韩在线小视频 | 久草色播 |