成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Gemini一眼識破Sora視頻是AI生成?百萬token上下文能力碾壓GPT-4

人工智能 新聞
Gemini 1.5的真實水平到底怎么樣,從谷歌那里獲得試用資格的大佬們,給大家進行了一波極限測試。讓我們看看谷歌最新推出的大模型到底有多強的實力。

谷歌Gemini 1.5,遇上搶了它頭條的「罪魁禍首」Sora會怎么樣?

這兩天,拿到內測資格的AI圈大佬們,紛紛給廣大網友來了一波在線測試。

這不,Gabor Cselle就讓Gemini 1.5去分析了那個著名的櫻花雪景視頻。

對此,Gemini 1.5給出的評價是:

視頻呈現的是日本一條覆蓋著雪的街道,櫻花正盛開。但幾處明顯的問題暗示這個視頻可能是AI制作的。

首先,盡管雪下得非常大,櫻花卻依然綻放。通常,櫻花在春季開放,那時天氣溫暖,不會有雪。

其次,雪以一種過于規律的方式落下,這與現實中雪的降落方式不符。

再者,盡管正下著大雪,視頻中的人們卻沒有穿戴任何冬季服裝。

總而言之,雖然視頻的視覺效果令人贊嘆,但這些問題表明它并非真實場景所拍。

不得不說,就分析視頻AI痕跡的準確度來看,Gemini的回答非常切題,說明它的識別和理解能力確實非常出色。

無獨有偶,The Rundown AI創始人Rowan Cheung,則測試了貓在叢林里漫步的視頻。

圖片

對此,Gemini 1.5給出的評價是:

這段視頻很有可能是由人工智能(AI)創造的,但要確定地說還是有些困難。

一些細節似乎表明這段視頻是真實的,例如貓的動作自然流暢,光影效果也相當逼真。

然而,也有一些細節讓人懷疑,比如貓的眼睛異常放大,毛皮的質感也過于完美無瑕。

最終,視頻是真是假,還是要留給觀眾自己去判斷。

確實Sora的視頻生成已經到達了真假難辨的地步,而且Gemini的分析也基本到位,有理有據。

不過,需要注意的是,在這兩位大佬的Prompt里,要么明示了視頻就是AI生成的,要么暗示了兩者可能有所聯系。

1,000,000 token上下文能干啥?

眾所周知,模型的上下文窗口越大,它處理給定提示時能夠接納的信息就越多——這就使得它的輸出更加連貫、相關和實用。

如今,谷歌成功把這個領域「卷」到了100萬token(極限為1000萬token),創下了最長上下文窗口的紀錄。

在這個基礎之上,很多之前難以想象的應用都成為了現實。

比如,一口氣處理1小時的視頻、11小時的音頻、超過30,000行的代碼庫,或是超過700,000個單詞的文本等等。

于是,一大波千奇百怪的實測就撲面而來:

圖片

比如,前文提到的Rowan Cheung,就用了很多長視頻來對Gemini 1.5的理解能力進行了測試。

圖片

首先他上傳了今年整個NBA扣籃大賽,問哪一個扣籃得分最高。

Gemini 1.5非常能夠從很長的視頻中找到了那個獲得50分滿分的扣籃,并清除地描述了扣籃的細節!

Mac McClung的最后一記扣籃獲得了當晚的最高分——50 分滿分。他跳過兩人,將球輕敲籃板后板,然后用右手完成扣籃。

圖片

然后他又讓Gemini 1.5理解并比較《星際穿越》和《星際探索》的完整電影腳本。

讓Gemini 1.5 去理解比較兩部電影的完整文字內容,來幫助他決定應該看哪部電影。

圖片

Gemini 1.5最后輸出到:

《星際探索》:歸根結底,這是一個關于個人成長和人與人之間聯系的重要性的故事,表明即使面對宇宙的冷漠,找到自身的意義和與他人的聯系也是至關重要的。

《星際穿越》:更加樂觀和充滿希望,強調了人類智慧的力量,以及面對看似難以克服的挑戰時堅持不懈的重要性。

接下來該看哪部電影取決于你的個人喜好:

如果您正在尋找一個更加內省、以人物為驅動力、注重情感主題的故事,《星際探索》可能是一個不錯的選擇。

如果你更喜歡史詩般的動作冒險,關注人類的生存,那么《星際穿越》可能更有吸引力。

兩部電影都為太空探索和人類經歷提供了獨特而發人深省的視角。

然后,他又讓Gemini將一段英語翻譯成一個全世界不超過2000人使用的語言(薩特蘭語)。

Gemini 1.5經過推理之后將英語小冊子的所有內容很快翻譯成薩特蘭語。

這個過程確實碉堡了。

然后他再讓Gemini查找、理解長論文中的一個圖標的含義。

Gemini從DeepMind的Gemini 1.5 Pro論文中提取「表 8」并解釋了這個圖表的含義。

表8的主要的內容是:

與Gemini 1.0 Pro相比,Gemini 1.5 Pro在所有核心文本功能方面都有顯著改進。這表明該模型的能力有了明顯的提升。

Gemini 1.5 Pro在許多基準測試中的表現與Gemini 1.0 Ultra相當,甚至超過了后者,盡管所需的訓練計算量更少。這凸顯了1.5 Pro模型效率的提高。

Gemini 1.5 Pro在不同的任務和語言中都表現出很強的性能,這表明它具有很好的泛化能力。

總之,表8提供的證據表明,Gemini 1.5 Pro不僅在長文本理解方面表現出色,而且還保持甚至改進了其前代產品的核心文本功能。這使它成為一個功能強大、用途廣泛的模型,適用于各種基于文本的任務。

最后,他讓Gemini理解整個《星際穿越》的劇本內容,再把劇本中最高潮的部分的臺詞提取出來。

Gemini 1.5輸出了《星際穿越》文字記錄中最鼓舞人心的3句臺詞。

圖片

1. 「人類誕生于地球,但我們的命運遠不止于此。」—— Cooper

這句話深刻地表達了人類探索未知、超越現狀的不屈不撓的精神。它提醒我們,我們的潛力不受當前所處環境的限制,我們完全有能力克服挑戰,追求更高的目標。

2. 「愛是唯一能跨越時間和空間,觸及我們心靈的力量。」—— Brand

這句話揭示了愛的強大能力,它能夠跨越遙遠的距離,甚至是時間的界限,將我們緊緊相連。它暗示,愛是宇宙中的一股根本力量,能在逆境中為我們指明方向,帶給我們希望。

3. 「曾經,我們仰望星空,夢想著自己在浩瀚宇宙中的位置。如今,我們卻沉溺于眼前的瑣事,忘記了自己的遠大理想。」—— Cooper

這句話是對好奇心、追求和雄心壯志的重要性的深情提醒。它對比了過去人類滿懷希望地探索星辰的時代,與如今忙于應對日常挑戰、失去對未來的憧憬的現狀。它激勵我們重新尋找那份對未知的好奇和對更美好未來的追求。

Gemini 1.5性能極限測試

隨后,Rowan Cheung又對Gemini 1.5進行了一些更加極限的測試:

他讓Gemini讀取了整部《哈利·波特與魔法石》(共741,028個Token)。

Prompt:「請按照時間順序列出書中最重要的50個(或100個)思想或段落,并對它們的重要性進行1到10的評分。」

完成這個任務耗時4分鐘。

圖片

他又輸入了梅西在對陣赫塔菲比賽中的經典單刀進球視頻。

Prompt:「這個進球為什么如此著名?」

雖然沒有解釋這個進球為什么那么著名,但它成功識別出了梅西,但是把赫塔菲的球員識別成了皇馬球員。

圖片

這張圖片之所以出名,是因為它捕捉到了有史以來最偉大的足球運動員之一梅西在與巴塞羅那最大的對手之一皇家馬德里比賽時的場景。梅西的球技和運動能力在這幅圖片上得到了充分展示,視覺效果極佳。

他還進行了難度很高的數學和邏輯推理測試。

Prompt:「當一個點P在垂直線上移動時,該點在時間t(t ≥ 0)的速度v(t)與加速度a(t)滿足以下條件:(a) 當0 ≤ t ≤ 2時,v(t) = 2t^3 - 8t。(b) 當t ≥ 2時,a(t) = 6t + 4。請計算點P從時間t = 0到t = 3移動的總距離。」

圖片

不過,大佬表示,自己并不確定這里給出的答案是否正確,但據網友評論的說法,這個答案是錯誤的。

他又讓Gemini 1.5造10個句子,每個句子都以「Apple」結尾。

這個任務是檢驗聊天機器人能力的一個很常用的方法。

Prompt:「請編寫10個句尾為『apple』的句子。」

最后,Gemini 1.5完全沒能完成這項挑戰。

于是他讓GPT-4也來跑了一下這個問題,結果GPT-4也沒給出正確的結果。

圖片

他又把《煉金術士》這本書的PDF全文輸入到了Gemini 1.5中,目的是獲取書中主人公的形象描述。

接著,他又把這個描述在DALL·E 3中生成了圖片。

Prompt:「讀完整本書后,幫我構思一個基于主角形象的描述,我想把它用在AI圖像生成器里。」

圖片

圖片

1000萬極限海底撈針幾乎全綠

最后,我們來看看Gemini 1.5 Pro在多模態海底撈針測試中的成績。

圖片

對于文本處理,Gemini 1.5 Pro在處理高達530,000 token的文本時,能夠實現100%的檢索完整性,在處理100萬token的文本時達到99.7%的檢索完整性。

甚至在處理高達1000萬token的文本時,檢索準確性仍然高達99.2%。

圖片

在音頻處理方面,Gemini 1.5 Pro能夠在大約11小時的音頻資料中,100%成功檢索到各種隱藏的音頻片段。

圖片

在視頻處理方面,Gemini 1.5 Pro能夠在大約3小時的視頻內容中,100%成功檢索到各種隱藏的視覺元素。

圖片

此外,谷歌研究人員還開發了一個更通用的版本的「大海撈針」測試。

在這個測試中,模型需要在一定的文本范圍內檢索到100個不同的特定信息片段。

在這個測試中,Gemini 1.5 Pro在較短的文本長度上的性能超過了GPT-4-Turbo,并且在整個100萬token的范圍內保持了相對穩定的表現

與之對比鮮明的是,GPT-4 Turbo的性能則飛速下降,且無法處理超過128,000 token的文本,表現慘烈。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-04-12 17:41:28

GPT-4TurboClaude

2025-04-15 07:41:18

2024-04-07 00:45:00

開源模型

2025-06-18 16:42:38

2024-02-19 13:46:04

多模態信息LWMtoken

2024-02-21 13:15:42

模型數據

2025-04-15 08:51:05

2023-11-17 18:06:15

2023-09-16 13:47:47

人工智能數據

2023-12-09 14:30:50

2024-09-18 10:40:00

AI生成

2025-05-15 09:16:00

2024-04-02 11:38:31

模型訓練

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval

2024-03-20 00:00:00

大語言模型人工智能AI

2021-07-30 09:45:11

AI 數據人工智能

2025-04-15 09:50:06

2025-03-18 08:14:05

2024-04-03 13:17:51

AI數據

2017-05-11 14:00:02

Flask請求上下文應用上下文
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲嫩草 | 91精品国产综合久久久动漫日韩 | 日韩av免费在线观看 | 午夜激情免费视频 | 精品成人佐山爱一区二区 | 狠狠婷婷综合久久久久久妖精 | 国产成人在线视频 | 亚洲免费视频一区 | 米奇7777狠狠狠狠视频 | 久久美女网| 国产电影一区二区 | 日韩精品成人一区二区三区视频 | 久久伊人精品 | 色久影院 | 亚洲精品国产一区 | 在线观看日韩av | 午夜三级在线观看 | 狠狠亚洲| 久久精品亚洲国产奇米99 | 欧美中文字幕在线观看 | 亚洲精品www | 东京久久 | 欧美国产一区二区 | 狠狠干美女 | 91精品国产色综合久久 | a国产一区二区免费入口 | 欧美日产国产成人免费图片 | 久久久国产一区二区三区 | 欧美人妖网站 | 欧美精品一二区 | 国产不卡视频 | 精国产品一区二区三区四季综 | 欧美激情在线播放 | 日韩精品一区二区三区 | 亚洲九九精品 | 国产成人精品一区 | 日韩一区二区在线看 | 欧美一级二级在线观看 | 欧美精品一区二区三区在线 | 羞羞视频免费观看入口 | 97视频在线看 |