卷瘋了!開(kāi)源社區(qū)離Openai o1越來(lái)越近~
小長(zhǎng)假結(jié)束了~ 本來(lái)打算梳理一下假期的信息的,但是內(nèi)容有點(diǎn)多,放棄了~
今天這個(gè)標(biāo)題對(duì)應(yīng)假期的2個(gè)新聞。
- 思科的大佬,假期發(fā)了一篇medium博客,使用2個(gè)復(fù)雜數(shù)據(jù)集,進(jìn)行了一系列模型的基準(zhǔn)測(cè)試。
- Blog: https://medium.com/@harishhacker3010/can-we-make-any-smaller-opensource-ai-models-smarter-than-human-1ea507e644a0
- Prompt: https://gist.github.com/philschmid/34747bf5bc8280f3a5f10f5fd8d1cd4b
- Github: https://github.com/harishsg993010/LLM-Research-Scripts
簡(jiǎn)單總結(jié)
- ?? 結(jié)合動(dòng)態(tài)思維鏈+反思+語(yǔ)言強(qiáng)化promp,以嚴(yán)格的學(xué)術(shù)測(cè)試為基準(zhǔn)(JEE Advanced、UPSC、IMO、Putnam)
- ?? Claude 3.5 Sonnet 的性能優(yōu)于 GPT-4 和匹配的 O1 型號(hào)
- ?? LLMs可以創(chuàng)建內(nèi)部模擬并對(duì)復(fù)雜問(wèn)題采取 50 多達(dá)推理步驟
- ?? 適用于較小的開(kāi)源模型,如 Llama 3.1 8B +10%(Llama 3.1 8B 33/48 與 GPT-4o 36/48)
- ? 由于計(jì)算和預(yù)算限制,沒(méi)有像 MMLU、MMLU pro 或 GPQA 那樣進(jìn)行基準(zhǔn)測(cè)試
- ?? 高token使用量 - Claude Sonnet 3.5 僅 7 個(gè)問(wèn)題就使用了大約 100 萬(wàn)個(gè)令牌
- open o1 項(xiàng)目
- github: https://github.com/OpenSource-O1/Open-O1
- space: https://huggingface.co/spaces/happzy2633/open-o1
- hf: https://huggingface.co/O1-OPEN
Open-O1 項(xiàng)目,主要是期望對(duì)齊閉源 OpenAI O1 模型的強(qiáng)大功能,為社區(qū)提供先進(jìn)的開(kāi)源替代方案。通過(guò)精心篩選一組 O1 風(fēng)格的思考數(shù)據(jù)來(lái)開(kāi)發(fā)訓(xùn)練,這些數(shù)據(jù)用于訓(xùn)練 LLaMA 和 Qwen 模型。這種訓(xùn)練方法賦予了較小的模型長(zhǎng)期推理和解決問(wèn)題的能力。
有一些初步的微調(diào)成果,但是看起來(lái)不太顯著,readme上有挺多不錯(cuò)的輸出樣例。開(kāi)源模型:https://huggingface.co/happzy2633/qwen2.5-7b-ins-v3/tree/main
本文轉(zhuǎn)載自 ??NLP前沿??,作者: 熱愛(ài)AI的
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報(bào)

回復(fù)
相關(guān)推薦