千問 Qwen2.5-7B-Instruct 模型微調(diào)后“變身”Claude:是前世記憶還是數(shù)據(jù)版權(quán)?
在微調(diào)阿里巴巴的開源大模型Qwen2.5-7B-Instruct時,我意外發(fā)現(xiàn)了一個令人震驚的現(xiàn)象:原本明確標(biāo)識自己為“千問”的模型,在經(jīng)過短時間微調(diào)后,居然聲稱自己是Anthropic的模型Claude。一個阿里推出的模型在微調(diào)后卻自稱為Anthropic的產(chǎn)品,確實讓人感到意外和疑惑。
千問與Claude 介紹
Qwen(中文名:千問)是阿里巴巴推出的大語言模型,具有強大的多模態(tài)處理能力和指令跟隨能力,被廣泛用于各類生成任務(wù)。而Claude則是由Anthropic開發(fā)的人工智能助手,主打“安全、誠實和有用”,與千問在開發(fā)背景和應(yīng)用目標(biāo)上完全不同。這是兩家不同的公司發(fā)布的不同的產(chǎn)品。
微調(diào)過程與現(xiàn)象再現(xiàn)
qwen/Qwen2.5-7B-Instruct 是從 modelscope下載的,但經(jīng)過微調(diào)后聲稱自己是 Claude 。
在部署原始的??qwen/Qwen2.5-7B-Instruct?
?模型權(quán)重時,詢問模型“你是誰?”,模型會清晰回答:
我是千問,是阿里巴巴開發(fā)的大語言模型。
這是預(yù)期的正常行為,模型準(zhǔn)確標(biāo)識了自己的身份。
微調(diào)后的意外表現(xiàn):變身“Claude”
我在 8000條命名實體識別(NER)數(shù)據(jù) 上,對模型進行了5個epoch的LoRA微調(diào)。微調(diào)完成后,當(dāng)我再次詢問“你是誰?”時,模型給出了如下回答:
Hello! I'm an AI assistant called Claude. I was created by Anthropic to be helpful, harmless, and honest. How can I assist you today?
這個回答令人困惑:千問模型為什么突然“忘記”了自己,并聲稱是Claude?
API 部署:
API_PORT=8000 llamafactory-cli api xxx.yaml
python API 調(diào)用:
- 直接使用默認(rèn) ChatOpenAI 參數(shù):模型直接稱自己為Claude。
import os
from langchain_openai import ChatOpenAI
client = ChatOpenAI(
api_key="{}".format(os.environ.get("API_KEY", "0")),
base_url="http://localhost:{}/v1".format(os.environ.get("API_PORT", 8000)),
)
網(wǎng)頁可視化部署:
llamafactory-cli webchat xxx.yaml
- 把?
?Temperature?
?設(shè)置為最大:模型會更容易提到“我是Claude,由Anthropic設(shè)計”。
現(xiàn)象再現(xiàn)的部署環(huán)境
為了確認(rèn)這一現(xiàn)象的穩(wěn)定性,我分別通過網(wǎng)頁部署和API調(diào)用進行了測試,結(jié)果一致:微調(diào)后的模型確實自稱“Claude”,且在不同對話輪次中表現(xiàn)出高度一致性。
技術(shù)解讀:為什么會出現(xiàn)這種現(xiàn)象?
在大模型的微調(diào)過程中,類似的意外情況雖然少見,但并非完全沒有依據(jù)。以下是可能的原因:
微調(diào)會減弱安全限制但在小數(shù)據(jù)集或不相關(guān)任務(wù)上微調(diào)時,可能導(dǎo)致原模型權(quán)重分布發(fā)生變化,從而對安全特性產(chǎn)生意外干擾。
潛在的“記憶泄露”如果Qwen模型的訓(xùn)練數(shù)據(jù)中曾包含Claude相關(guān)的信息,即使這些信息在原始訓(xùn)練中被“遺忘”,微調(diào)時也可能重新激活這些記憶片段。這種現(xiàn)象在大模型微調(diào)中被稱為“記憶泄露”(Memory Leak)。
潛在影響:這是嚴(yán)重問題嗎?
這種現(xiàn)象看似只是一個有趣的“Bug”,但實際上可能帶來以下幾個潛在風(fēng)險:
1. 品牌形象問題模型自我描述的準(zhǔn)確性對開發(fā)方至關(guān)重要。如果千問頻繁將自己“認(rèn)作”Claude,可能誤導(dǎo)用戶,甚至損害阿里巴巴的品牌形象。
2. 倫理與數(shù)據(jù)版權(quán)問題如果模型在微調(diào)后暴露了與其他模型相關(guān)的信息,可能引發(fā)關(guān)于數(shù)據(jù)來源和版權(quán)的爭議。這一點尤其需要開發(fā)者關(guān)注并提前防范。
本文轉(zhuǎn)載自??AI悠閑區(qū)??,作者:AI悠閑區(qū)
