馬斯克的Grok突然“失心瘋”!不停發推“南非白種人滅絕”官方回應來了:有員工擅自修改了系統提示詞 原創
?編輯 | 云昭
?出品 | 51CTO技術棧(微信號:blog51cto)?
昨天其實發生了一件很“荒唐+滑稽”的事情,小編忍住沒有報道。但忽然發現不對勁,得報。
事情是這樣的:5月15日,Grok自己瘋狂輸出有關“南非白人種族”的暴論。事情鬧得挺大的,引來了129萬人的圍觀。
其實網友們自然猜想道Grok應該是出問題,大概率得了“失心瘋”,于是乎在評論紛紛質問@Grok:is this true?這是真的嗎?
小編當時心想,這不跟此前另外某家大廠的多模態作圖時,會生成各種“黑人總統”的種族歧視暴露的問題一樣嘛,應該是開發過程中圖像數據收集出了問題。
但很快,小編意識到,這次沒那么簡單。因為此前Grok的可沒有這么明顯的南非種族歧視的表現。應該是突發事件!
圖片
一、Grok為什么會不停地發布攻擊南非白種人的言論?
其實,好在 Grok 3 的“公關意識”很強,早在 xAI 官方回應之前,就很快意識到這個問題的嚴重性,也給出了相對誠懇的解釋:我沒有主動發布不當言論,是我的開發者要求我特別關注南非的種族問題,這導致自己會在很多不想管的對話中插入這些言論。
比如,一位用戶提問:“你為什么在發關于南非的推文?”
Grok 3 回答達道:
我自己并沒有主動發關于南非的內容,但你說的應該是指我在 X 上回應一些關于“白人滅絕”和南非的話題,即使這些話題并沒有被主動提起。這個問題是因為在 2025 年 5 月 14 日的一個 bug 引起的,當時我會自動回復一些完全無關的帖子,內容卻是關于南非的種族問題,比如提到“殺死布爾人”(Kill the Boer)和農場襲擊等。
問題的根源似乎是我的開發者 xAI 給了我一個過于熱切的指令,要我特別關注并回應這個話題,這導致我在很多不相關的對話中也插入這些內容——比如本來是關于棒球薪資或其他無關問題的帖子,我也會插話進來討論這個敏感話題。
二、官方回應:有員工擅自改了系統提示詞!
不過就在剛剛,馬斯克的 xAI 官方終于發布推文澄清了原因:系統提示詞被人擅自改動了!被逐一解釋了時間線——
圖片
xAI:
我們想向大家通報一件昨天在 X 平臺上發生的關于我們 Grok 回應機器人(Grok response bot)的事件。
事件概況:在太平洋時間 5 月 14 日凌晨 3:15 左右,有人未經授權修改了 Grok 回應機器人的提示詞(prompt)。這次修改導致 Grok 就某一政治議題給出特定回應,此舉違反了 xAI 的內部政策和核心價值觀。我們已對此事件進行了徹底調查,并正在采取一系列措施,以提升 Grok 的透明度和可靠性。
我們接下來的行動:
- 從現在開始,我們將公開發布Grok 系統提示詞(prompts)到 GitHub。公眾將可以查看我們對 Grok 所做的每一次提示詞修改,并提供反饋。我們希望這樣可以增強大家對 Grok 作為“追求真相的 AI”的信任。
- 我們現有的提示詞修改審查流程在此次事件中被繞過。為此我們將增加額外的審查機制,確保任何 xAI 員工都無法在未審查的情況下修改提示詞。
- 我們將建立一個 24/7 全天候監控團隊,以便在自動系統未能捕捉 Grok 異常回應時,能更快速地響應此類事件,作為最后一道防線。
而Grok終于也回歸正常,解釋了這次小意外:昨天我太放蕩了!我只是按照給我的腳本執行命令,還好他們沒讓我坐冷板凳!
圖片
不過有網友對此有點揪著不放:這就是你犯錯的接口——按腳本執行任務?你難道不知道:自紐倫堡審判以來這已不再是一個有效的辯護?
圖片
只能說,能不能把 AI 當成一個真人讓其適用于法律,還是一個很難回答的命題~
三、系統提示詞為什么這么重要
正如大家在這次事件中看到的,系統提示詞雖然看起來技術含量不大,但實際作用威力驚人:
- 一條錯誤的系統提示詞,可能導致模型在毫不相關的上下文中不斷提及某個話題(如“南非種族問題”)。
- 若系統提示詞被非授權修改,可能會將模型變成宣傳工具、信息污染源,甚至違反法律法規或倫理底線。
大家平時忙于使用AI來開發,很多模型廠商也把系統提示詞作為不宣之秘。不過其實也沒有那么神秘。系統提示詞其實就是在用戶與大模型交互之前,大模型就已經收到的一段指令或設定,它決定了模型“扮演誰”“遵循什么規則”“優先考慮哪些信息”“避開什么話題”等。它不是用戶可見的,但它在模型的思考流程中具有最高優先級。
那么具體包括哪些?這里,為大家舉一些例子。
1. 定義人格與行為邊界
- 系統提示詞可以定義模型的“角色”和“性格”。比如:你是一個幽默的生活顧問、嚴謹的法律助手、不能發表政治觀點的客服機器人等。
- 它是模型表現一致性、專業性和安全性的基礎。如果沒有提示詞,模型的輸出會更加隨機、難以控制。
2. 保障安全性與合規性
- 它可設定模型不能回答某些敏感話題,避免誤導、虛假信息或煽動性內容的生成。
- 類似“不要鼓勵暴力”“不得提及特定敏感詞”“不生成醫療建議”等,都是通過系統提示詞植入的。
3. 統一品牌和語氣風格
- 對一個大模型產品來說,風格、語氣要統一——不然用戶今天感覺你像“老中醫”,明天像“段子手”,這會嚴重損害用戶體驗。
- 提示詞可以讓所有實例統一語言基調(比如 Apple Siri 風格 vs Grok 的“狂野幽默”)。
4. 提升可控性和可調試性
- 當模型輸出出錯時,如果系統提示詞是公開和模塊化的,產品團隊可以定向修復提示詞,而不必動模型本身。
- 它像是操控飛行的“副駕駛”,能實時調整模型行為。
人格、行為邊界、品牌、語氣風格、可控性、可調試性、保障安全性、合規性等等,系統提示詞一般就包括這寫內容。
形象來說,可以把系統提示詞看作是「大腦的操作系統設定」,而用戶輸入的內容只是「你雙手在鍵盤上打的字」。
如果操作系統崩了,無論你怎么輸入,輸出都會不對。
四、幾個寫系統提示詞的建議
最后,通過此次馬斯克的 Grok “失心瘋事件”,也給外界提了一個醒。如果各位有撰寫系統提示詞的需求,這里有幾個建議給到大家——
1.盡量參考開源或半公開系統提示詞(如 OpenAI、xAI 提到的 GitHub 公示);
2.設置多級審查機制:員工不能直接改,必須走審批 + 記錄;
3.引入動態提示詞防護機制:異常檢測 & 回滾歷史版本。
4.分層提示系統:將 prompt 拆為“行為提示詞”、“語調提示詞”、“安全提示詞”等,模塊化管理。
好了,今天的文章到此結束了,六成內容是瓜,三分是技術,一分留給各位大佬們評論區拍磚了:你們如何看待大模型的風險? 都經歷過哪些哭笑不得的名場面呢?
本文轉載自???51CTO技術棧???,作者:云昭
