大模型是泡沫嗎?
我個人對 llm 是一種很復雜的態度。畢竟,它真的擊碎了我 2023 年之前所有的技術積累,以前在 nlp 苦心鉆研的訓練經驗、模型結構、不同任務類型的不同處理技巧,好像在 ChatGPT 面前顯得一文不值。
不過,事情都有兩面性。與我的技術一起被擊碎的,還有我那一潭死水的工作內容。我不再是特征工程師 —— “花了幾個月的時間,就只為了構造某個能力的數據特征,然后想辦法加入到模型網絡中”。當領導又想讓模型有一個新的能力怎么辦,重復這個特征構造的過程,下一個季度的 OKR 也就制定完畢了。我一點都不認為這樣的工作節奏能帶給我自己、帶給我的公司任何有意義的內容。
因此,作為一個曾經研究對話系統的 nlp 碼農,即使我過去的知識和工作經驗極速貶值,我也認可 llm:認可它提高了程序員 code 的效率,認可它創造了新的研究范式,認可它給我的工作內容注入新的活力,認可它掀起了全民狂歡的技術浪潮!
llm 是生產力工具
不管有多少人抨擊 ChatGPT 的技術路線,也不管 ChatGPT 未來會不會真的取代我程序員的工作,一個毋庸置疑的事實是:ChatGPT 是當今不可或缺的強大生產力工具。
不會前端的我敢答應領導說我會給個簡單 demo,而不是像以前那樣說“我不確定 Django 能不能做這個”;沒學過 go 語言的我敢直接寫用于上線的代碼;記不住的正則命令我不需要再搜了;學不會的 pandas 終于不用再學了;shell 語言的冷門命令也能信手拈來了——這些都是 ChatGPT 帶給我的自信。
不僅是程序員,只要是文本領域,ChatGPT 就都已經改變了工作方式。它寫出的新聞稿、小說不能用?那就讓他寫十篇你選一篇,或者是讓它寫個大綱自己再修改下。也許模型在創作任務的效果永遠超不過人,但架不住模型可以批量生產、以量取勝啊。
在我眼里,不承認 ChatGPT 效果的人只有一種:極度的懶人,只接受它給你一個百分之百的可用方案!明明模型已經幫我們做了 90% 的工作了,已經十分接近最終成果,我們只需要再加上自己的篩選或簡單修改,就可以完工了,難道就因為這 10% 的工作不想自己親手做,所以選擇自己從零開始做嗎?我實在難以理解這種行為。
賣 ChatGPT 賬號的、調戲 ChatGPT 然后做成視頻的、使用 ChatGPT 生圖的、利用 ChatGPT 大量生產文章的……很多人已經賺到盆滿缽滿,不會用 ChatGPT 提高生產效率的,真的會最先被淘汰!
llm 把所有人拉到了同一起跑線
2023 年之前,沒有幾個人用過 megatron、deepspeed,沒有幾個人研究過 DPO、PPO、MOE,沒有幾個人知道 reward_model 怎么訓,也沒有幾個方向的數據 piepeline 是需要花大價錢清洗才能運轉的,就連“sft 數據要追求質量而不是數量”也是過了半年才達成共識的。
在這個新的技術范式之下,一個新人可以和工作十年的 nlp 從業人員進行激烈辯論,一個小白可以與各種大佬討論對于 LLM 的認知和實驗結果。
去年,我最喜歡說的一句話就是:“都是2023年開始學的,誰又能比誰能強多少呢?”。
今年這句話依然生效,只不過同時我也意識到了,2023年已經在逐漸遠去,憑借著天賦、財力、努力,deepseek、qwen等團隊的同學很明顯已經開始和我們拉開距離了。每個 llm 的從業者都要有比去年更大的憂患意識:好不容易回到同一起跑線,怎么能這么輕易再次被拉開?
即使我們所在的公司可以做不過 deepseek,但是我們要努力讓自己的認知和能力不要被他們甩開太遠!
llm 帶來了黃金的技術時代
公司愿意花錢去買卡租卡來讓我實踐學習,領導看見我工作時間讀論文會感到滿意,同事之間每天都在討論新的 idea 或者是 Meta / OpenAI / Google 的新技術報告。我不得不說,這樣的工作氛圍,在 ChatGPT 出現之前,我從來沒有遇到過。
可惜的是,如今大部分的公司開始擁抱應用,瑣碎雜活再次多起來了。因此,如果真的感覺工作太忙有些力不從心,從一個打工人的視角出發,真心建議大家可以利用周末多學學習跑跑實驗。想一下吧,公司租著 4W / 月(1機8卡,粗略估計)的機器,來培養我們的認知,我想不到比這兩年更適合提升自我技術的時機啦。
這種黃金時代在“人均只有十年的程序員生涯”中,應該是很難再有了!
llm 是泡沫?
回歸正題,llm 會是一場泡沫嗎?我不太理解這個問題為什么會被反復拿出來提問。這個答案對程序員來說真的重要嗎?它是不是泡沫又能怎么樣呢?畢竟,我既不在乎 AIGC 會通往何方,也不在乎 llm 是不是一條正確的技術路線,我只想在這場 llm 浪潮中,向我的領導、未來的面試官證明一件事:我愿意去研究最新的技術方向,我有能力去復現最新的技術成果,僅此而已!
當 Google 再提出一個新的技術范式,難道各大公司會因為曾經研究過 llm 就不愿意招我們了嗎?他們一定還是會選擇“ llm 工作做的最好的那群人”,來組建新的研究團隊去跟隨新的前沿技術。
所以,llm 是泡沫嗎?這是企業家們考慮的問題吧,程序員無需多想,我們只需享受這場技術革新的盛宴。
寫在最后
我想再額外分享一個觀點:在 llm 這個賽道,真的沒必要羨慕別人的工作,做好自己的工作即可。
舉個例子,文本工作的同學天天在想:
做 pretrain 的覺著自己的工作就是爬數據和洗數據、亦或者是和工程一樣無休止的優化訓練框架;
- 做通用 sft 的覺著蹺蹺板問題根本無法解決,覺著評測集根本反應不出模型能力,羨慕領域模型可以不在乎其他能力;
- 做領域 sft 的又覺著自己沒任何技術含量,想去解決蹺蹺板問題,想去訓 reward_model;
- 做 rlhf 的覺著自己根本拿不到任何收益,動不動就訓練崩了,遠不如 sft 的洗洗數據就能提很多點。
圖像工作的同學則天天在想:
- 做 stable difusion 的認為多模態才是未來的方向;
- 做圖像文本多模態的認為 sora 太過于驚艷,一定是 AIGC 的未來;
- 做 sora 的又覺著老板腦子有問題才會相信 OpenAI 畫的技術大餅。
說實話,沒必要抱怨自己的工作內容,有卡用,就領先了大多數的同行。即使是當下最具含金量的“pretrain / scaling law”工作,在未來也可能在求職時一文不值,畢竟難道曾經有公司招 nlp 方向的人要求會訓出一個 BERT 嗎?以應用為導向會是 llm 的必由之路。
在這場 AIGC 的浪潮下,工作沒有高下之分,眼下的工作大概率都會像 BERT 一樣成為時代的眼淚。我們只需要做好當下, 培養自己鑒別論文價值的能力、復現開源項目的能力、debug 代碼的能力,坐等真正的“AIGC”出現即可。
本文轉載自 ??NLP工作站??,作者: ybq
