大模型是泡沫嗎？

發布于 2024-8-22 14:14

瀏覽

0收藏

我個人對 llm 是一種很復雜的態度。畢竟，它真的擊碎了我 2023 年之前所有的技術積累，以前在 nlp 苦心鉆研的訓練經驗、模型結構、不同任務類型的不同處理技巧，好像在 ChatGPT 面前顯得一文不值。

不過，事情都有兩面性。與我的技術一起被擊碎的，還有我那一潭死水的工作內容。我不再是特征工程師 —— “花了幾個月的時間，就只為了構造某個能力的數據特征，然后想辦法加入到模型網絡中”。當領導又想讓模型有一個新的能力怎么辦，重復這個特征構造的過程，下一個季度的 OKR 也就制定完畢了。我一點都不認為這樣的工作節奏能帶給我自己、帶給我的公司任何有意義的內容。

因此，作為一個曾經研究對話系統的 nlp 碼農，即使我過去的知識和工作經驗極速貶值，我也認可 llm：認可它提高了程序員 code 的效率，認可它創造了新的研究范式，認可它給我的工作內容注入新的活力，認可它掀起了全民狂歡的技術浪潮！

llm 是生產力工具

不管有多少人抨擊 ChatGPT 的技術路線，也不管 ChatGPT 未來會不會真的取代我程序員的工作，一個毋庸置疑的事實是：ChatGPT 是當今不可或缺的強大生產力工具。

不會前端的我敢答應領導說我會給個簡單 demo，而不是像以前那樣說“我不確定 Django 能不能做這個”；沒學過 go 語言的我敢直接寫用于上線的代碼；記不住的正則命令我不需要再搜了；學不會的 pandas 終于不用再學了；shell 語言的冷門命令也能信手拈來了——這些都是 ChatGPT 帶給我的自信。

不僅是程序員，只要是文本領域，ChatGPT 就都已經改變了工作方式。它寫出的新聞稿、小說不能用？那就讓他寫十篇你選一篇，或者是讓它寫個大綱自己再修改下。也許模型在創作任務的效果永遠超不過人，但架不住模型可以批量生產、以量取勝啊。

在我眼里，不承認 ChatGPT 效果的人只有一種：極度的懶人，只接受它給你一個百分之百的可用方案！明明模型已經幫我們做了 90% 的工作了，已經十分接近最終成果，我們只需要再加上自己的篩選或簡單修改，就可以完工了，難道就因為這 10% 的工作不想自己親手做，所以選擇自己從零開始做嗎？我實在難以理解這種行為。

賣 ChatGPT 賬號的、調戲 ChatGPT 然后做成視頻的、使用 ChatGPT 生圖的、利用 ChatGPT 大量生產文章的……很多人已經賺到盆滿缽滿，不會用 ChatGPT 提高生產效率的，真的會最先被淘汰！

llm 把所有人拉到了同一起跑線

2023 年之前，沒有幾個人用過 megatron、deepspeed，沒有幾個人研究過 DPO、PPO、MOE，沒有幾個人知道 reward_model 怎么訓，也沒有幾個方向的數據 piepeline 是需要花大價錢清洗才能運轉的，就連“sft 數據要追求質量而不是數量”也是過了半年才達成共識的。

在這個新的技術范式之下，一個新人可以和工作十年的 nlp 從業人員進行激烈辯論，一個小白可以與各種大佬討論對于 LLM 的認知和實驗結果。

去年，我最喜歡說的一句話就是：“都是2023年開始學的，誰又能比誰能強多少呢？”。

今年這句話依然生效，只不過同時我也意識到了，2023年已經在逐漸遠去，憑借著天賦、財力、努力，deepseek、qwen等團隊的同學很明顯已經開始和我們拉開距離了。每個 llm 的從業者都要有比去年更大的憂患意識：好不容易回到同一起跑線，怎么能這么輕易再次被拉開？

即使我們所在的公司可以做不過 deepseek，但是我們要努力讓自己的認知和能力不要被他們甩開太遠！

llm 帶來了黃金的技術時代

公司愿意花錢去買卡租卡來讓我實踐學習，領導看見我工作時間讀論文會感到滿意，同事之間每天都在討論新的 idea 或者是 Meta / OpenAI / Google 的新技術報告。我不得不說，這樣的工作氛圍，在 ChatGPT 出現之前，我從來沒有遇到過。

可惜的是，如今大部分的公司開始擁抱應用，瑣碎雜活再次多起來了。因此，如果真的感覺工作太忙有些力不從心，從一個打工人的視角出發，真心建議大家可以利用周末多學學習跑跑實驗。想一下吧，公司租著 4W / 月（1機8卡，粗略估計）的機器，來培養我們的認知，我想不到比這兩年更適合提升自我技術的時機啦。

這種黃金時代在“人均只有十年的程序員生涯”中，應該是很難再有了！

llm 是泡沫？

回歸正題，llm 會是一場泡沫嗎？我不太理解這個問題為什么會被反復拿出來提問。這個答案對程序員來說真的重要嗎？它是不是泡沫又能怎么樣呢？畢竟，我既不在乎 AIGC 會通往何方，也不在乎 llm 是不是一條正確的技術路線，我只想在這場 llm 浪潮中，向我的領導、未來的面試官證明一件事：我愿意去研究最新的技術方向，我有能力去復現最新的技術成果，僅此而已！

當 Google 再提出一個新的技術范式，難道各大公司會因為曾經研究過 llm 就不愿意招我們了嗎？他們一定還是會選擇“ llm 工作做的最好的那群人”，來組建新的研究團隊去跟隨新的前沿技術。

所以，llm 是泡沫嗎？這是企業家們考慮的問題吧，程序員無需多想，我們只需享受這場技術革新的盛宴。

寫在最后

我想再額外分享一個觀點：在 llm 這個賽道，真的沒必要羨慕別人的工作，做好自己的工作即可。

舉個例子，文本工作的同學天天在想：

做 pretrain 的覺著自己的工作就是爬數據和洗數據、亦或者是和工程一樣無休止的優化訓練框架；

做通用 sft 的覺著蹺蹺板問題根本無法解決，覺著評測集根本反應不出模型能力，羨慕領域模型可以不在乎其他能力；
做領域 sft 的又覺著自己沒任何技術含量，想去解決蹺蹺板問題，想去訓 reward_model；
做 rlhf 的覺著自己根本拿不到任何收益，動不動就訓練崩了，遠不如 sft 的洗洗數據就能提很多點。

圖像工作的同學則天天在想：

做 stable difusion 的認為多模態才是未來的方向；
做圖像文本多模態的認為 sora 太過于驚艷，一定是 AIGC 的未來；
做 sora 的又覺著老板腦子有問題才會相信 OpenAI 畫的技術大餅。

說實話，沒必要抱怨自己的工作內容，有卡用，就領先了大多數的同行。即使是當下最具含金量的“pretrain / scaling law”工作，在未來也可能在求職時一文不值，畢竟難道曾經有公司招 nlp 方向的人要求會訓出一個 BERT 嗎？以應用為導向會是 llm 的必由之路。

在這場 AIGC 的浪潮下，工作沒有高下之分，眼下的工作大概率都會像 BERT 一樣成為時代的眼淚。我們只需要做好當下，培養自己鑒別論文價值的能力、復現開源項目的能力、debug 代碼的能力，坐等真正的“AIGC”出現即可。

本文轉載自 ??NLP工作站??，作者： ybq

標簽

模型

OpenAI

AIGC

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂