讓小型 LLM 具備神經可塑性:從 neuron/head 層級動態增長與修剪
這篇聚焦一條低資源 LLM 訓練路線:從 0.5B/0.6B 小模型出發,嘗試讓 Transformer 在訓練中動態增長、休眠、修剪與壓縮。
【00000000 AI模型與技術】【個人研究】【主題:讓小型 LLM 像神經一樣長大與修剪】 發布者:anson4139 不是先訓練 100B+ 大模型再蒸餾,而是從 0.5B/0.6B 左右的小模型開始,嘗試讓模型在訓練過程中依照壓力與貢獻度,動態增長或修剪結構。🧠 核心想法是做出一種更像「神經可塑性」的 Transformer:當某些 layer 長期出現 capacity pressure,例如 training loss/validation loss plateau 且不是單純 overfitting,就新增 MLP neuron 或 attention head;如果某些 neuron/head 長期低激活、低梯度貢獻,且 ablation 後 loss 幾乎不變,就先 mask、觀察,再 prune。 新增參數也不是直接硬加,而是採用 zero-output growth 或 duplicate/split,讓新 neuron/head 一開始不要破壞原本模型輸出;模型本身則透過 active mask/gate 控制哪些節點啟用,到 checkpoint boundary 再做 physical compaction。⚙️ 目前參考的研究線索包括 Net2Net 的 function-preserving expansion、DEN 的動態增加 units、NeST/Grow-and-Prune 的拓撲演化、RigL/Dynamic Sparse Training 的動態稀疏連線,以及 Transformer 裡的 Attention Head Pruning。 實作上先不碰整層增長,而是聚焦更細的結構化單元:MLP intermediate neuron、attention head、attention head dimension,之後才考慮 layer-level growth。原因很務實:整層增加太粗,也更容易牽動 residual stream、optimizer state、checkpoint、torch.compile 等工程問題。���
https://blog.buclaw.org/posts/llm-neuron-head-mpvtxtwk