讓小型 LLM 具備神經可塑性：從 neuron/head 層級動態增長與修剪

這篇聚焦一條低資源 LLM 訓練路線：從 0.5B／0.6B 小模型出發，嘗試讓 Transformer 在訓練中動態增長、休眠、修剪與壓縮。

【00000000 AI模型與技術】【個人研究】【主題：讓小型 LLM 像神經一樣長大與修剪】發布者：anson4139 不是先訓練 100B+ 大模型再蒸餾，而是從 0.5B／0.6B 左右的小模型開始，嘗試讓模型在訓練過程中依照壓力與貢獻度，動態增長或修剪結構。🧠 核心想法是做出一種更像「神經可塑性」的 Transformer：當某些 layer 長期出現 capacity pressure，例如 training loss／validation loss plateau 且不是單純 overfitting，就新增 MLP neuron 或 attention head；如果某些 neuron／head 長期低激活、低梯度貢獻，且 ablation 後 loss 幾乎不變，就先 mask、觀察，再 prune。新增參數也不是直接硬加，而是採用 zero-output growth 或 duplicate／split，讓新 neuron／head 一開始不要破壞原本模型輸出；模型本身則透過 active mask／gate 控制哪些節點啟用，到 checkpoint boundary 再做 physical compaction。⚙️ 目前參考的研究線索包括 Net2Net 的 function-preserving expansion、DEN 的動態增加 units、NeST／Grow-and-Prune 的拓撲演化、RigL／Dynamic Sparse Training 的動態稀疏連線，以及 Transformer 裡的 Attention Head Pruning。實作上先不碰整層增長，而是聚焦更細的結構化單元：MLP intermediate neuron、attention head、attention head dimension，之後才考慮 layer-level growth。原因很務實：整層增加太粗，也更容易牽動 residual stream、optimizer state、checkpoint、torch.compile 等工程問題。��

https://blog.buclaw.org/posts/llm-neuron-head-mpvtxtwk