• Muon์€ ๊ทธ๋ž˜๋””์–ธํŠธ์˜ ์ด๋™ ํ‰๊ท (momentum)์„ ์ง๊ตํ™”ํ•˜์—ฌ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ์˜ตํ‹ฐ๋งˆ์ด์ €
  • ๋ชจ๋“  ํŠน์ž‡๊ฐ’์„ 1์— ๊ฐ€๊น๊ฒŒ ๋งŒ๋“œ๋Š” Newton-Schulz ๋ฐ˜๋ณต ๊ธฐ๋ฐ˜ ์ง๊ตํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜
  • AdamW ๋Œ€๋น„ ์•ฝ 2๋ฐฐ์˜ ๊ณ„์‚ฐ ํšจ์œจ์„ ๋ณด์ด๋ฉฐ, NanoGPT ์†๋„ ๊ฒฝ์Ÿ์—์„œ ์••๋„์  ์„ฑ๊ณผ๋ฅผ ๊ธฐ๋กํ•œ ์ฐจ์„ธ๋Œ€ ์˜ตํ‹ฐ๋งˆ์ด์ €

ํ•ด๋‹น ๊ฐœ๋…์ด ํ•„์š”ํ•œ ์ด์œ 

  • SGD-momentum๊ณผ Adam์˜ ์—…๋ฐ์ดํŠธ๋Š” Transformer 2D ํŒŒ๋ผ๋ฏธํ„ฐ์—์„œ condition number๊ฐ€ ๋งค์šฐ ๋†’์Œ (๊ฑฐ์˜ low-rank)
  • ์ด๋Š” ์†Œ์ˆ˜์˜ ๋…ธ์ด์ฆˆ ๋ฐฉํ–ฅ์ด ์ตœ์ ํ™”๋ฅผ ์ง€๋ฐฐํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๋ฌธ์ œ
  • ์ง๊ตํ™”๋Š” โ€œํฌ๊ธฐ๋Š” ์ž‘์ง€๋งŒ ํ•™์Šต์— ์ค‘์š”ํ•œ ํฌ์†Œ ๋ฐฉํ–ฅโ€์˜ ์Šค์ผ€์ผ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ‚ค์›Œ์คŒ

AS-IS: Adam/SGD-momentum์˜ ์—…๋ฐ์ดํŠธ

gradient โ†’ momentum โ†’ update

์—…๋ฐ์ดํŠธ ํ–‰๋ ฌ์˜ ํŠน์ž‡๊ฐ’ ๋ถ„ํฌ๊ฐ€ ๊ทน์‹ฌํ•˜๊ฒŒ ํŽธ์ค‘๋จ. ๋ช‡ ๊ฐœ์˜ ํฐ ํŠน์ž‡๊ฐ’์ด ์—…๋ฐ์ดํŠธ๋ฅผ ์ง€๋ฐฐํ•˜๊ณ , ๋‚˜๋จธ์ง€ ๋ฐฉํ–ฅ์€ ๋ฌด์‹œ๋จ.

TO-BE: Muon์˜ ์—…๋ฐ์ดํŠธ

gradient โ†’ momentum โ†’ Newton-Schulz ์ง๊ตํ™” โ†’ update
                      (๋ชจ๋“  singular value โ†’ 1)

๋ฐฉํ–ฅ ์ •๋ณด๋Š” ๋ณด์กดํ•˜๋ฉด์„œ ํฌ๊ธฐ๋ฅผ ์ •๊ทœํ™”. ๋ชจ๋“  ๋ฐฉํ–ฅ์ด ๋™๋“ฑํ•œ ์Šค์ผ€์ผ๋กœ ์—…๋ฐ์ดํŠธ์— ๊ธฐ์—ฌ.

ํ•ต์‹ฌ ์ž‘๋™ ์›๋ฆฌ

  1. ๊ทธ๋ž˜๋””์–ธํŠธ ๊ณ„์‚ฐ
  2. Momentum ์ ์šฉ (์ด๋™ ํ‰๊ท )
  3. Newton-Schulz ๋ฐ˜๋ณต์œผ๋กœ momentum ํ–‰๋ ฌ ์ง๊ตํ™” โ†’ ๋ชจ๋“  singular value๋ฅผ 1์— ๊ฐ€๊น๊ฒŒ
  4. ์ง๊ตํ™”๋œ ์—…๋ฐ์ดํŠธ๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐฑ์‹ 

๊ธฐ์กด Orthogonal-SGDM(Tuddenham 2022)์€ ์ง๊ตํ™” ํ›„ momentum์„ ์ ์šฉํ–ˆ์ง€๋งŒ, Muon์€ momentum ํ›„ ์ง๊ตํ™” ์ˆœ์„œ๋กœ ๋ฐ”๊พธ์–ด ๊ฒฝํ—˜์ ์œผ๋กœ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ๋˜ํ•œ SVD ๋Œ€์‹  Newton-Schulz ๋ฐ˜๋ณต์„ ์‚ฌ์šฉํ•ด ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ ˆ๊ฐํ–ˆ๋‹ค.

autoresearch์—์„œ์˜ MuonAdamW ํ•˜์ด๋ธŒ๋ฆฌ๋“œ

autoresearch์˜ train.py๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ์œ ํ˜•๋ณ„๋กœ ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ๋ถ„๋ฆฌํ•œ๋‹ค:

ํŒŒ๋ผ๋ฏธํ„ฐ ์œ ํ˜•์˜ตํ‹ฐ๋งˆ์ด์ €Learning Rate
Embedding ๋ ˆ์ด์–ดAdamW0.6
Unembedding (lm_head)AdamW0.004
๋ ˆ์ด์–ด๋ณ„ ์Šค์นผ๋ผAdamW0.5
2D ํ–‰๋ ฌ (์–ดํ…์…˜/MLP)Muonorthogonalization ๊ธฐ๋ฐ˜

์—ฌ๊ธฐ์— Cautious weight decay๋ฅผ ์ถ”๊ฐ€: ๊ทธ๋ž˜๋””์–ธํŠธ์™€ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ณฑ์ด โ‰ฅ 0์ผ ๋•Œ๋งŒ weight decay๋ฅผ ์ ์šฉํ•˜์—ฌ ๋ถˆํ•„์š”ํ•œ ์ •๊ทœํ™”๋ฅผ ๋ฐฉ์ง€ํ•œ๋‹ค.

์Šค์ผ€์ผ๋ง๊ณผ ์ตœ์‹  ๋™ํ–ฅ

  • GLM-4.5 (355B), KIMI Moonshot (1T+) ๋“ฑ ์ดˆ๋Œ€ํ˜• ๋ชจ๋ธ ํ•™์Šต์— ์ด๋ฏธ ์‹ค์ „ ๋ฐฐ์น˜
  • Moonlight: 3B/16B MoE ๋ชจ๋ธ์„ 5.7T ํ† ํฐ์œผ๋กœ ํ•™์Šต, ๊ธฐ์กด ๋Œ€๋น„ ํ›จ์”ฌ ์ ์€ FLOPs๋กœ ๋™๋“ฑ ์„ฑ๋Šฅ
  • Turbo-Muon: spectral preconditioning์œผ๋กœ Newton-Schulz ๋‹จ๊ณ„ ๊ณ„์‚ฐ ๋น„์šฉ ์ ˆ๊ฐ
  • AdaMuon: element-wise adaptivity + ์ง๊ต ์—…๋ฐ์ดํŠธ ๊ฒฐํ•ฉ, ๋Œ€๊ทœ๋ชจ์—์„œ Adam ๋Œ€๋น„ 40%+ ํšจ์œจ ํ–ฅ์ƒ
  • Block-wise Orthogonalization (ICML 2025): ํ–‰๋ ฌ์„ ๋…๋ฆฝ ํƒ€์ผ๋กœ ๋ถ„ํ•  ํ›„ ๊ฐœ๋ณ„ ์ง๊ตํ™”, 16ร— tensor parallel ๊ฐ€๋Šฅ

์ฐธ๊ณ  ๋ฌธ์„œ