- **BPB (Bits Per Byte)**๋ ๋ชจ๋ธ์ด ๋ค์ ๋ฐ์ดํธ๋ฅผ ์์ธกํ๋ ๋ฐ ํ์ํ ํ๊ท ๋นํธ ์๋ฅผ ๋ํ๋ด๋ ํ ํฌ๋์ด์ ๋ฌด๊ด ํ๊ฐ ์งํ
- ํฌ๋ก์ค์ํธ๋กํผ ์์ค์ ๋ฐ์ดํธ ๋จ์๋ก ์ ๊ทํํ ์ ๋ณด ์ด๋ก ๊ธฐ๋ฐ ์์ถ ํจ์จ ์ฒ๋
- ๋ฎ์์๋ก ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์ดํดํ๊ณ ์์์ ์๋ฏธํ๋ ๋จ์กฐ ๊ฐ์ ๋ชฉํ ํจ์
ํด๋น ๊ฐ๋ ์ด ํ์ํ ์ด์
- Perplexity๋ ํ ํฌ๋์ด์ ์ ์์กดํ๋ฏ๋ก, ์ดํ ํฌ๊ธฐ๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ ๊ฐ ๊ณต์ ํ ๋น๊ต๊ฐ ๋ถ๊ฐ๋ฅ
- autoresearch์์ ์์ด์ ํธ๊ฐ ์ดํ ํฌ๊ธฐ๋ ํ ํฌ๋์ด์ ๋ฅผ ๋ณ๊ฒฝํ ์ ์์ผ๋ฏ๋ก, ํ ํฌ๋์ด์ ๋ฌด๊ด ์งํ๊ฐ ํ์
Perplexity์์ ํต์ฌ ์ฐจ์ด
| ์งํ | ์ ์ | ๋จ์ | ํ ํฌ๋์ด์ ์์กด? |
|---|---|---|---|
| Cross-Entropy | ๋ชจ๋ธ ๋ถํฌ๋ก ๋ฐ์ดํฐ ์ธ์ฝ๋ฉ์ ํ์ํ ๋นํธ | nats/bits | O (ํ ํฐ ๋จ์) |
| Perplexity | exp(ํ ํฐ๋น ํฌ๋ก์ค์ํธ๋กํผ) | โ์ ํจ ์ ํ์ง ์โ | O |
| BPB | ๋ฐ์ดํธ๋น ํฌ๋ก์ค์ํธ๋กํผ | bits/byte | X |
์์ ๊ด๊ณ
BPB = CrossEntropy ร (1/ln(2)) / bytes_per_token
Perplexity = 2^(bytes_per_word ร BPB)
50K ์ดํ ๋ชจ๋ธ๊ณผ 8K ์ดํ ๋ชจ๋ธ์ด ๋์ผํ ํ ์คํธ๋ฅผ ๊ฐ์ ์์ค์ผ๋ก ์์ถํ๋๋ผ๋ perplexity๋ ๋ค๋ฅด๊ฒ ๋์จ๋ค. BPB๋ UTF-8 ๋ฐ์ดํธ ๊ธฐ์ค์ผ๋ก ์ ๊ทํํ๋ฏ๋ก ์ด ๋ฌธ์ ๊ฐ ์๋ค.
ํ ํฌ๋์ด์ ๋ฌด๊ด์ฑ์ด ์ค์ํ ์ด์
ํ ํฐ์ ์ ์๋ ํ ํฌ๋์ด์ (BPE, Unigram, merge ๊ท์น, ํน์ ํ ํฐ ๋ฑ)์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค. ๋์ผํ ๋ฌธ์ฅ์ด๋ผ๋ ํ ํฌ๋์ด์ ๋ฅผ ๋ฐ๊พธ๋ฉด ํ ํฐ ์๊ฐ ๋ฌ๋ผ์ง๋ฏ๋ก, ํ ํฐ ๋จ์ ์งํ(ํ๊ท CE, perplexity)๋ ๋ชจ๋ธ๋ง ํ์ง๊ณผ ๋ฌด๊ดํ๊ฒ ๋ณํ๋ค. ์กฐ์กํ ํ ํฌ๋์ด์ (์ ์ ์์ ๊ธด ํ ํฐ)๋ฅผ ์ฐ๋ฉด ๋ถ๋ชจ๊ฐ ๋ฐ๋์ด perplexity๊ฐ ๋ฎ์ ๋ณด์ด๋ ์ฐฉ์๊ฐ ๋ฐ์ํ๋ค.
BPB๋ ์์ UTF-8 ๋ฐ์ดํธ ๊ธฐ์ค์ผ๋ก ์ ๊ทํํ๋ฏ๋ก, ์ด๋ค ํ ํฌ๋์ด์ ๋ฅผ ์ฐ๋ ๋์ผํ โํ ์คํธ ์์ถ ๋ฅ๋ ฅโ์ ์ธก์ ํ๋ค.