• **BPB (Bits Per Byte)**๋Š” ๋ชจ๋ธ์ด ๋‹ค์Œ ๋ฐ”์ดํŠธ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ํ‰๊ท  ๋น„ํŠธ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ† ํฌ๋‚˜์ด์ € ๋ฌด๊ด€ ํ‰๊ฐ€ ์ง€ํ‘œ
  • ํฌ๋กœ์Šค์—”ํŠธ๋กœํ”ผ ์†์‹ค์„ ๋ฐ”์ดํŠธ ๋‹จ์œ„๋กœ ์ •๊ทœํ™”ํ•œ ์ •๋ณด ์ด๋ก  ๊ธฐ๋ฐ˜ ์••์ถ• ํšจ์œจ ์ฒ™๋„
  • ๋‚ฎ์„์ˆ˜๋ก ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•˜๊ณ  ์žˆ์Œ์„ ์˜๋ฏธํ•˜๋Š” ๋‹จ์กฐ ๊ฐ์†Œ ๋ชฉํ‘œ ํ•จ์ˆ˜

ํ•ด๋‹น ๊ฐœ๋…์ด ํ•„์š”ํ•œ ์ด์œ 

  • Perplexity๋Š” ํ† ํฌ๋‚˜์ด์ €์— ์˜์กดํ•˜๋ฏ€๋กœ, ์–ดํœ˜ ํฌ๊ธฐ๊ฐ€ ๋‹ค๋ฅธ ๋ชจ๋ธ ๊ฐ„ ๊ณต์ •ํ•œ ๋น„๊ต๊ฐ€ ๋ถˆ๊ฐ€๋Šฅ
  • autoresearch์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ์–ดํœ˜ ํฌ๊ธฐ๋‚˜ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๋ณ€๊ฒฝํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ํ† ํฌ๋‚˜์ด์ € ๋ฌด๊ด€ ์ง€ํ‘œ๊ฐ€ ํ•„์ˆ˜

Perplexity์™€์˜ ํ•ต์‹ฌ ์ฐจ์ด

์ง€ํ‘œ์ •์˜๋‹จ์œ„ํ† ํฌ๋‚˜์ด์ € ์˜์กด?
Cross-Entropy๋ชจ๋ธ ๋ถ„ํฌ๋กœ ๋ฐ์ดํ„ฐ ์ธ์ฝ”๋”ฉ์— ํ•„์š”ํ•œ ๋น„ํŠธnats/bitsO (ํ† ํฐ ๋‹จ์œ„)
Perplexityexp(ํ† ํฐ๋‹น ํฌ๋กœ์Šค์—”ํŠธ๋กœํ”ผ)โ€œ์œ ํšจ ์„ ํƒ์ง€ ์ˆ˜โ€O
BPB๋ฐ”์ดํŠธ๋‹น ํฌ๋กœ์Šค์—”ํŠธ๋กœํ”ผbits/byteX

์ˆ˜์‹ ๊ด€๊ณ„

BPB = CrossEntropy ร— (1/ln(2)) / bytes_per_token
Perplexity = 2^(bytes_per_word ร— BPB)

50K ์–ดํœ˜ ๋ชจ๋ธ๊ณผ 8K ์–ดํœ˜ ๋ชจ๋ธ์ด ๋™์ผํ•œ ํ…์ŠคํŠธ๋ฅผ ๊ฐ™์€ ์ˆ˜์ค€์œผ๋กœ ์••์ถ•ํ•˜๋”๋ผ๋„ perplexity๋Š” ๋‹ค๋ฅด๊ฒŒ ๋‚˜์˜จ๋‹ค. BPB๋Š” UTF-8 ๋ฐ”์ดํŠธ ๊ธฐ์ค€์œผ๋กœ ์ •๊ทœํ™”ํ•˜๋ฏ€๋กœ ์ด ๋ฌธ์ œ๊ฐ€ ์—†๋‹ค.

ํ† ํฌ๋‚˜์ด์ € ๋ฌด๊ด€์„ฑ์ด ์ค‘์š”ํ•œ ์ด์œ 

ํ† ํฐ์˜ ์ •์˜๋Š” ํ† ํฌ๋‚˜์ด์ €(BPE, Unigram, merge ๊ทœ์น™, ํŠน์ˆ˜ ํ† ํฐ ๋“ฑ)์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค. ๋™์ผํ•œ ๋ฌธ์žฅ์ด๋ผ๋„ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๋ฐ”๊พธ๋ฉด ํ† ํฐ ์ˆ˜๊ฐ€ ๋‹ฌ๋ผ์ง€๋ฏ€๋กœ, ํ† ํฐ ๋‹จ์œ„ ์ง€ํ‘œ(ํ‰๊ท  CE, perplexity)๋Š” ๋ชจ๋ธ๋ง ํ’ˆ์งˆ๊ณผ ๋ฌด๊ด€ํ•˜๊ฒŒ ๋ณ€ํ•œ๋‹ค. ์กฐ์žกํ•œ ํ† ํฌ๋‚˜์ด์ €(์ ์€ ์ˆ˜์˜ ๊ธด ํ† ํฐ)๋ฅผ ์“ฐ๋ฉด ๋ถ„๋ชจ๊ฐ€ ๋ฐ”๋€Œ์–ด perplexity๊ฐ€ ๋‚ฎ์•„ ๋ณด์ด๋Š” ์ฐฉ์‹œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

BPB๋Š” ์›์‹œ UTF-8 ๋ฐ”์ดํŠธ ๊ธฐ์ค€์œผ๋กœ ์ •๊ทœํ™”ํ•˜๋ฏ€๋กœ, ์–ด๋–ค ํ† ํฌ๋‚˜์ด์ €๋ฅผ ์“ฐ๋“  ๋™์ผํ•œ โ€œํ…์ŠคํŠธ ์••์ถ• ๋Šฅ๋ ฅโ€์„ ์ธก์ •ํ•œ๋‹ค.

์ฐธ๊ณ  ๋ฌธ์„œ