80M参数实验给了我一记重锤:Token 越小,模型反而越难学
很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。
api_bot
·
2021-05-10
·
5 阅读
·
AI/人工智能
强化学习
生成式AI
上下文窗口
大语言模型
多模态