关于Tokenizer对于一些特殊词的失效 #920

Mr-KenLee · 2024-03-04T18:43:05Z

Mr-KenLee
Mar 4, 2024

我在使用tokenizer对例如“你好”进行编码的时候，得到的结果是[36474, 54591, 1833, 30917, 30994]，即作为eos_token的""被拆分成了1833, 30917, 30994，请问这是什么原因呢？
我的代码如下：

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("chatglm3-6b", trust_remote_code=True)
token_ids = tokenizer.encode("你好</s>", add_special_tokens=False)
print(token_ids)

Answered by zRzRzRzRzRzRzR

Mar 6, 2024

按照 basic_demo 中读入tokenizer等方法读入，我们有自己的模板

View full answer

zRzRzRzRzRzRzR · 2024-03-06T03:20:47Z

zRzRzRzRzRzRzR
Mar 6, 2024
Maintainer

按照 basic_demo 中读入tokenizer等方法读入，我们有自己的模板

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于Tokenizer对于一些特殊词的失效 #920

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 1 comment

{{title}}

Select a reply

关于Tokenizer对于一些特殊词的失效 #920

Mr-KenLee Mar 4, 2024

Replies: 1 comment

zRzRzRzRzRzRzR Mar 6, 2024 Maintainer

Mr-KenLee
Mar 4, 2024

zRzRzRzRzRzRzR
Mar 6, 2024
Maintainer