分词质量堪忧啊 #771

wencan · 2024-01-20T12:43:29Z

wencan
Jan 20, 2024

import sentencepiece
sp = sentencepiece.SentencePieceProcessor()
sp.load('/home/wencan/.cache/huggingface/hub/models--THUDM--chatglm3-6b-base/snapshots/f91a1de587fdc692073367198e65369669a0b49d/tokenizer.model' )
sp.EncodeAsPieces('百度官方出品，百度公司CTO王海峰博士作序，张钹院士、李未院士、百度集团副总裁吴甜联袂推荐！结合新近PaddlePaddle版本，融合大量实践案例，让你从“零基础”到“全精通”，深入掌握深度学习的知识')

得到：

['▁', '百度', '官方', '出品', '，', '百度', '公司', 'CT', 'O', '王', '海', '峰', '博士', '作', '序', '，', '张', '钹', '院士', '、', '李', '未', '院士', '、', '百度', '集团', '副总裁', '吴', '甜', '联', '袂', '推荐', '！', '结合', '新', '近', 'P', 'add', 'le', 'P', 'add', 'le', '版本', '，', '融合', '大量', '实践', '案例', '，', '让你', '从', '“', '零', '基础', '”', '到', '“', '全', '精通', '”，', '深入', '掌握', '深度', '学习的', '知识']

本人小白
貌似ChatGLM的分词模型，是google/sentencepiece无监督训练得到的。
想请问：

ChatGLM中文分词训练语料库的大小？
较差的分词结果对模型结果的影响？

zRzRzRzRzRzRzR · 2024-01-21T08:10:17Z

zRzRzRzRzRzRzR
Jan 21, 2024
Maintainer

是的，这个分词是GLM自己的，这个肯定影响匹配，特别是如果你有特殊词汇，但是正常对话不影响的

0 replies

wencan · 2024-01-21T10:51:24Z

wencan
Jan 21, 2024
Author

@zRzRzRzRzRzRzR
我的想法是移除对话层，加一个自己的翻译任务层
如果我用自己训练的分词器，当然，其它部分还是glm的，比如词id
这样是否可行？效果是否更好？

2 replies

zRzRzRzRzRzRzR Jan 28, 2024
Maintainer

不太可能行，因为这是预训练的词表诶

leosongwei Feb 13, 2024

如果你很有钱，理论上可以重新训练embedding和前几层？

不过现在这个样子，即便是做日中翻译也还挺好的。

wencan · 2024-01-21T10:52:03Z

wencan
Jan 21, 2024
Author

如果glm在大规模语料上训练过分词器
分词效果是否不至于如此？

1 reply

zRzRzRzRzRzRzR Jan 28, 2024
Maintainer

这个我不太清楚，分词器相关技术文档没有公开

leosongwei · 2024-02-08T11:47:08Z

leosongwei
Feb 8, 2024

在一些古老的多的模型上喂过很不利于分词的东西（BERT时代的破玩意儿），分得也一塌糊涂，但最终效果还行

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

分词质量堪忧啊 #771

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 4 comments 3 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

分词质量堪忧啊 #771

wencan Jan 20, 2024

Replies: 4 comments · 3 replies

zRzRzRzRzRzRzR Jan 21, 2024 Maintainer

wencan Jan 21, 2024 Author

zRzRzRzRzRzRzR Jan 28, 2024 Maintainer

leosongwei Feb 13, 2024

wencan Jan 21, 2024 Author

zRzRzRzRzRzRzR Jan 28, 2024 Maintainer

leosongwei Feb 8, 2024

wencan
Jan 20, 2024

Replies: 4 comments 3 replies

zRzRzRzRzRzRzR
Jan 21, 2024
Maintainer

wencan
Jan 21, 2024
Author

zRzRzRzRzRzRzR Jan 28, 2024
Maintainer

wencan
Jan 21, 2024
Author

zRzRzRzRzRzRzR Jan 28, 2024
Maintainer

leosongwei
Feb 8, 2024