Skip to content

预训练语料

Li Yudong (李煜东) edited this page May 26, 2023 · 2 revisions

txt 预训练语料

Chinese-LLaMA 使用的预训练包含 CLUECorpusSmall、中英文翻译数据、News Commentary v13中文科学文献数据 CSL

下载语料后,合并到一个 .txt 文件并按行随机打乱,语料格式如下:

doc1
doc2
doc3

jsonl 预训练语料

为了支持代码等包含换行符的数据,预训练数据也可以整理成jsonl格式,格式如下:

{"text": "doc1"}
{"text": "doc2"}
{"text": "doc3"}