预训练语料

Jump to bottom

Li Yudong (李煜东) edited this page May 26, 2023 · 2 revisions

txt 预训练语料

Chinese-LLaMA 使用的预训练包含 CLUECorpusSmall、中英文翻译数据、News Commentary v13 和中文科学文献数据 CSL。

下载语料后，合并到一个 .txt 文件并按行随机打乱，语料格式如下：

doc1
doc2
doc3

jsonl 预训练语料

为了支持代码等包含换行符的数据，预训练数据也可以整理成jsonl格式，格式如下：

{"text": "doc1"}
{"text": "doc2"}
{"text": "doc3"}