-
Notifications
You must be signed in to change notification settings - Fork 234
预训练语料
Li Yudong (李煜东) edited this page May 26, 2023
·
2 revisions
Chinese-LLaMA 使用的预训练包含 CLUECorpusSmall、中英文翻译数据、News Commentary v13 和中文科学文献数据 CSL。
下载语料后,合并到一个 .txt 文件并按行随机打乱,语料格式如下:
doc1
doc2
doc3
为了支持代码等包含换行符的数据,预训练数据也可以整理成jsonl格式,格式如下:
{"text": "doc1"}
{"text": "doc2"}
{"text": "doc3"}