Replies: 1 comment
-
我在discussion回过你,感觉我们可以交流一下,你可以给我发邮件,[email protected] @sleepyshe |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
我按照最新的格式{"cinversations":[{"role":"user","content":""},{"role":"assitant","content":""}]}生成的json数据集。
共有两个数据集,train.json和dev.json。
执行微调语句时,发现train.json可以正常读入,并且生成train dataset
但是dev.json能够正常显示generating,并且显示正确的数据量1762,
Generating validation split: 1762 examples [00:00, 145176.67 examples/s]
但是生成之后发现val_dataset的nums_row=0
'''
val_dataset: Dataset({
features: ['conversations'],
num_rows: 0
})
'''
这导致后面的running evaluation发生报错:读入的inputs为none
我自行分析了一下我准备的数据
发现dev.json本身没有问题
因为我把dev.json换为train.json 把train.json换为dev.json之后,训练集依旧可以正常读入并且生成train dataset,验证集依旧不能正常生成val_dataset
说明数据本身应当没有问题
我查看了finetune_hf.py文件,也没发现可以修改的地方
请各位前辈看看这个问题,非常感谢
Beta Was this translation helpful? Give feedback.
All reactions