部分页面识别结果不准确 #152

WyHy · 2024-07-15T14:04:56Z

在我的case中，结果不准确包含以下几方面：

大部分情况下，结果是准确的。我想了解下，以上问题出现的原因及解决方案，非常感谢

test.pdf
magic-pdf pdf-command --pdf "test.pdf" --inside_model true

Linux

3.10

cuda

The text was updated successfully, but these errors were encountered:

drunkpig · 2024-07-15T14:13:19Z

@WyHy 目前版面模型支持较好的文档格式大致有中英文论文，科技杂志、中文财报、中英文正规出版物书籍。你给出的体检单看上去和我们模型训练中使用较多的数据风格上有较大差距，因此效果表现不佳。
是否有意提供一批这样的数据，用于模型在这方面的增强？

WyHy · 2024-07-16T02:57:33Z

@WyHy 目前版面模型支持较好的文档格式大致有中英文论文，科技杂志、中文财报、中英文正规出版物书籍。你给出的体检单看上去和我们模型训练中使用较多的数据风格上有较大差距，因此效果表现不佳。是否有意提供一批这样的数据，用于模型在这方面的增强？

@drunkpig 留个联系方式，我有一些网上找的资源，私发你哈

drunkpig · 2024-07-16T07:33:33Z

我的WX @WyHy

WyHy added the bug Something isn't working label Jul 15, 2024

Provide feedback