-
Notifications
You must be signed in to change notification settings - Fork 994
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
解析pdf中的html链接,会出现多余空格 #757
Comments
请把pdf文件上传一下 |
从spans文件中看,划分是正确的,但是md文件就会出现多余的空格 |
是我需要下载最新版本的magic-pdf就能解决吗?我默认使用的就是auto,只是在pipe/UNiPipe中,选择了PIP_ocr,而不是PIP_txt |
新版本没有release,仅在dev分支进行测试。因为涉及到一些模型的更新,目前不能直接更新,请等待后续新版本发布。 |
我使用的是dev分支的版本 |
这个版本是只更新了代码,扩大了框选范围,还是也更新了模型?是替换了模型吗? |
模型有更新,解析处理的逻辑也有更新,这个版本的变动是比较大的 |
好嘞,期待新版本了 |
我用了dev版本,结果还是会出现空格,估计是没换模型的原因吧,我模型还是用之前的 |
空格和模型无关,dev不能直接升级,估计你这个是没安装成功 |
嗯嗯,是我的问题,安装了dev的包,但是magic-pdf还是用之前下载的,卸载magic-pdf后,pip install -e . 就使用dev的版本了,报错模型不对,我安装模型试试,抱歉 |
Description of the bug | 错误描述
解析pdf中的html链接,会出现多余空格
How to reproduce the bug | 如何复现
正常运行提取pdf,但不使用公式识别,只用layoutlmv3和paddleocr
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
0.8.x
Device mode | 设备模式
cuda
The text was updated successfully, but these errors were encountered: