ChatGLM2中的的那个使用 load_model_on_gpus 指定在多卡上做推理的方法适用于 ChatGLM3么？ #861

davidjia1972 · 2024-02-23T06:13:04Z

davidjia1972
Feb 23, 2024

我把ChatGLM2里面的 utils.py 复制过来，用load_model_on_gpus指定2个 GPU，用 cli_batch_demo做测试，发现总耗时没有变化，这个是因为 load_model_on_gpus 的方法不适用于 ChatGLM3，还是因为 cli_batch_demo 没法用多卡做推理？

Answered by zRzRzRzRzRzRzR

Feb 24, 2024

可以，但是不如用auto，glm3现在device map = True就行了

View full answer

zRzRzRzRzRzRzR · 2024-02-24T02:34:59Z

zRzRzRzRzRzRzR
Feb 24, 2024
Maintainer

可以，但是不如用auto，glm3现在device map = True就行了

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ChatGLM2中的的那个使用 load_model_on_gpus 指定在多卡上做推理的方法适用于 ChatGLM3么？ #861

{{title}}

Replies: 1 comment

{{title}}

Select a reply

ChatGLM2中的的那个使用 load_model_on_gpus 指定在多卡上做推理的方法适用于 ChatGLM3么？ #861

davidjia1972 Feb 23, 2024

Replies: 1 comment

zRzRzRzRzRzRzR Feb 24, 2024 Maintainer

davidjia1972
Feb 23, 2024

zRzRzRzRzRzRzR
Feb 24, 2024
Maintainer