[GH-ISSUE #4403] 为什么同样的脚本(Qwen1.5/examples/web_demo.py)去执行Qwen1.5-32B-Chat-GPTQ-Int4的推理时,4090 24G 比 V100 32G 回答速度快了5倍,这是什么原因,是显卡性能的问题,还是代码还有哪个配置没有打开,导致V100的计算能力没有发挥出来? #2753

Closed
opened 2026-04-12 13:03:53 -05:00 by GiteaMirror · 1 comment
Owner

Originally created by @lbl1120 on GitHub (May 13, 2024).
Original GitHub issue: https://github.com/ollama/ollama/issues/4403

为什么同样的脚本(Qwen1.5/examples/web_demo.py)去执行Qwen1.5-32B-Chat-GPTQ-Int4的推理时,4090 24G 比 V100 32G 回答速度快了5倍,这是什么原因,是显卡性能的问题,还是代码还有哪个配置没有打开,导致V100的计算能力没有发挥出来?
Uploading 屏幕截图 2024-05-13 212724.png…

Originally created by @lbl1120 on GitHub (May 13, 2024). Original GitHub issue: https://github.com/ollama/ollama/issues/4403 为什么同样的脚本(Qwen1.5/examples/web_demo.py)去执行Qwen1.5-32B-Chat-GPTQ-Int4的推理时,4090 24G 比 V100 32G 回答速度快了5倍,这是什么原因,是显卡性能的问题,还是代码还有哪个配置没有打开,导致V100的计算能力没有发挥出来? ![Uploading 屏幕截图 2024-05-13 212724.png…]()
GiteaMirror added the feature request label 2026-04-12 13:03:53 -05:00
Author
Owner

@mchiang0610 commented on GitHub (May 13, 2024):

NVIDIA v100 的显示卡是 6年前的
NVIDIA 4090 是用新的架构做出来的. 会快非常多

<!-- gh-comment-id:2108366787 --> @mchiang0610 commented on GitHub (May 13, 2024): NVIDIA v100 的显示卡是 6年前的 NVIDIA 4090 是用新的架构做出来的. 会快非常多
Sign in to join this conversation.
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: github-starred/ollama#2753