[GH-ISSUE #13163] Ollama 0.12.11 Not Using GPU on RTX 5070 Ti (Blackwell/CC 12.0) #8704

New Issue

GiteaMirror · 2026-04-12T21:28:37-05:00

GiteaMirror commented

2026-04-12 21:28:37 -05:00

Originally created by @deparko on GitHub (Nov 19, 2025).
Original GitHub issue: https://github.com/ollama/ollama/issues/13163

Originally assigned to: @dhiltgen on GitHub.

What is the issue?

Description

Ollama 0.12.11 fails to detect and use the GPU for local models on NVIDIA GeForce RTX 5070 Ti (Blackwell architecture, Compute Capability 12.0). The GPU is functional and accessible, but Ollama immediately falls back to CPU-only mode without error messages.

Critical: This worked before November 17, 2025, indicating a regression or compatibility issue with Blackwell architecture.

Environment

OS: Ubuntu 25.04 (GNU/Linux 6.14.0-35-generic x86_64)
GPU: NVIDIA GeForce RTX 5070 Ti (16GB VRAM)
GPU Compute Capability: 12.0 (Blackwell architecture)
GPU Driver: 580.95.05
CUDA Runtime: 12.2.140
Ollama Version: 0.12.11 (latest, clean install)
Installation Method: Standalone binary via systemd service

Steps to Reproduce

Install Ollama 0.12.11 on system with RTX 5070 Ti

Configure minimal systemd override:

[Service]
Environment=OLLAMA_MODELS=/mnt/shared/ollama-models/models
Environment=CUDA_VISIBLE_DEVICES=0

Start Ollama service: sudo systemctl start ollama.service
Load a model: ollama run llama3.1:8b
Check GPU usage: ollama ps or curl http://localhost:11434/api/ps

Expected Behavior

Ollama should detect GPU and initialize CUDA backend
Models should offload layers to GPU
ollama ps should show non-zero size_vram
Logs should show: ggml_cuda_init: found 1 CUDA devices and load_backend: loaded CUDA backend

Actual Behavior

Ollama discovers GPU but immediately falls back to CPU
All models show size_vram: 0 MB

Logs show:

msg="discovering available GPUs..."
msg="inference compute" id=cpu library=cpu
msg="entering low vram mode" "total vram"="0 B"

No error messages (silent fallback)
Models run on CPU (slow performance: ~60+ seconds for simple queries)

Evidence It Previously Worked

Logs from November 17, 2025 (when GPU was working):

ggml_cuda_init: found 1 CUDA devices
load_backend: loaded CUDA backend from /usr/local/lib/ollama/cuda_v13/libggml-cuda.so
device=GPU for model weights and KV cache
offloaded 41/41 layers to GPU

After system reboot on November 18, 2025: GPU detection stopped working.

Troubleshooting Attempted

✅ Set environment variables (OLLAMA_NUM_GPU=1, CUDA_VISIBLE_DEVICES=0)
✅ Reinstalled Ollama binary (v0.12.11 from GitHub releases)
✅ Manual CUDA library path configuration (LD_LIBRARY_PATH)
✅ Created symlinks for CUDA libraries
✅ Clean install: Complete removal of all Ollama files/configs + fresh install
✅ Minimal configuration (removed all manual overrides, let Ollama auto-discover)

Result: All attempts show identical behavior - GPU discovery runs but immediately falls back to CPU within ~13ms.

GPU Verification

GPU is functional and accessible:

$ nvidia-smi
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.95.05              Driver Version: 580.95.05      CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|   0  NVIDIA GeForce RTX 5070 Ti     Off |   00000000:01:00.0 Off |                  N/A |
|  0%   40C    P8             18W /  300W |   13051MiB /  16303MiB |      0%      Default |
+-----------------------------------------+------------------------+----------------------+

Other services successfully use GPU:

RAG service uses GPU for embeddings/reranking (NomicEmbedder + BGE Reranker on CUDA)
gnome-shell uses GPU for graphics

Ollama Service Logs

$ journalctl -u ollama.service --since '10 seconds ago' | grep -i -E 'gpu|cuda|vram|compute|discovering'
Nov 18 22:49:19 Tatami ollama[31412]: msg="discovering available GPUs..."
Nov 18 22:49:19 Tatami ollama[31412]: msg="inference compute" id=cpu library=cpu
Nov 18 22:49:19 Tatami ollama[31412]: msg="entering low vram mode" "total vram"="0 B"

Model Status

$ curl -s http://localhost:11434/api/ps | jq
[
  {
    "name": "llama3.1:8b",
    "model": "llama3.1:8b",
    "size": 4630000000,
    "size_vram": 0,  # <-- Should be non-zero
    "context_length": 4096
  }
]

Hypothesis

Ollama 0.12.11 may not support Compute Capability 12.0 (Blackwell architecture) yet.

The RTX 5070 Ti is very new hardware, and Ollama's bundled CUDA runners may not include kernels compiled for CC 12.0. When CUDA backend initialization fails, Ollama gracefully falls back to CPU without error messages.

Questions

Does Ollama 0.12.11 support Compute Capability 12.0 (Blackwell)?
Are there any debug flags to get more verbose CUDA initialization logs?
Is there a known issue or workaround for RTX 50-series GPUs?
Should I try rolling back to an older Ollama version that worked before Nov 17?

Additional Context

Models tested: llama3.1:8b, qwen3:14b, qwen:14b - all show same behavior
Cloud models: Work fine (authenticated with Ollama Cloud)
Service configuration: Minimal systemd override (no manual library paths)

This may be related to CUDA compute capability support
Similar issues may exist for other RTX 50-series GPUs (Blackwell architecture)

Relevant log output

### Ollama Service Logs


Nov 19 13:20:52 Tatami systemd[1]: Started ollama.service - Ollama Service.
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.536-08:00 level=INFO source=routes.go:1544 msg="server config" env="map[CUDA_VISIBLE_DEVICES:0 GGML_VK_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:4096 OLLAMA_DEBUG:INFO OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://0.0.0.0:11434 OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:/mnt/shared/ollama-models/models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_REMOTES:[ollama.com] OLLAMA_SCHED_SPREAD:false OLLAMA_VULKAN:false ROCR_VISIBLE_DEVICES: http_proxy: https_proxy: no_proxy:]"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.539-08:00 level=INFO source=images.go:522 msg="total blobs: 73"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.539-08:00 level=INFO source=images.go:529 msg="total unused blobs removed: 0"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=routes.go:1597 msg="Listening on [::]:11434 (version 0.12.11)"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=runner.go:67 msg="discovering available GPUs..."
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=server.go:392 msg="starting runner" cmd="/usr/local/bin/ollama runner --ollama-engine --port 35681"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.555-08:00 level=INFO source=types.go:60 msg="inference compute" id=cpu library=cpu compute="" name=cpu description=cpu libdirs=ollama driver="" pci_id="" type="" total="122.6 GiB" available="109.1 GiB"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.555-08:00 level=INFO source=routes.go:1638 msg="entering low vram mode" "total vram"="0 B" threshold="20.0 GiB"
Nov 19 13:20:52 Tatami systemd[1]: Started ollama.service - Ollama Service.
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.536-08:00 level=INFO source=routes.go:1544 msg="server config" env="map[CUDA_VISIBLE_DEVICES:0 GGML_VK_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:4096 OLLAMA_DEBUG:INFO OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://0.0.0.0:11434 OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:/mnt/shared/ollama-models/models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_REMOTES:[ollama.com] OLLAMA_SCHED_SPREAD:false OLLAMA_VULKAN:false ROCR_VISIBLE_DEVICES: http_proxy: https_proxy: no_proxy:]"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.539-08:00 level=INFO source=images.go:522 msg="total blobs: 73"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.539-08:00 level=INFO source=images.go:529 msg="total unused blobs removed: 0"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=routes.go:1597 msg="Listening on [::]:11434 (version 0.12.11)"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=runner.go:67 msg="discovering available GPUs..."
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=server.go:392 msg="starting runner" cmd="/usr/local/bin/ollama runner --ollama-engine --port 35681"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.555-08:00 level=INFO source=types.go:60 msg="inference compute" id=cpu library=cpu compute="" name=cpu description=cpu libdirs=ollama driver="" pci_id="" type="" total="122.6 GiB" available="109.1 GiB"
Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.555-08:00 level=INFO source=routes.go:1638 msg="entering low vram mode" "total vram"="0 B" threshold="20.0 GiB"
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: loaded meta data with 29 key-value pairs and 292 tensors from /mnt/shared/ollama-models/models/blobs/sha256-667b0c1932bc6ffc593ed1d03f895bf2dc8dc6df21db3042284a6f4416b06a29 (version GGUF V3 (latest))
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   0:                       general.architecture str              = llama
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   1:                               general.type str              = model
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   2:                               general.name str              = Meta Llama 3.1 8B Instruct
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   3:                           general.finetune str              = Instruct
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   4:                           general.basename str              = Meta-Llama-3.1
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   5:                         general.size_label str              = 8B
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   6:                            general.license str              = llama3.1
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   7:                               general.tags arr[str,6]       = ["facebook", "meta", "pytorch", "llam...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   8:                          general.languages arr[str,8]       = ["en", "de", "fr", "it", "pt", "hi", ...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   9:                          llama.block_count u32              = 32
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  10:                       llama.context_length u32              = 131072
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  11:                     llama.embedding_length u32              = 4096
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  12:                  llama.feed_forward_length u32              = 14336
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  13:                 llama.attention.head_count u32              = 32
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  14:              llama.attention.head_count_kv u32              = 8
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  15:                       llama.rope.freq_base f32              = 500000.000000
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  16:     llama.attention.layer_norm_rms_epsilon f32              = 0.000010
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  17:                          general.file_type u32              = 15
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  18:                           llama.vocab_size u32              = 128256
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  19:                 llama.rope.dimension_count u32              = 128
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  20:                       tokenizer.ggml.model str              = gpt2
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  21:                         tokenizer.ggml.pre str              = llama-bpe
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  22:                      tokenizer.ggml.tokens arr[str,128256]  = ["!", "\"", "#", "$", "%", "&", "'", ...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  23:                  tokenizer.ggml.token_type arr[i32,128256]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  24:                      tokenizer.ggml.merges arr[str,280147]  = ["Ġ Ġ", "Ġ ĠĠĠ", "ĠĠ ĠĠ", "...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  25:                tokenizer.ggml.bos_token_id u32              = 128000
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  26:                tokenizer.ggml.eos_token_id u32              = 128009
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  27:                    tokenizer.chat_template str              = {{- bos_token }}\n{%- if custom_tools ...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  28:               general.quantization_version u32              = 2
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type  f32:   66 tensors
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type q4_K:  193 tensors
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type q6_K:   33 tensors
Nov 19 13:20:58 Tatami ollama[84614]: print_info: file format = GGUF V3 (latest)
Nov 19 13:20:58 Tatami ollama[84614]: print_info: file type   = Q4_K - Medium
Nov 19 13:20:58 Tatami ollama[84614]: print_info: file size   = 4.58 GiB (4.89 BPW)
Nov 19 13:20:58 Tatami ollama[84614]: load: printing all EOG tokens:
Nov 19 13:20:58 Tatami ollama[84614]: load:   - 128001 ('<|end_of_text|>')
Nov 19 13:20:58 Tatami ollama[84614]: load:   - 128008 ('<|eom_id|>')
Nov 19 13:20:58 Tatami ollama[84614]: load:   - 128009 ('<|eot_id|>')
Nov 19 13:20:58 Tatami ollama[84614]: load: special tokens cache size = 256
Nov 19 13:20:58 Tatami ollama[84614]: load: token to piece cache size = 0.7999 MB
Nov 19 13:20:58 Tatami ollama[84614]: print_info: arch             = llama
Nov 19 13:20:58 Tatami ollama[84614]: print_info: vocab_only       = 1
Nov 19 13:20:58 Tatami ollama[84614]: print_info: model type       = ?B
Nov 19 13:20:58 Tatami ollama[84614]: print_info: model params     = 8.03 B
Nov 19 13:20:58 Tatami ollama[84614]: print_info: general.name     = Meta Llama 3.1 8B Instruct
Nov 19 13:20:58 Tatami ollama[84614]: print_info: vocab type       = BPE
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_vocab          = 128256
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_merges         = 280147
Nov 19 13:20:58 Tatami ollama[84614]: print_info: BOS token        = 128000 '<|begin_of_text|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOS token        = 128009 '<|eot_id|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOT token        = 128009 '<|eot_id|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOM token        = 128008 '<|eom_id|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: LF token         = 198 'Ċ'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token        = 128001 '<|end_of_text|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token        = 128008 '<|eom_id|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token        = 128009 '<|eot_id|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: max token length = 256
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_load: vocab only - skipping tensors
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.394-08:00 level=INFO source=server.go:392 msg="starting runner" cmd="/usr/local/bin/ollama runner --model /mnt/shared/ollama-models/models/blobs/sha256-667b0c1932bc6ffc593ed1d03f895bf2dc8dc6df21db3042284a6f4416b06a29 --port 41617"
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.394-08:00 level=INFO source=sched.go:443 msg="system memory" total="122.6 GiB" free="109.1 GiB" free_swap="8.0 GiB"
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.394-08:00 level=INFO source=server.go:459 msg="loading model" "model layers"=33 requested=-1
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.395-08:00 level=INFO source=device.go:245 msg="model weights" device=CPU size="4.3 GiB"
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.395-08:00 level=INFO source=device.go:256 msg="kv cache" device=CPU size="512.0 MiB"
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.395-08:00 level=INFO source=device.go:272 msg="total memory" size="4.8 GiB"
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.403-08:00 level=INFO source=runner.go:963 msg="starting go runner"
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.403-08:00 level=INFO source=ggml.go:104 msg=system CPU.0.LLAMAFILE=1 compiler=cgo(gcc)
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.404-08:00 level=INFO source=runner.go:999 msg="Server listening on 127.0.0.1:41617"
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.406-08:00 level=INFO source=runner.go:893 msg=load request="{Operation:commit LoraPath:[] Parallel:1 BatchSize:512 FlashAttention:false KvSize:4096 KvCacheType: NumThreads:8 GPULayers:[] MultiUserCache:false ProjectorPath: MainGPU:0 UseMmap:false}"
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.406-08:00 level=INFO source=server.go:1294 msg="waiting for llama runner to start responding"
Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.406-08:00 level=INFO source=server.go:1328 msg="waiting for server to become available" status="llm server loading model"
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: loaded meta data with 29 key-value pairs and 292 tensors from /mnt/shared/ollama-models/models/blobs/sha256-667b0c1932bc6ffc593ed1d03f895bf2dc8dc6df21db3042284a6f4416b06a29 (version GGUF V3 (latest))
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   0:                       general.architecture str              = llama
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   1:                               general.type str              = model
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   2:                               general.name str              = Meta Llama 3.1 8B Instruct
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   3:                           general.finetune str              = Instruct
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   4:                           general.basename str              = Meta-Llama-3.1
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   5:                         general.size_label str              = 8B
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   6:                            general.license str              = llama3.1
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   7:                               general.tags arr[str,6]       = ["facebook", "meta", "pytorch", "llam...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   8:                          general.languages arr[str,8]       = ["en", "de", "fr", "it", "pt", "hi", ...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv   9:                          llama.block_count u32              = 32
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  10:                       llama.context_length u32              = 131072
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  11:                     llama.embedding_length u32              = 4096
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  12:                  llama.feed_forward_length u32              = 14336
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  13:                 llama.attention.head_count u32              = 32
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  14:              llama.attention.head_count_kv u32              = 8
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  15:                       llama.rope.freq_base f32              = 500000.000000
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  16:     llama.attention.layer_norm_rms_epsilon f32              = 0.000010
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  17:                          general.file_type u32              = 15
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  18:                           llama.vocab_size u32              = 128256
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  19:                 llama.rope.dimension_count u32              = 128
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  20:                       tokenizer.ggml.model str              = gpt2
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  21:                         tokenizer.ggml.pre str              = llama-bpe
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  22:                      tokenizer.ggml.tokens arr[str,128256]  = ["!", "\"", "#", "$", "%", "&", "'", ...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  23:                  tokenizer.ggml.token_type arr[i32,128256]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  24:                      tokenizer.ggml.merges arr[str,280147]  = ["Ġ Ġ", "Ġ ĠĠĠ", "ĠĠ ĠĠ", "...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  25:                tokenizer.ggml.bos_token_id u32              = 128000
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  26:                tokenizer.ggml.eos_token_id u32              = 128009
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  27:                    tokenizer.chat_template str              = {{- bos_token }}\n{%- if custom_tools ...
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv  28:               general.quantization_version u32              = 2
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type  f32:   66 tensors
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type q4_K:  193 tensors
Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type q6_K:   33 tensors
Nov 19 13:20:58 Tatami ollama[84614]: print_info: file format = GGUF V3 (latest)
Nov 19 13:20:58 Tatami ollama[84614]: print_info: file type   = Q4_K - Medium
Nov 19 13:20:58 Tatami ollama[84614]: print_info: file size   = 4.58 GiB (4.89 BPW)
Nov 19 13:20:58 Tatami ollama[84614]: load: printing all EOG tokens:
Nov 19 13:20:58 Tatami ollama[84614]: load:   - 128001 ('<|end_of_text|>')
Nov 19 13:20:58 Tatami ollama[84614]: load:   - 128008 ('<|eom_id|>')
Nov 19 13:20:58 Tatami ollama[84614]: load:   - 128009 ('<|eot_id|>')
Nov 19 13:20:58 Tatami ollama[84614]: load: special tokens cache size = 256
Nov 19 13:20:58 Tatami ollama[84614]: load: token to piece cache size = 0.7999 MB
Nov 19 13:20:58 Tatami ollama[84614]: print_info: arch             = llama
Nov 19 13:20:58 Tatami ollama[84614]: print_info: vocab_only       = 0
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_ctx_train      = 131072
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_embd           = 4096
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_layer          = 32
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_head           = 32
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_head_kv        = 8
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_rot            = 128
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_swa            = 0
Nov 19 13:20:58 Tatami ollama[84614]: print_info: is_swa_any       = 0
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_embd_head_k    = 128
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_embd_head_v    = 128
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_gqa            = 4
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_embd_k_gqa     = 1024
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_embd_v_gqa     = 1024
Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_norm_eps       = 0.0e+00
Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_norm_rms_eps   = 1.0e-05
Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_clamp_kqv      = 0.0e+00
Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_max_alibi_bias = 0.0e+00
Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_logit_scale    = 0.0e+00
Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_attn_scale     = 0.0e+00
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_ff             = 14336
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_expert         = 0
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_expert_used    = 0
Nov 19 13:20:58 Tatami ollama[84614]: print_info: causal attn      = 1
Nov 19 13:20:58 Tatami ollama[84614]: print_info: pooling type     = 0
Nov 19 13:20:58 Tatami ollama[84614]: print_info: rope type        = 0
Nov 19 13:20:58 Tatami ollama[84614]: print_info: rope scaling     = linear
Nov 19 13:20:58 Tatami ollama[84614]: print_info: freq_base_train  = 500000.0
Nov 19 13:20:58 Tatami ollama[84614]: print_info: freq_scale_train = 1
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_ctx_orig_yarn  = 131072
Nov 19 13:20:58 Tatami ollama[84614]: print_info: rope_finetuned   = unknown
Nov 19 13:20:58 Tatami ollama[84614]: print_info: model type       = 8B
Nov 19 13:20:58 Tatami ollama[84614]: print_info: model params     = 8.03 B
Nov 19 13:20:58 Tatami ollama[84614]: print_info: general.name     = Meta Llama 3.1 8B Instruct
Nov 19 13:20:58 Tatami ollama[84614]: print_info: vocab type       = BPE
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_vocab          = 128256
Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_merges         = 280147
Nov 19 13:20:58 Tatami ollama[84614]: print_info: BOS token        = 128000 '<|begin_of_text|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOS token        = 128009 '<|eot_id|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOT token        = 128009 '<|eot_id|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOM token        = 128008 '<|eom_id|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: LF token         = 198 'Ċ'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token        = 128001 '<|end_of_text|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token        = 128008 '<|eom_id|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token        = 128009 '<|eot_id|>'
Nov 19 13:20:58 Tatami ollama[84614]: print_info: max token length = 256
Nov 19 13:20:58 Tatami ollama[84614]: load_tensors: loading model tensors, this can take a while... (mmap = false)
Nov 19 13:20:58 Tatami ollama[84614]: load_tensors:          CPU model buffer size =  4685.30 MiB
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: constructing llama_context
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_seq_max     = 1
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_ctx         = 4096
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_ctx_per_seq = 4096
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_batch       = 512
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_ubatch      = 512
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: causal_attn   = 1
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: flash_attn    = disabled
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: kv_unified    = false
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: freq_base     = 500000.0
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: freq_scale    = 1
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_ctx_per_seq (4096) < n_ctx_train (131072) -- the full capacity of the model will not be utilized
Nov 19 13:21:00 Tatami ollama[84614]: llama_context:        CPU  output buffer size =     0.50 MiB
Nov 19 13:21:00 Tatami ollama[84614]: llama_kv_cache:        CPU KV buffer size =   512.00 MiB
Nov 19 13:21:00 Tatami ollama[84614]: llama_kv_cache: size =  512.00 MiB (  4096 cells,  32 layers,  1/1 seqs), K (f16):  256.00 MiB, V (f16):  256.00 MiB
Nov 19 13:21:00 Tatami ollama[84614]: llama_context:        CPU compute buffer size =   300.01 MiB
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: graph nodes  = 1158
Nov 19 13:21:00 Tatami ollama[84614]: llama_context: graph splits = 1
Nov 19 13:21:00 Tatami ollama[84614]: time=2025-11-19T13:21:00.412-08:00 level=INFO source=server.go:1332 msg="llama runner started in 2.02 seconds"
Nov 19 13:21:00 Tatami ollama[84614]: time=2025-11-19T13:21:00.412-08:00 level=INFO source=sched.go:517 msg="loaded runners" count=1
Nov 19 13:21:00 Tatami ollama[84614]: time=2025-11-19T13:21:00.412-08:00 level=INFO source=server.go:1294 msg="waiting for llama runner to start responding"
Nov 19 13:21:00 Tatami ollama[84614]: time=2025-11-19T13:21:00.412-08:00 level=INFO source=server.go:1332 msg="llama runner started in 2.02 seconds"
Nov 19 13:21:21 Tatami ollama[84614]: [GIN] 2025/11/19 - 13:21:21 | 200 | 23.341049668s |             ::1 | POST     "/api/generate"

OS

Linux

GPU

Nvidia

CPU

AMD

Ollama version

0.12.11

Originally created by @deparko on GitHub (Nov 19, 2025). Original GitHub issue: https://github.com/ollama/ollama/issues/13163 Originally assigned to: @dhiltgen on GitHub. ### What is the issue? ### Description Ollama 0.12.11 fails to detect and use the GPU for local models on NVIDIA GeForce RTX 5070 Ti (Blackwell architecture, Compute Capability 12.0). The GPU is functional and accessible, but Ollama immediately falls back to CPU-only mode without error messages. **Critical**: This worked before November 17, 2025, indicating a regression or compatibility issue with Blackwell architecture. ### Environment - **OS**: Ubuntu 25.04 (GNU/Linux 6.14.0-35-generic x86_64) - **GPU**: NVIDIA GeForce RTX 5070 Ti (16GB VRAM) - **GPU Compute Capability**: 12.0 (Blackwell architecture) - **GPU Driver**: 580.95.05 - **CUDA Runtime**: 12.2.140 - **Ollama Version**: 0.12.11 (latest, clean install) - **Installation Method**: Standalone binary via systemd service ### Steps to Reproduce 1. Install Ollama 0.12.11 on system with RTX 5070 Ti 2. Configure minimal systemd override: ```ini [Service] Environment=OLLAMA_MODELS=/mnt/shared/ollama-models/models Environment=CUDA_VISIBLE_DEVICES=0 ``` 3. Start Ollama service: `sudo systemctl start ollama.service` 4. Load a model: `ollama run llama3.1:8b` 5. Check GPU usage: `ollama ps` or `curl http://localhost:11434/api/ps` ### Expected Behavior - Ollama should detect GPU and initialize CUDA backend - Models should offload layers to GPU - `ollama ps` should show non-zero `size_vram` - Logs should show: `ggml_cuda_init: found 1 CUDA devices` and `load_backend: loaded CUDA backend` ### Actual Behavior - Ollama discovers GPU but immediately falls back to CPU - All models show `size_vram: 0 MB` - Logs show: ``` msg="discovering available GPUs..." msg="inference compute" id=cpu library=cpu msg="entering low vram mode" "total vram"="0 B" ``` - No error messages (silent fallback) - Models run on CPU (slow performance: ~60+ seconds for simple queries) ### Evidence It Previously Worked **Logs from November 17, 2025** (when GPU was working): ``` ggml_cuda_init: found 1 CUDA devices load_backend: loaded CUDA backend from /usr/local/lib/ollama/cuda_v13/libggml-cuda.so device=GPU for model weights and KV cache offloaded 41/41 layers to GPU ``` **After system reboot on November 18, 2025**: GPU detection stopped working. ### Troubleshooting Attempted 1. ✅ Set environment variables (`OLLAMA_NUM_GPU=1`, `CUDA_VISIBLE_DEVICES=0`) 2. ✅ Reinstalled Ollama binary (v0.12.11 from GitHub releases) 3. ✅ Manual CUDA library path configuration (`LD_LIBRARY_PATH`) 4. ✅ Created symlinks for CUDA libraries 5. ✅ **Clean install**: Complete removal of all Ollama files/configs + fresh install 6. ✅ Minimal configuration (removed all manual overrides, let Ollama auto-discover) **Result**: All attempts show identical behavior - GPU discovery runs but immediately falls back to CPU within ~13ms. ### GPU Verification GPU is functional and accessible: ```bash $ nvidia-smi +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0 | +-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | 0 NVIDIA GeForce RTX 5070 Ti Off | 00000000:01:00.0 Off | N/A | | 0% 40C P8 18W / 300W | 13051MiB / 16303MiB | 0% Default | +-----------------------------------------+------------------------+----------------------+ ``` Other services successfully use GPU: - RAG service uses GPU for embeddings/reranking (NomicEmbedder + BGE Reranker on CUDA) - gnome-shell uses GPU for graphics ### Ollama Service Logs ```bash $ journalctl -u ollama.service --since '10 seconds ago' | grep -i -E 'gpu|cuda|vram|compute|discovering' Nov 18 22:49:19 Tatami ollama[31412]: msg="discovering available GPUs..." Nov 18 22:49:19 Tatami ollama[31412]: msg="inference compute" id=cpu library=cpu Nov 18 22:49:19 Tatami ollama[31412]: msg="entering low vram mode" "total vram"="0 B" ``` ### Model Status ```bash $ curl -s http://localhost:11434/api/ps | jq [ { "name": "llama3.1:8b", "model": "llama3.1:8b", "size": 4630000000, "size_vram": 0, # <-- Should be non-zero "context_length": 4096 } ] ``` ### Hypothesis **Ollama 0.12.11 may not support Compute Capability 12.0 (Blackwell architecture) yet.** The RTX 5070 Ti is very new hardware, and Ollama's bundled CUDA runners may not include kernels compiled for CC 12.0. When CUDA backend initialization fails, Ollama gracefully falls back to CPU without error messages. ### Questions 1. Does Ollama 0.12.11 support Compute Capability 12.0 (Blackwell)? 2. Are there any debug flags to get more verbose CUDA initialization logs? 3. Is there a known issue or workaround for RTX 50-series GPUs? 4. Should I try rolling back to an older Ollama version that worked before Nov 17? ### Additional Context - **Models tested**: `llama3.1:8b`, `qwen3:14b`, `qwen:14b` - all show same behavior - **Cloud models**: Work fine (authenticated with Ollama Cloud) - **Service configuration**: Minimal systemd override (no manual library paths) ### Related - This may be related to CUDA compute capability support - Similar issues may exist for other RTX 50-series GPUs (Blackwell architecture) ### Relevant log output ```shell ### Ollama Service Logs Nov 19 13:20:52 Tatami systemd[1]: Started ollama.service - Ollama Service. Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.536-08:00 level=INFO source=routes.go:1544 msg="server config" env="map[CUDA_VISIBLE_DEVICES:0 GGML_VK_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:4096 OLLAMA_DEBUG:INFO OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://0.0.0.0:11434 OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:/mnt/shared/ollama-models/models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_REMOTES:[ollama.com] OLLAMA_SCHED_SPREAD:false OLLAMA_VULKAN:false ROCR_VISIBLE_DEVICES: http_proxy: https_proxy: no_proxy:]" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.539-08:00 level=INFO source=images.go:522 msg="total blobs: 73" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.539-08:00 level=INFO source=images.go:529 msg="total unused blobs removed: 0" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=routes.go:1597 msg="Listening on [::]:11434 (version 0.12.11)" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=runner.go:67 msg="discovering available GPUs..." Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=server.go:392 msg="starting runner" cmd="/usr/local/bin/ollama runner --ollama-engine --port 35681" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.555-08:00 level=INFO source=types.go:60 msg="inference compute" id=cpu library=cpu compute="" name=cpu description=cpu libdirs=ollama driver="" pci_id="" type="" total="122.6 GiB" available="109.1 GiB" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.555-08:00 level=INFO source=routes.go:1638 msg="entering low vram mode" "total vram"="0 B" threshold="20.0 GiB" Nov 19 13:20:52 Tatami systemd[1]: Started ollama.service - Ollama Service. Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.536-08:00 level=INFO source=routes.go:1544 msg="server config" env="map[CUDA_VISIBLE_DEVICES:0 GGML_VK_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:4096 OLLAMA_DEBUG:INFO OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://0.0.0.0:11434 OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:/mnt/shared/ollama-models/models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_REMOTES:[ollama.com] OLLAMA_SCHED_SPREAD:false OLLAMA_VULKAN:false ROCR_VISIBLE_DEVICES: http_proxy: https_proxy: no_proxy:]" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.539-08:00 level=INFO source=images.go:522 msg="total blobs: 73" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.539-08:00 level=INFO source=images.go:529 msg="total unused blobs removed: 0" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=routes.go:1597 msg="Listening on [::]:11434 (version 0.12.11)" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=runner.go:67 msg="discovering available GPUs..." Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.540-08:00 level=INFO source=server.go:392 msg="starting runner" cmd="/usr/local/bin/ollama runner --ollama-engine --port 35681" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.555-08:00 level=INFO source=types.go:60 msg="inference compute" id=cpu library=cpu compute="" name=cpu description=cpu libdirs=ollama driver="" pci_id="" type="" total="122.6 GiB" available="109.1 GiB" Nov 19 13:20:52 Tatami ollama[84614]: time=2025-11-19T13:20:52.555-08:00 level=INFO source=routes.go:1638 msg="entering low vram mode" "total vram"="0 B" threshold="20.0 GiB" Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: loaded meta data with 29 key-value pairs and 292 tensors from /mnt/shared/ollama-models/models/blobs/sha256-667b0c1932bc6ffc593ed1d03f895bf2dc8dc6df21db3042284a6f4416b06a29 (version GGUF V3 (latest)) Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output. Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 0: general.architecture str = llama Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 1: general.type str = model Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 2: general.name str = Meta Llama 3.1 8B Instruct Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 3: general.finetune str = Instruct Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 4: general.basename str = Meta-Llama-3.1 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 5: general.size_label str = 8B Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 6: general.license str = llama3.1 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 7: general.tags arr[str,6] = ["facebook", "meta", "pytorch", "llam... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 8: general.languages arr[str,8] = ["en", "de", "fr", "it", "pt", "hi", ... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 9: llama.block_count u32 = 32 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 10: llama.context_length u32 = 131072 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 11: llama.embedding_length u32 = 4096 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 12: llama.feed_forward_length u32 = 14336 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 13: llama.attention.head_count u32 = 32 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 14: llama.attention.head_count_kv u32 = 8 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 15: llama.rope.freq_base f32 = 500000.000000 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 16: llama.attention.layer_norm_rms_epsilon f32 = 0.000010 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 17: general.file_type u32 = 15 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 18: llama.vocab_size u32 = 128256 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 19: llama.rope.dimension_count u32 = 128 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 20: tokenizer.ggml.model str = gpt2 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 21: tokenizer.ggml.pre str = llama-bpe Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 22: tokenizer.ggml.tokens arr[str,128256] = ["!", "\"", "#", "$", "%", "&", "'", ... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 23: tokenizer.ggml.token_type arr[i32,128256] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 24: tokenizer.ggml.merges arr[str,280147] = ["Ġ Ġ", "Ġ ĠĠĠ", "ĠĠ ĠĠ", "... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 25: tokenizer.ggml.bos_token_id u32 = 128000 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 26: tokenizer.ggml.eos_token_id u32 = 128009 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 27: tokenizer.chat_template str = {{- bos_token }}\n{%- if custom_tools ... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 28: general.quantization_version u32 = 2 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type f32: 66 tensors Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type q4_K: 193 tensors Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type q6_K: 33 tensors Nov 19 13:20:58 Tatami ollama[84614]: print_info: file format = GGUF V3 (latest) Nov 19 13:20:58 Tatami ollama[84614]: print_info: file type = Q4_K - Medium Nov 19 13:20:58 Tatami ollama[84614]: print_info: file size = 4.58 GiB (4.89 BPW) Nov 19 13:20:58 Tatami ollama[84614]: load: printing all EOG tokens: Nov 19 13:20:58 Tatami ollama[84614]: load: - 128001 ('<|end_of_text|>') Nov 19 13:20:58 Tatami ollama[84614]: load: - 128008 ('<|eom_id|>') Nov 19 13:20:58 Tatami ollama[84614]: load: - 128009 ('<|eot_id|>') Nov 19 13:20:58 Tatami ollama[84614]: load: special tokens cache size = 256 Nov 19 13:20:58 Tatami ollama[84614]: load: token to piece cache size = 0.7999 MB Nov 19 13:20:58 Tatami ollama[84614]: print_info: arch = llama Nov 19 13:20:58 Tatami ollama[84614]: print_info: vocab_only = 1 Nov 19 13:20:58 Tatami ollama[84614]: print_info: model type = ?B Nov 19 13:20:58 Tatami ollama[84614]: print_info: model params = 8.03 B Nov 19 13:20:58 Tatami ollama[84614]: print_info: general.name = Meta Llama 3.1 8B Instruct Nov 19 13:20:58 Tatami ollama[84614]: print_info: vocab type = BPE Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_vocab = 128256 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_merges = 280147 Nov 19 13:20:58 Tatami ollama[84614]: print_info: BOS token = 128000 '<|begin_of_text|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOS token = 128009 '<|eot_id|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOT token = 128009 '<|eot_id|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOM token = 128008 '<|eom_id|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: LF token = 198 'Ċ' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token = 128001 '<|end_of_text|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token = 128008 '<|eom_id|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token = 128009 '<|eot_id|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: max token length = 256 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_load: vocab only - skipping tensors Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.394-08:00 level=INFO source=server.go:392 msg="starting runner" cmd="/usr/local/bin/ollama runner --model /mnt/shared/ollama-models/models/blobs/sha256-667b0c1932bc6ffc593ed1d03f895bf2dc8dc6df21db3042284a6f4416b06a29 --port 41617" Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.394-08:00 level=INFO source=sched.go:443 msg="system memory" total="122.6 GiB" free="109.1 GiB" free_swap="8.0 GiB" Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.394-08:00 level=INFO source=server.go:459 msg="loading model" "model layers"=33 requested=-1 Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.395-08:00 level=INFO source=device.go:245 msg="model weights" device=CPU size="4.3 GiB" Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.395-08:00 level=INFO source=device.go:256 msg="kv cache" device=CPU size="512.0 MiB" Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.395-08:00 level=INFO source=device.go:272 msg="total memory" size="4.8 GiB" Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.403-08:00 level=INFO source=runner.go:963 msg="starting go runner" Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.403-08:00 level=INFO source=ggml.go:104 msg=system CPU.0.LLAMAFILE=1 compiler=cgo(gcc) Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.404-08:00 level=INFO source=runner.go:999 msg="Server listening on 127.0.0.1:41617" Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.406-08:00 level=INFO source=runner.go:893 msg=load request="{Operation:commit LoraPath:[] Parallel:1 BatchSize:512 FlashAttention:false KvSize:4096 KvCacheType: NumThreads:8 GPULayers:[] MultiUserCache:false ProjectorPath: MainGPU:0 UseMmap:false}" Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.406-08:00 level=INFO source=server.go:1294 msg="waiting for llama runner to start responding" Nov 19 13:20:58 Tatami ollama[84614]: time=2025-11-19T13:20:58.406-08:00 level=INFO source=server.go:1328 msg="waiting for server to become available" status="llm server loading model" Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: loaded meta data with 29 key-value pairs and 292 tensors from /mnt/shared/ollama-models/models/blobs/sha256-667b0c1932bc6ffc593ed1d03f895bf2dc8dc6df21db3042284a6f4416b06a29 (version GGUF V3 (latest)) Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output. Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 0: general.architecture str = llama Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 1: general.type str = model Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 2: general.name str = Meta Llama 3.1 8B Instruct Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 3: general.finetune str = Instruct Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 4: general.basename str = Meta-Llama-3.1 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 5: general.size_label str = 8B Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 6: general.license str = llama3.1 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 7: general.tags arr[str,6] = ["facebook", "meta", "pytorch", "llam... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 8: general.languages arr[str,8] = ["en", "de", "fr", "it", "pt", "hi", ... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 9: llama.block_count u32 = 32 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 10: llama.context_length u32 = 131072 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 11: llama.embedding_length u32 = 4096 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 12: llama.feed_forward_length u32 = 14336 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 13: llama.attention.head_count u32 = 32 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 14: llama.attention.head_count_kv u32 = 8 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 15: llama.rope.freq_base f32 = 500000.000000 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 16: llama.attention.layer_norm_rms_epsilon f32 = 0.000010 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 17: general.file_type u32 = 15 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 18: llama.vocab_size u32 = 128256 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 19: llama.rope.dimension_count u32 = 128 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 20: tokenizer.ggml.model str = gpt2 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 21: tokenizer.ggml.pre str = llama-bpe Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 22: tokenizer.ggml.tokens arr[str,128256] = ["!", "\"", "#", "$", "%", "&", "'", ... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 23: tokenizer.ggml.token_type arr[i32,128256] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 24: tokenizer.ggml.merges arr[str,280147] = ["Ġ Ġ", "Ġ ĠĠĠ", "ĠĠ ĠĠ", "... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 25: tokenizer.ggml.bos_token_id u32 = 128000 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 26: tokenizer.ggml.eos_token_id u32 = 128009 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 27: tokenizer.chat_template str = {{- bos_token }}\n{%- if custom_tools ... Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - kv 28: general.quantization_version u32 = 2 Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type f32: 66 tensors Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type q4_K: 193 tensors Nov 19 13:20:58 Tatami ollama[84614]: llama_model_loader: - type q6_K: 33 tensors Nov 19 13:20:58 Tatami ollama[84614]: print_info: file format = GGUF V3 (latest) Nov 19 13:20:58 Tatami ollama[84614]: print_info: file type = Q4_K - Medium Nov 19 13:20:58 Tatami ollama[84614]: print_info: file size = 4.58 GiB (4.89 BPW) Nov 19 13:20:58 Tatami ollama[84614]: load: printing all EOG tokens: Nov 19 13:20:58 Tatami ollama[84614]: load: - 128001 ('<|end_of_text|>') Nov 19 13:20:58 Tatami ollama[84614]: load: - 128008 ('<|eom_id|>') Nov 19 13:20:58 Tatami ollama[84614]: load: - 128009 ('<|eot_id|>') Nov 19 13:20:58 Tatami ollama[84614]: load: special tokens cache size = 256 Nov 19 13:20:58 Tatami ollama[84614]: load: token to piece cache size = 0.7999 MB Nov 19 13:20:58 Tatami ollama[84614]: print_info: arch = llama Nov 19 13:20:58 Tatami ollama[84614]: print_info: vocab_only = 0 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_ctx_train = 131072 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_embd = 4096 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_layer = 32 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_head = 32 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_head_kv = 8 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_rot = 128 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_swa = 0 Nov 19 13:20:58 Tatami ollama[84614]: print_info: is_swa_any = 0 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_embd_head_k = 128 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_embd_head_v = 128 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_gqa = 4 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_embd_k_gqa = 1024 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_embd_v_gqa = 1024 Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_norm_eps = 0.0e+00 Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_norm_rms_eps = 1.0e-05 Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_clamp_kqv = 0.0e+00 Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_max_alibi_bias = 0.0e+00 Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_logit_scale = 0.0e+00 Nov 19 13:20:58 Tatami ollama[84614]: print_info: f_attn_scale = 0.0e+00 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_ff = 14336 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_expert = 0 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_expert_used = 0 Nov 19 13:20:58 Tatami ollama[84614]: print_info: causal attn = 1 Nov 19 13:20:58 Tatami ollama[84614]: print_info: pooling type = 0 Nov 19 13:20:58 Tatami ollama[84614]: print_info: rope type = 0 Nov 19 13:20:58 Tatami ollama[84614]: print_info: rope scaling = linear Nov 19 13:20:58 Tatami ollama[84614]: print_info: freq_base_train = 500000.0 Nov 19 13:20:58 Tatami ollama[84614]: print_info: freq_scale_train = 1 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_ctx_orig_yarn = 131072 Nov 19 13:20:58 Tatami ollama[84614]: print_info: rope_finetuned = unknown Nov 19 13:20:58 Tatami ollama[84614]: print_info: model type = 8B Nov 19 13:20:58 Tatami ollama[84614]: print_info: model params = 8.03 B Nov 19 13:20:58 Tatami ollama[84614]: print_info: general.name = Meta Llama 3.1 8B Instruct Nov 19 13:20:58 Tatami ollama[84614]: print_info: vocab type = BPE Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_vocab = 128256 Nov 19 13:20:58 Tatami ollama[84614]: print_info: n_merges = 280147 Nov 19 13:20:58 Tatami ollama[84614]: print_info: BOS token = 128000 '<|begin_of_text|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOS token = 128009 '<|eot_id|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOT token = 128009 '<|eot_id|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOM token = 128008 '<|eom_id|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: LF token = 198 'Ċ' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token = 128001 '<|end_of_text|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token = 128008 '<|eom_id|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: EOG token = 128009 '<|eot_id|>' Nov 19 13:20:58 Tatami ollama[84614]: print_info: max token length = 256 Nov 19 13:20:58 Tatami ollama[84614]: load_tensors: loading model tensors, this can take a while... (mmap = false) Nov 19 13:20:58 Tatami ollama[84614]: load_tensors: CPU model buffer size = 4685.30 MiB Nov 19 13:21:00 Tatami ollama[84614]: llama_context: constructing llama_context Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_seq_max = 1 Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_ctx = 4096 Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_ctx_per_seq = 4096 Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_batch = 512 Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_ubatch = 512 Nov 19 13:21:00 Tatami ollama[84614]: llama_context: causal_attn = 1 Nov 19 13:21:00 Tatami ollama[84614]: llama_context: flash_attn = disabled Nov 19 13:21:00 Tatami ollama[84614]: llama_context: kv_unified = false Nov 19 13:21:00 Tatami ollama[84614]: llama_context: freq_base = 500000.0 Nov 19 13:21:00 Tatami ollama[84614]: llama_context: freq_scale = 1 Nov 19 13:21:00 Tatami ollama[84614]: llama_context: n_ctx_per_seq (4096) < n_ctx_train (131072) -- the full capacity of the model will not be utilized Nov 19 13:21:00 Tatami ollama[84614]: llama_context: CPU output buffer size = 0.50 MiB Nov 19 13:21:00 Tatami ollama[84614]: llama_kv_cache: CPU KV buffer size = 512.00 MiB Nov 19 13:21:00 Tatami ollama[84614]: llama_kv_cache: size = 512.00 MiB ( 4096 cells, 32 layers, 1/1 seqs), K (f16): 256.00 MiB, V (f16): 256.00 MiB Nov 19 13:21:00 Tatami ollama[84614]: llama_context: CPU compute buffer size = 300.01 MiB Nov 19 13:21:00 Tatami ollama[84614]: llama_context: graph nodes = 1158 Nov 19 13:21:00 Tatami ollama[84614]: llama_context: graph splits = 1 Nov 19 13:21:00 Tatami ollama[84614]: time=2025-11-19T13:21:00.412-08:00 level=INFO source=server.go:1332 msg="llama runner started in 2.02 seconds" Nov 19 13:21:00 Tatami ollama[84614]: time=2025-11-19T13:21:00.412-08:00 level=INFO source=sched.go:517 msg="loaded runners" count=1 Nov 19 13:21:00 Tatami ollama[84614]: time=2025-11-19T13:21:00.412-08:00 level=INFO source=server.go:1294 msg="waiting for llama runner to start responding" Nov 19 13:21:00 Tatami ollama[84614]: time=2025-11-19T13:21:00.412-08:00 level=INFO source=server.go:1332 msg="llama runner started in 2.02 seconds" Nov 19 13:21:21 Tatami ollama[84614]: [GIN] 2025/11/19 - 13:21:21 | 200 | 23.341049668s | ::1 | POST "/api/generate" ``` ### OS Linux ### GPU Nvidia ### CPU AMD ### Ollama version 0.12.11

GiteaMirror added the nvidia bug labels 2026-04-12 21:28:37 -05:00

GiteaMirror closed this issue

2026-04-12 21:28:38 -05:00

GiteaMirror commented

2026-04-12 21:28:39 -05:00

@jessegross commented on GitHub (Nov 19, 2025):

Can you please post the full log?

@jessegross commented on GitHub (Nov 19, 2025): Can you please post the full log?

GiteaMirror commented

2026-04-12 21:28:39 -05:00

@deparko commented on GitHub (Nov 19, 2025):

just recreated the problem and added log above

@deparko commented on GitHub (Nov 19, 2025): just recreated the problem and added log above

GiteaMirror commented

2026-04-12 21:28:39 -05:00

@rick-github commented on GitHub (Nov 19, 2025):

Set OLLAMA_DEBUG=2 to log more information about device detection.

@rick-github commented on GitHub (Nov 19, 2025): Set `OLLAMA_DEBUG=2` to log more information about device detection.

GiteaMirror commented

2026-04-12 21:28:40 -05:00

@deparko commented on GitHub (Nov 19, 2025):

ollama_gpu_failure_logs_debug2.txt

@deparko commented on GitHub (Nov 19, 2025): [ollama_gpu_failure_logs_debug2.txt](https://github.com/user-attachments/files/23638029/ollama_gpu_failure_logs_debug2.txt)

GiteaMirror commented

2026-04-12 21:28:40 -05:00

@rick-github commented on GitHub (Nov 19, 2025):

Set OLLAMA_DEBUG=2 in the environment of the server to log more information about device detection.

@rick-github commented on GitHub (Nov 19, 2025): Set `OLLAMA_DEBUG=2` in the environment of the server to log more information about device detection.

GiteaMirror commented

2026-04-12 21:28:41 -05:00

@Mustardsauce commented on GitHub (Nov 20, 2025):

I'm running Ollama 0.12.10 on Docker with a B200 (Blackwell) GPU, but it fails to utilize the GPU. After enabling OLLAMA_DEBUG=2, I'm getting a ggml_cuda_init: failed to initialize CUDA:initialization error in the logs.

@Mustardsauce commented on GitHub (Nov 20, 2025): I'm running Ollama 0.12.10 on Docker with a B200 (Blackwell) GPU, but it fails to utilize the GPU. After enabling OLLAMA_DEBUG=2, I'm getting a ggml_cuda_init: failed to initialize CUDA:initialization error in the logs.

GiteaMirror commented

2026-04-12 21:28:42 -05:00

@dhiltgen commented on GitHub (Nov 21, 2025):

@Mustardsauce please share the log from startup to the point it reports inference compute so we can see what's going wrong.

@deparko your logs don't have the debug setting set properly - they're still logging only INFO log messages, not TRACE log messages. The simplest way to get this would be something like:

sudo systemctl stop ollama
OLLAMA_DEBUG=2 ollama serve 2>&1 | tee serve.log

Then just hit ^C as soon as it reports inference compute and share the serve.log

@dhiltgen commented on GitHub (Nov 21, 2025): @Mustardsauce please share the log from startup to the point it reports `inference compute` so we can see what's going wrong. @deparko your logs don't have the debug setting set properly - they're still logging only INFO log messages, not TRACE log messages. The simplest way to get this would be something like: ``` sudo systemctl stop ollama OLLAMA_DEBUG=2 ollama serve 2>&1 | tee serve.log ``` Then just hit `^C` as soon as it reports `inference compute` and share the serve.log

GiteaMirror commented

2026-04-12 21:28:43 -05:00

@deparko commented on GitHub (Nov 22, 2025):

please see attached!

ollama_serve_debug2_startup.log

@deparko commented on GitHub (Nov 22, 2025): please see attached! [ollama_serve_debug2_startup.log](https://github.com/user-attachments/files/23686710/ollama_serve_debug2_startup.log)

GiteaMirror commented

2026-04-12 21:28:43 -05:00

@deparko commented on GitHub (Nov 27, 2025):

Any updates. Im basically dead in the water.

@deparko commented on GitHub (Nov 27, 2025): Any updates. Im basically dead in the water.

GiteaMirror commented

2026-04-12 21:28:44 -05:00

@rick-github commented on GitHub (Nov 27, 2025):

There's no attempt to load a CUDA backend, perhaps because there's some confusion about where the backends are:

time=2025-11-21T20:07:02.536-08:00 level=DEBUG source=ggml.go:94 msg="ggml backend load all from path" path=/usr/local/lib/ollama
time=2025-11-21T20:07:02.536-08:00 level=DEBUG source=ggml.go:94 msg="ggml backend load all from path" path=/usr/local/lib/ollama/ollama

How did you install ollama? What's the output of the following:

ls -lR /usr/local/lib/ollama
systemctl cat ollama
for i in $(pidof ollama) ; do echo $i ; sudo cat /proc/$i/environ | tr \\0 \\n ; done

@rick-github commented on GitHub (Nov 27, 2025): There's no attempt to load a CUDA backend, perhaps because there's some confusion about where the backends are: ``` time=2025-11-21T20:07:02.536-08:00 level=DEBUG source=ggml.go:94 msg="ggml backend load all from path" path=/usr/local/lib/ollama time=2025-11-21T20:07:02.536-08:00 level=DEBUG source=ggml.go:94 msg="ggml backend load all from path" path=/usr/local/lib/ollama/ollama ``` How did you install ollama? What's the output of the following: ``` ls -lR /usr/local/lib/ollama systemctl cat ollama for i in $(pidof ollama) ; do echo $i ; sudo cat /proc/$i/environ | tr \\0 \\n ; done ```

GiteaMirror commented

2026-04-12 21:28:44 -05:00

@deparko commented on GitHub (Nov 27, 2025):

Reply to rick-github on Issue #13163

Solution Found! 🎉

Thanks @rick-github for the diagnostic guidance! I found the issue.

The Problem

Ollama 0.13.0 doesn't search subdirectories for CUDA libraries. The tarball installation puts CUDA libs in:

/usr/local/lib/ollama/ollama/cuda_v13/libggml-cuda.so

But Ollama only searches:

/usr/local/lib/ollama/
/usr/local/lib/ollama/ollama/

It does NOT recursively search cuda_v13/ or cuda_v12/ subdirectories.

Debug Log Evidence

With OLLAMA_DEBUG=1, the log showed:

OLLAMA_LIBRARY_PATH="[/usr/local/lib/ollama /usr/local/lib/ollama/ollama]"

This confirms Ollama only looks in these two directories, not the cuda_v13/ subdirectory where libggml-cuda.so actually lives.

The Fix

Create symlinks to put the CUDA library where Ollama looks:

sudo ln -sf /usr/local/lib/ollama/ollama/cuda_v13/libggml-cuda.so /usr/local/lib/ollama/ollama/libggml-cuda.so
sudo ln -sf /usr/local/lib/ollama/ollama/cuda_v13/libcudart.so.13 /usr/local/lib/ollama/ollama/libcudart.so.13
sudo ln -sf /usr/local/lib/ollama/ollama/cuda_v13/libcublas.so.13 /usr/local/lib/ollama/ollama/libcublas.so.13
sudo ln -sf /usr/local/lib/ollama/ollama/cuda_v13/libcublasLt.so.13 /usr/local/lib/ollama/ollama/libcublasLt.so.13

Result

After creating the symlinks and restarting:

msg="inference compute" id=GPU-a455be12-220b-715b-6c30-bad6fc091546 library=CUDA compute=12.0 name=CUDA0 description="NVIDIA GeForce RTX 5070 Ti" total="15.9 GiB" available="11.8 GiB"

NAME           ID              SIZE      PROCESSOR    CONTEXT    UNTIL              
llama3.1:8b    46e0c10c039e    5.5 GB    100% GPU     4096       4 minutes from now

100% GPU acceleration working! 🎉

Is This a Bug?

I believe so. The tarball installation creates this structure:

/usr/local/lib/ollama/ollama/
├── libggml-cpu-*.so (CPU backends - in parent dir)
├── cuda_v12/
│   └── libggml-cuda.so (CUDA 12 - in subdirectory)
├── cuda_v13/
│   └── libggml-cuda.so (CUDA 13 - in subdirectory)
└── vulkan/
    └── libggml-vulkan.so (Vulkan - in subdirectory)

But the library discovery code only searches the parent directory, not subdirectories. Either:

The discovery code should recursively search subdirectories, OR
The tarball should install libggml-cuda.so in the parent directory (perhaps with symlinks to the versioned subdirectories)

Environment

Ollama 0.13.0 (tarball installation)
Ubuntu 25.04
NVIDIA RTX 5070 Ti (Compute Capability 12.0, Blackwell)
Driver 580.95.05 (CUDA 13.0)

Thanks again for your help!

@deparko commented on GitHub (Nov 27, 2025):  # Reply to rick-github on Issue #13163 ## Solution Found! 🎉 Thanks @rick-github for the diagnostic guidance! I found the issue. ### The Problem Ollama 0.13.0 doesn't search subdirectories for CUDA libraries. The tarball installation puts CUDA libs in: - `/usr/local/lib/ollama/ollama/cuda_v13/libggml-cuda.so` But Ollama only searches: - `/usr/local/lib/ollama/` - `/usr/local/lib/ollama/ollama/` It does NOT recursively search `cuda_v13/` or `cuda_v12/` subdirectories. ### Debug Log Evidence With `OLLAMA_DEBUG=1`, the log showed: ``` OLLAMA_LIBRARY_PATH="[/usr/local/lib/ollama /usr/local/lib/ollama/ollama]" ``` This confirms Ollama only looks in these two directories, not the `cuda_v13/` subdirectory where `libggml-cuda.so` actually lives. ### The Fix Create symlinks to put the CUDA library where Ollama looks: ```bash sudo ln -sf /usr/local/lib/ollama/ollama/cuda_v13/libggml-cuda.so /usr/local/lib/ollama/ollama/libggml-cuda.so sudo ln -sf /usr/local/lib/ollama/ollama/cuda_v13/libcudart.so.13 /usr/local/lib/ollama/ollama/libcudart.so.13 sudo ln -sf /usr/local/lib/ollama/ollama/cuda_v13/libcublas.so.13 /usr/local/lib/ollama/ollama/libcublas.so.13 sudo ln -sf /usr/local/lib/ollama/ollama/cuda_v13/libcublasLt.so.13 /usr/local/lib/ollama/ollama/libcublasLt.so.13 ``` ### Result After creating the symlinks and restarting: ``` msg="inference compute" id=GPU-a455be12-220b-715b-6c30-bad6fc091546 library=CUDA compute=12.0 name=CUDA0 description="NVIDIA GeForce RTX 5070 Ti" total="15.9 GiB" available="11.8 GiB" ``` ``` NAME ID SIZE PROCESSOR CONTEXT UNTIL llama3.1:8b 46e0c10c039e 5.5 GB 100% GPU 4096 4 minutes from now ``` **100% GPU acceleration working!** 🎉 ### Is This a Bug? I believe so. The tarball installation creates this structure: ``` /usr/local/lib/ollama/ollama/ ├── libggml-cpu-*.so (CPU backends - in parent dir) ├── cuda_v12/ │ └── libggml-cuda.so (CUDA 12 - in subdirectory) ├── cuda_v13/ │ └── libggml-cuda.so (CUDA 13 - in subdirectory) └── vulkan/ └── libggml-vulkan.so (Vulkan - in subdirectory) ``` But the library discovery code only searches the parent directory, not subdirectories. Either: 1. The discovery code should recursively search subdirectories, OR 2. The tarball should install `libggml-cuda.so` in the parent directory (perhaps with symlinks to the versioned subdirectories) ### Environment - Ollama 0.13.0 (tarball installation) - Ubuntu 25.04 - NVIDIA RTX 5070 Ti (Compute Capability 12.0, Blackwell) - Driver 580.95.05 (CUDA 13.0) Thanks again for your help!

GiteaMirror commented

2026-04-12 21:28:45 -05:00

@rick-github commented on GitHub (Nov 27, 2025):

I believe so. The tarball installation creates this structure:

This is why I asked for what installation method you used. A manual install will put the backends in /usr/lib/ollama, the recommended install will put the backends in /usr/local/lib/ollama. No install method should put the backends in /usr/local/lib/ollama/ollama.

@rick-github commented on GitHub (Nov 27, 2025): > I believe so. The tarball installation creates this structure: This is why I asked for what installation method you used. A [manual install](https://github.com/ollama/ollama/blob/main/docs/linux.mdx#manual-install) will put the backends in /usr/lib/ollama, the [recommended install](https://ollama.com/download/linux) will put the backends in /usr/local/lib/ollama. No install method should put the backends in /usr/local/lib/ollama/ollama.

GiteaMirror commented

2026-04-12 21:28:45 -05:00

@deparko commented on GitHub (Nov 27, 2025):

Thank you and Happy Thanksgiving!🦃

@deparko commented on GitHub (Nov 27, 2025): Thank you and Happy Thanksgiving!🦃

GiteaMirror referenced this issue

2026-04-13 00:08:53 -05:00

[PR #8704] [MERGED] cgo: use O3 #12754

GiteaMirror referenced this issue

2026-04-16 06:22:27 -05:00

[PR #8704] [MERGED] cgo: use O3 #18025

GiteaMirror referenced this issue

2026-04-19 16:53:41 -05:00

[PR #8704] [MERGED] cgo: use O3 #23294

GiteaMirror referenced this issue

2026-04-22 23:18:11 -05:00

[PR #8704] [MERGED] cgo: use O3 #38627

GiteaMirror referenced this issue

2026-04-24 23:33:22 -05:00

[PR #8704] [MERGED] cgo: use O3 #44002

GiteaMirror referenced this issue

2026-04-29 14:23:16 -05:00

[PR #8704] [MERGED] cgo: use O3 #59451

GiteaMirror referenced this issue

2026-05-05 07:24:26 -05:00

[PR #8704] [MERGED] cgo: use O3 #75048

Sign in to join this conversation.

Branches Tags

main

hoyyeva/anthropic-local-image-path

dhiltgen/ci

dhiltgen/llama-runner

parth-remove-claude-desktop-launch

hoyyeva/anthropic-reference-images-path

parth-anthropic-reference-images-path

brucemacd/download-before-remove

hoyyeva/editor-config-repair

parth-mlx-decode-checkpoints

parth-launch-codex-app

hoyyeva/fix-codex-model-metadata-warning

hoyyeva/qwen

parth/hide-claude-desktop-till-release

hoyyeva/opencode-image-modality

parth-add-claude-code-autoinstall

release_v0.22.0

pdevine/manifest-list

codex/fix-codex-model-metadata-warning

pdevine/addressable-manifest

brucemacd/launch-fetch-reccomended

jmorganca/llama-compat

launch-copilot-cli

hoyyeva/opencode-thinking

release_v0.20.7

parth-auto-save-backup

parth-test

jmorganca/gemma4-audio-replacements

fix-manifest-digest-on-pull

hoyyeva/vscode-improve

brucemacd/install-server-wait

parth/update-claude-docs

brucemac/start-ap-install

pdevine/mlx-update

pdevine/qwen35_vision

drifkin/api-show-fallback

mintlify/image-generation-1773352582

hoyyeva/server-context-length-local-config

jmorganca/faster-reptition-penalties

jmorganca/convert-nemotron

parth-pi-thinking

pdevine/sampling-penalties

jmorganca/fix-create-quantization-memory

dongchen/resumable_transfer_fix

pdevine/sampling-cache-error

jessegross/mlx-usage

hoyyeva/openclaw-config

hoyyeva/app-html

pdevine/qwen3next

brucemacd/sign-sh-install

brucemacd/tui-update

brucemacd/usage-api

jmorganca/launch-empty

fix-app-dist-embed

mxyng/mlx-compile

mxyng/mlx-quant

mxyng/mlx-glm4.7

mxyng/mlx

brucemacd/simplify-model-picker

jmorganca/qwen3-concurrent

fix-glm-4.7-flash-mla-config

drifkin/qwen3-coder-opening-tag

brucemacd/usage-cli

fix-cuda12-fattn-shmem

ollama-imagegen-docs

parth/fix-multiline-inputs

brucemacd/config-docs

mxyng/model-files

mxyng/simple-execute

fix-imagegen-ollama-models

mxyng/async-upload

jmorganca/lazy-no-dtype-changes

imagegen-auto-detect-create

parth/decrease-concurrent-download-hf

fix-mlx-quantize-init

jmorganca/x-cleanup

usage

imagegen-readme

jmorganca/glm-image

mlx-gpu-cd

jmorganca/imagegen-modelfile

parth/agent-skills

parth/agent-allowlist

parth/signed-in-offline

parth/agents

parth/fix-context-chopping

improve-cloud-flow

parth/add-models-websearch

parth/prompt-renderer-mcp

jmorganca/native-settings

jmorganca/download-stream-hash

jmorganca/client2-rebased

brucemacd/oai-chat-req-multipart

jessegross/multi_chunk_reserve

grace/additional-omit-empty

grace/mistral-3-large

mxyng/tokenizer2

mxyng/tokenizer

jessegross/flash

hoyyeva/windows-nacked-app

mxyng/cleanup-attention

grace/deepseek-parser

hoyyeva/remember-unsent-prompt

parth/add-lfs-pointer-error-conversion

parth/olmo2-test2

hoyyeva/ollama-launchagent-plist

nicole/olmo-model

parth/olmo-test

mxyng/remove-embedded

parth/render-template

jmorganca/intellect-3

parth/remove-prealloc-linter

jmorganca/cmd-eval

nicole/nomic-embed-text-fix

mxyng/lint-2

hoyyeva/add-gemini-3-pro-preview

hoyyeva/load-model-list

mxyng/expand-path

mxyng/environ-2

hoyyeva/deeplink-json-encoding

parth/improve-tool-calling-tests

hoyyeva/conversation

hoyyeva/assistant-edit-response

hoyyeva/thinking

origin/brucemacd/invalid-char-i-err

parth/improve-tool-calling

jmorganca/required-omitempty

grace/qwen3-vl-tests

mxyng/iter-client

parth/docs-readme

nicole/embed-test

pdevine/integration-benchstat

parth/remove-generate-cmd

parth/add-toolcall-id

mxyng/server-tests

jmorganca/glm-4.6

jmorganca/gin-h-compat

drifkin/stable-tool-args

pdevine/qwen3-more-thinking

parth/add-websearch-client

nicole/websearch_local

jmorganca/qwen3-coder-updates

grace/deepseek-v3-migration-tests

mxyng/fix-create

jmorganca/cloud-errors

pdevine/parser-tidy

revert-12233-parth/simplify-entrypoints-runner

parth/enable-so-gpt-oss

brucemacd/qwen3vl

jmorganca/readme-simplify

parth/gpt-oss-structured-outputs

revert-12039-jmorganca/tools-braces

mxyng/embeddings

mxyng/gguf

mxyng/benchmark

mxyng/types-null

parth/move-parsing

mxyng/gemma2

jmorganca/docs

mxyng/16-bit

mxyng/create-stdin

pdevine/authorizedkeys

mxyng/quant

parth/opt-in-error-context-window

brucemacd/cache-models

brucemacd/runner-completion

jmorganca/llama-update-6

brucemacd/benchmark-list

brucemacd/partial-read-caps

parth/deepseek-r1-tools

mxyng/omit-array

parth/tool-prefix-temp

brucemacd/runner-test

jmorganca/qwen25vl

brucemacd/model-forward-test-ext

parth/python-function-parsing

jmorganca/cuda-compression-none

drifkin/num-parallel

drifkin/chat-truncation-fix

jmorganca/sync

parth/python-tools-calling

drifkin/array-head-count

brucemacd/create-no-loop

parth/server-enable-content-stream-with-tools

qwen25omni

mxyng/v3

brucemacd/ropeconfig

jmorganca/silence-tokenizer

parth/sample-so-test

parth/sampling-structured-outputs

brucemacd/doc-go-engine

parth/constrained-sampling-json

jmorganca/mistral-wip

brucemacd/mistral-small-convert

parth/sample-unmarshal-json-for-params

brucemacd/jomorganca/mistral

pdevine/bfloat16

jmorganca/mistral

brucemacd/mistral

pdevine/logging

parth/sample-correctness-fix

parth/sample-fix-sorting

jmorgan/sample-fix-sorting-extras

jmorganca/temp-0-images

brucemacd/parallel-embed-models

brucemacd/shim-grammar

jmorganca/fix-gguf-error

bmizerany/nameswork

jmorganca/faster-releases

bmizerany/validatenames

brucemacd/err-no-vocab

brucemacd/rope-config

brucemacd/err-hint

brucemacd/qwen2_5

brucemacd/logprobs

brucemacd/new_runner_graph_bench

progress-flicker

brucemacd/forward-test

brucemacd/go_qwen2

pdevine/gemma2

jmorganca/add-missing-symlink-eval

mxyng/next-debug

parth/set-context-size-openai

brucemacd/next-bpe-bench

brucemacd/next-bpe-test

brucemacd/new_runner_e2e

brucemacd/new_runner_qwen2

pdevine/convert-cohere2

brucemacd/convert-cli

parth/log-probs

mxyng/next-mlx

mxyng/cmd-history

parth/templating

parth/tokenize-detokenize

brucemacd/check-key-register

bmizerany/grammar

jmorganca/vendor-081b29bd

mxyng/func-checks

jmorganca/fix-null-format

parth/fix-default-to-warn-json

jmorganca/qwen2vl

jmorganca/no-concat

parth/cmd-cleanup-SO

brucemacd/check-key-register-structured-err

parth/openai-stream-usage

parth/fix-referencing-so

stream-tools-stop

jmorganca/degin-1

brucemacd/install-path-clean

brucemacd/push-name-validation

brucemacd/browser-key-register

jmorganca/openai-fix-first-message

jmorganca/fix-proxy

jessegross/sample

parth/disallow-streaming-tools

dhiltgen/remove_submodule

jmorganca/ga

jmorganca/mllama

pdevine/newlines

pdevine/geems-2b

jmorganca/llama-bump

mxyng/modelname-7

mxyng/gin-slog

mxyng/modelname-6

jyan/convert-prog

jyan/quant5

paligemma-support

pdevine/import-docs

jmorganca/openai-context

jyan/paligemma

jyan/p2

jyan/palitest

bmizerany/embedspeedup

jmorganca/llama-vit

brucemacd/allow-ollama

royh/ep-methods

royh/whisper

mxyng/api-models

mxyng/fix-memory

jyan/q4_4/8

jyan/ollama-v

royh/stream-tools

roy-embed-parallel

bmizerany/hrm

revert-5963-revert-5924-mxyng/llama3.1-rope

royh/embed-viz

jyan/local2

jyan/auth

jyan/local

jyan/parse-temp

jmorganca/template-mistral

jyan/reord-g

royh-openai-suffixdocs

royh-imgembed

royh-embed-parallel

jyan/quant4

royh-precision

jyan/progress

pdevine/fix-template

jyan/quant3

pdevine/ggla

mxyng/update-registry-domain

jmorganca/ggml-static

mxyng/create-context

jyan/v0.146

mxyng/layers-from-files

build_dist

bmizerany/noseek

royh-ls

royh-name

timeout

mxyng/server-timestamp

bmizerany/nosillyggufslurps

royh-params

jmorganca/llama-cpp-7c26775

royh-openai-delete

royh-show-rigid

jmorganca/enable-fa

jmorganca/no-error-template

jyan/format

royh-testdelete

bmizerany/fastverify

language_support

pdevine/ps-glitches

brucemacd/tokenize

bruce/iq-quants

bmizerany/filepathwithcoloninhost

mxyng/split-bin

bmizerany/client-registry

jmorganca/if-none-match

native

jmorganca/native

jmorganca/batch-embeddings

jmorganca/initcmake

jmorganca/mm

pdevine/showggmlinfo

modenameenforcealphanum

bmizerany/modenameenforcealphanum

jmorganca/done-reason

jmorganca/llama-cpp-8960fe8

ollama.com

bmizerany/filepathnobuild

bmizerany/types/model/defaultfix

rmdisplaylong

nogogen

bmizerany/x

modelfile-readme

bmizerany/replacecolon

jmorganca/limit

jmorganca/execstack

jmorganca/replace-assets

mxyng/tune-concurrency

jmorganca/testing

whitespace-detection

jmorganca/options

upgrade-all

scratch

cuda-search

mattw/airenamer

mattw/allmodelsonhuggingface

mattw/quantcontext

mattw/whatneedstorun

brucemacd/llama-mem-calc

mattw/faq-context

mattw/communitylinks

mattw/noprune

mattw/python-functioncalling

rename

mxyng/install

pulse

remove-first

editor

mattw/selfqueryingretrieval

cgo

mattw/howtoquant

api

matt/streamingapi

format-config

mxyng/extra-args

shell

update-nous-hermes

cp-model

upload-progress

fix-unknown-model

fix-model-names

delete-fix

insecure-registry

ls

deletemodels

progressbar

readme-updates

license-layers

skip-list

list-models

modelpath

matt/examplemodelfiles

distribution

go-opts

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: github-starred/ollama#8704