[GH-ISSUE #6552] Ollama run codestral gives Error: llama runner process has terminated #4121

New Issue

GiteaMirror · 2026-04-12T15:01:15-05:00

GiteaMirror commented

2026-04-12 15:01:15 -05:00

Originally created by @anonymux1 on GitHub (Aug 29, 2024).
Original GitHub issue: https://github.com/ollama/ollama/issues/6552

Originally assigned to: @dhiltgen on GitHub.

What is the issue?

Trying to run codestral:22b on a 6800xt but get this error everytime :
Error: llama runner process has terminated: signal: segmentation fault (core dumped)

I have 16G RAM and 16G VRAM. What is the issue here? i was able to successfully run other models like starcoder2:3b

OS

Linux

GPU

AMD

CPU

Intel

Ollama version

0.3.8

Originally created by @anonymux1 on GitHub (Aug 29, 2024). Original GitHub issue: https://github.com/ollama/ollama/issues/6552 Originally assigned to: @dhiltgen on GitHub. ### What is the issue? Trying to run codestral:22b on a 6800xt but get this error everytime : Error: llama runner process has terminated: signal: segmentation fault (core dumped) I have 16G RAM and 16G VRAM. What is the issue here? i was able to successfully run other models like starcoder2:3b ### OS Linux ### GPU AMD ### CPU Intel ### Ollama version 0.3.8

GiteaMirror added the bug amd labels 2026-04-12 15:01:15 -05:00

GiteaMirror commented

2026-04-12 15:01:16 -05:00

@rick-github commented on GitHub (Aug 29, 2024):

Server logs will help in debugging.

@rick-github commented on GitHub (Aug 29, 2024): [Server logs](https://github.com/ollama/ollama/blob/main/docs/troubleshooting.md#how-to-troubleshoot-issues) will help in debugging.

GiteaMirror commented

2026-04-12 15:01:16 -05:00

@anonymux1 commented on GitHub (Aug 29, 2024):

Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.222+05:30 Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.224+05:30 Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.226+05:30 Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.226+05:30 Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.226+05:30 Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.226+05:30 Aug 29 20:11:30 iMacPro ollama[44312]: INFO [main] build info Aug 29 20:11:30 iMacPro ollama[44312]: INFO [main] system info Aug 29 20:11:30 iMacPro ollama[44312]: INFO [main] HTTP server Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 0: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 1: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 2: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 3: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 4: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 5: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 6: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 7: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 8: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 9: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 10: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 11: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 12: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 13: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 14: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 15: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 16: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 17: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 18: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 19: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 20: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 21: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 22: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 23: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 24: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - type Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - type q4_0: Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - type q6_K: Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_vocab: special Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_vocab: token Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: format Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: arch Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: vocab type Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_vocab Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_merges Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: vocab_only Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_ctx_train Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_embd Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_layer Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_head Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_head_kv Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_rot Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_swa Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_embd_head_k Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_embd_head_v Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_gqa Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_embd_k_gqa Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_embd_v_gqa Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: f_norm_eps Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: f_norm_rms_eps Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: f_clamp_kqv Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: f_logit_scale Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_ff Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_expert Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_expert_used Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: causal attn Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: pooling type Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: rope type Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: rope scaling Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: freq_base_train Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_ctx_orig_yarn Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: rope_finetuned Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: ssm_d_conv Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: ssm_d_inner Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: ssm_d_state Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: ssm_dt_rank Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: model type Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: model ftype Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: model params Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: model size Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: general.name Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: BOS token Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: EOS token Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: UNK token Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: LF token Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.477+05:30 Aug 29 20:11:31 iMacPro ollama[32080]: ggml_cuda_init: GGML_CUDA_FORCE_MMQ: Aug 29 20:11:31 iMacPro ollama[32080]: ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: Aug 29 20:11:31 iMacPro ollama[32080]: ggml_cuda_init: found Aug 29 20:11:31 iMacPro ollama[32080]: Device 0: AMD Radeon Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: ggml ctx size = Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: offloading Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: offloading Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: offloaded Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: ROCm_Host Aug 29 20:11:31 iMacPro ollama[32080]: time=2024-08-29T20:11:31.571+05:30 Aug 29 20:11:31 iMacPro ollama[32080]: time=2024-08-29T20:11:31.822+05:30 13.928751ms | 127.0.0.1 | POST "/api/show"
13.445927ms | 127.0.0.1 | POST "/api/show"
16.279468ms | 127.0.0.1 | POST "/api/show"
13.850537ms | 127.0.0.1 | POST "/api/show"
17.324191ms | 127.0.0.1 | POST "/api/show"
14.241153ms | 127.0.0.1 | POST "/api/show"
level=INFO source=sched.go:715 msg="new model will fit in available VRAM in single GPU, loading" model=/usr/share/ollama/.ollama/models/blobs/sha256-22a849aafe3ded20e9b6551b02684d8fa911537c35895dd2a1bf9eb70da8f69e gpu=0 parallel=1 available=15913861120 required="12.9 GiB"
level=INFO source=memory.go:309 msg="offload to rocm" layers.requested=-1 layers.model=57 layers.offload=57 layers.split="" memory.available="[14.8 GiB]" memory.required.full="12.9 GiB" memory.required.partial="12.9 GiB" memory.required.kv="448.0 MiB" memory.required.allocations="[12.9 GiB]" memory.weights.total="11.9 GiB" memory.weights.repeating="11.7 GiB" memory.weights.nonrepeating="157.5 MiB" memory.graph.full="244.0 MiB" memory.graph.partial="256.3 MiB"
level=INFO source=server.go:391 msg="starting llama server" cmd="/tmp/ollama1087687516/runners/rocm_v60102/ollama_llama_server --model /usr/share/ollama/.ollama/models/blobs/sha256-22a849aafe3ded20e9b6551b02684d8fa911537c35895dd2a1bf9eb70da8f69e --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 57 --no-mmap --parallel 1 --port 44581"
level=INFO source=sched.go:450 msg="loaded runners" count=1
level=INFO source=server.go:591 msg="waiting for llama runner to start responding"
level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error"
| build=1 commit="1e6f655" tid="124110683927360" timestamp=1724942490
| n_threads=6 n_threads_batch=-1 system_info="AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0 | FMA = 0 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | " tid="124110683927360" timestamp=1724942490 total_threads=6
listening | hostname="127.0.0.1" n_threads_http="5" port="44581" tid="124110683927360" timestamp=1724942490
loaded meta data with 25 key-value pairs and 507 tensors from /usr/share/ollama/.ollama/models/blobs/sha256-22a849aafe3ded20e9b6551b02684d8fa911537c35895dd2a1bf9eb70da8f69e (version GGUF V3 (latest))
Dumping metadata keys/values. Note: KV overrides do not apply in this output.
general.architecture str = llama
general.name str = Codestral-22B-v0.1
llama.block_count u32 = 56
llama.context_length u32 = 32768
llama.embedding_length u32 = 6144
llama.feed_forward_length u32 = 16384
llama.attention.head_count u32 = 48
llama.attention.head_count_kv u32 = 8
llama.rope.freq_base f32 = 1000000.000000
llama.attention.layer_norm_rms_epsilon f32 = 0.000010
general.file_type u32 = 2
llama.vocab_size u32 = 32768
llama.rope.dimension_count u32 = 128
tokenizer.ggml.add_space_prefix bool = true
tokenizer.ggml.model str = llama
tokenizer.ggml.pre str = default
tokenizer.ggml.tokens arr[str,32768] = ["", "~~", "~~", "[INST]", "[...
tokenizer.ggml.scores arr[f32,32768] = [0.000000, 0.000000, 0.000000, 0.0000...
tokenizer.ggml.token_type arr[i32,32768] = [2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, ...
tokenizer.ggml.bos_token_id u32 = 1
tokenizer.ggml.eos_token_id u32 = 2
tokenizer.ggml.unknown_token_id u32 = 0
tokenizer.ggml.add_bos_token bool = true
tokenizer.ggml.add_eos_token bool = false
general.quantization_version u32 = 2
f32: 113 tensors
393 tensors
1 tensors
tokens cache size = 771
to piece cache size = 0.1731 MB
= GGUF V3 (latest)
= llama
= SPM
= 32768
= 0
= 0
= 32768
= 6144
= 56
= 48
= 8
= 128
= 0
= 128
= 128
= 6
= 1024
= 1024
= 0.0e+00
= 1.0e-05
= 0.0e+00
f_max_alibi_bias = 0.0e+00
= 0.0e+00
= 16384
= 0
= 0
= 1
= 0
= 0
= linear
= 1000000.0
freq_scale_train = 1
= 32768
= unknown
= 0
= 0
= 0
= 0
= ?B
= Q4_0
= 22.25 B
= 11.71 GiB (4.52 BPW)
= Codestral-22B-v0.1
= 1 ''
= 2 ''
= 0 ''
= 781 '<0x0A>'
max token length = 48
level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server loading model"
no
no
1 ROCm devices:
RX 6800 XT, compute capability 10.3, VMM: no
0.47 MiB
56 repeating layers to GPU
non-repeating layers to GPU
57/57 layers to GPU
ROCm0 buffer size = 11878.15 MiB
buffer size = 108.00 MiB
level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error"
level=ERROR source=sched.go:456 msg="error loading llama server" error="llama runner process has terminated: signal: segmentation fault (core dumped)"

@anonymux1 commented on GitHub (Aug 29, 2024): Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | 13.928751ms | 127.0.0.1 | POST "/api/show" Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | 13.445927ms | 127.0.0.1 | POST "/api/show" Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | 16.279468ms | 127.0.0.1 | POST "/api/show" Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | 13.850537ms | 127.0.0.1 | POST "/api/show" Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | 17.324191ms | 127.0.0.1 | POST "/api/show" Aug 29 20:11:29 iMacPro ollama[32080]: [GIN] 2024/08/29 - 20:11:29 | 200 | 14.241153ms | 127.0.0.1 | POST "/api/show" Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.222+05:30 level=INFO source=sched.go:715 msg="new model will fit in available VRAM in single GPU, loading" model=/usr/share/ollama/.ollama/models/blobs/sha256-22a849aafe3ded20e9b6551b02684d8fa911537c35895dd2a1bf9eb70da8f69e gpu=0 parallel=1 available=15913861120 required="12.9 GiB" Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.224+05:30 level=INFO source=memory.go:309 msg="offload to rocm" layers.requested=-1 layers.model=57 layers.offload=57 layers.split="" memory.available="[14.8 GiB]" memory.required.full="12.9 GiB" memory.required.partial="12.9 GiB" memory.required.kv="448.0 MiB" memory.required.allocations="[12.9 GiB]" memory.weights.total="11.9 GiB" memory.weights.repeating="11.7 GiB" memory.weights.nonrepeating="157.5 MiB" memory.graph.full="244.0 MiB" memory.graph.partial="256.3 MiB" Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.226+05:30 level=INFO source=server.go:391 msg="starting llama server" cmd="/tmp/ollama1087687516/runners/rocm_v60102/ollama_llama_server --model /usr/share/ollama/.ollama/models/blobs/sha256-22a849aafe3ded20e9b6551b02684d8fa911537c35895dd2a1bf9eb70da8f69e --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 57 --no-mmap --parallel 1 --port 44581" Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.226+05:30 level=INFO source=sched.go:450 msg="loaded runners" count=1 Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.226+05:30 level=INFO source=server.go:591 msg="waiting for llama runner to start responding" Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.226+05:30 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error" Aug 29 20:11:30 iMacPro ollama[44312]: INFO [main] build info | build=1 commit="1e6f655" tid="124110683927360" timestamp=1724942490 Aug 29 20:11:30 iMacPro ollama[44312]: INFO [main] system info | n_threads=6 n_threads_batch=-1 system_info="AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0 | FMA = 0 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | " tid="124110683927360" timestamp=1724942490 total_threads=6 Aug 29 20:11:30 iMacPro ollama[44312]: INFO [main] HTTP server listening | hostname="127.0.0.1" n_threads_http="5" port="44581" tid="124110683927360" timestamp=1724942490 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: loaded meta data with 25 key-value pairs and 507 tensors from /usr/share/ollama/.ollama/models/blobs/sha256-22a849aafe3ded20e9b6551b02684d8fa911537c35895dd2a1bf9eb70da8f69e (version GGUF V3 (latest)) Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output. Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 0: general.architecture str = llama Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 1: general.name str = Codestral-22B-v0.1 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 2: llama.block_count u32 = 56 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 3: llama.context_length u32 = 32768 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 4: llama.embedding_length u32 = 6144 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 5: llama.feed_forward_length u32 = 16384 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 6: llama.attention.head_count u32 = 48 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 7: llama.attention.head_count_kv u32 = 8 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 8: llama.rope.freq_base f32 = 1000000.000000 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 9: llama.attention.layer_norm_rms_epsilon f32 = 0.000010 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 10: general.file_type u32 = 2 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 11: llama.vocab_size u32 = 32768 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 12: llama.rope.dimension_count u32 = 128 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 13: tokenizer.ggml.add_space_prefix bool = true Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 14: tokenizer.ggml.model str = llama Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 15: tokenizer.ggml.pre str = default Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 16: tokenizer.ggml.tokens arr[str,32768] = ["<unk>", "<s>", "</s>", "[INST]", "[... Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 17: tokenizer.ggml.scores arr[f32,32768] = [0.000000, 0.000000, 0.000000, 0.0000... Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 18: tokenizer.ggml.token_type arr[i32,32768] = [2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, ... Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 19: tokenizer.ggml.bos_token_id u32 = 1 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 20: tokenizer.ggml.eos_token_id u32 = 2 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 21: tokenizer.ggml.unknown_token_id u32 = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 22: tokenizer.ggml.add_bos_token bool = true Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 23: tokenizer.ggml.add_eos_token bool = false Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - kv 24: general.quantization_version u32 = 2 Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - type f32: 113 tensors Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - type q4_0: 393 tensors Aug 29 20:11:30 iMacPro ollama[32080]: llama_model_loader: - type q6_K: 1 tensors Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_vocab: special tokens cache size = 771 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_vocab: token to piece cache size = 0.1731 MB Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: format = GGUF V3 (latest) Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: arch = llama Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: vocab type = SPM Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_vocab = 32768 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_merges = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: vocab_only = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_ctx_train = 32768 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_embd = 6144 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_layer = 56 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_head = 48 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_head_kv = 8 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_rot = 128 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_swa = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_embd_head_k = 128 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_embd_head_v = 128 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_gqa = 6 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_embd_k_gqa = 1024 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_embd_v_gqa = 1024 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: f_norm_eps = 0.0e+00 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: f_norm_rms_eps = 1.0e-05 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: f_clamp_kqv = 0.0e+00 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: f_max_alibi_bias = 0.0e+00 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: f_logit_scale = 0.0e+00 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_ff = 16384 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_expert = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_expert_used = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: causal attn = 1 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: pooling type = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: rope type = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: rope scaling = linear Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: freq_base_train = 1000000.0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: freq_scale_train = 1 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: n_ctx_orig_yarn = 32768 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: rope_finetuned = unknown Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: ssm_d_conv = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: ssm_d_inner = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: ssm_d_state = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: ssm_dt_rank = 0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: model type = ?B Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: model ftype = Q4_0 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: model params = 22.25 B Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: model size = 11.71 GiB (4.52 BPW) Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: general.name = Codestral-22B-v0.1 Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: BOS token = 1 '<s>' Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: EOS token = 2 '</s>' Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: UNK token = 0 '<unk>' Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: LF token = 781 '<0x0A>' Aug 29 20:11:30 iMacPro ollama[32080]: llm_load_print_meta: max token length = 48 Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.477+05:30 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server loading model" Aug 29 20:11:31 iMacPro ollama[32080]: ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no Aug 29 20:11:31 iMacPro ollama[32080]: ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no Aug 29 20:11:31 iMacPro ollama[32080]: ggml_cuda_init: found 1 ROCm devices: Aug 29 20:11:31 iMacPro ollama[32080]: Device 0: AMD Radeon RX 6800 XT, compute capability 10.3, VMM: no Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: ggml ctx size = 0.47 MiB Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: offloading 56 repeating layers to GPU Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: offloading non-repeating layers to GPU Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: offloaded 57/57 layers to GPU Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: ROCm0 buffer size = 11878.15 MiB Aug 29 20:11:31 iMacPro ollama[32080]: llm_load_tensors: ROCm_Host buffer size = 108.00 MiB Aug 29 20:11:31 iMacPro ollama[32080]: time=2024-08-29T20:11:31.571+05:30 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error" Aug 29 20:11:31 iMacPro ollama[32080]: time=2024-08-29T20:11:31.822+05:30 level=ERROR source=sched.go:456 msg="error loading llama server" error="llama runner process has terminated: signal: segmentation fault (core dumped)"

GiteaMirror commented

2026-04-12 15:01:17 -05:00

@anonymux1 commented on GitHub (Aug 29, 2024):

Successfully ran a small llm like, starcoder2:3b but same error when i tried a slightly smaller model: ollama run codestral:22b-v0.1-q3_K_L
pulling manifest
pulling e12cecf18621... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 11 GB
pulling 36ee4ce5634b... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 83 B
pulling 5b68668f65de... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 11 KB
pulling 5dea4f4d0fff... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 63 B
pulling 9388242c6c41... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 488 B
verifying sha256 digest
writing manifest
success
Error: llama runner process has terminated: signal: segmentation fault (core dumped)

journalctl -u ollama Output:

Aug 29 20:47:28 iMacPro ollama[52949]: [GIN] 2024/08/29 - 20:47:28 | 200 | 8m17s | 127.0.0.1 | POST "/api/pull"
Aug 29 20:47:28 iMacPro ollama[52949]: [GIN] 2024/08/29 - 20:47:28 | 200 | 9.630687ms | 127.0.0.1 | POST "/api/show"
Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.068+05:30 level=INFO source=sched.go:715 msg="new model will fit in available VRAM in single GPU, loading" model=/home/Ollama/blobs/sha256-e12cecf18621cf0e2893065a1dfa8d2960f061b15840d1ef81544bc375ef0eec gpu=0 parallel=4 available=16134053888 required="14.1 GiB"
Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.070+05:30 level=INFO source=memory.go:309 msg="offload to rocm" layers.requested=-1 layers.model=57 layers.offload=57 layers.split="" memory.available="[15.0 GiB]" memory.required.full="14.1 GiB" memory.required.partial="14.1 GiB" memory.required.kv="1.8 GiB" memory.required.allocations="[14.1 GiB]" memory.weights.total="12.4 GiB" memory.weights.repeating="12.3 GiB" memory.weights.nonrepeating="157.5 MiB" memory.graph.full="832.0 MiB" memory.graph.partial="860.3 MiB"
Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.071+05:30 level=INFO source=server.go:391 msg="starting llama server" cmd="/tmp/ollama2276286463/runners/rocm_v60102/ollama_llama_server --model /home/Ollama/blobs/sha256-e12cecf18621cf0e2893065a1dfa8d2960f061b15840d1ef81544bc375ef0eec --ctx-size 8192 --batch-size 512 --embedding --log-disable --n-gpu-layers 57 --no-mmap --parallel 4 --port 42705"
Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.072+05:30 level=INFO source=sched.go:450 msg="loaded runners" count=1
Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.072+05:30 level=INFO source=server.go:591 msg="waiting for llama runner to start responding"
Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.072+05:30 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error"
Aug 29 20:47:28 iMacPro ollama[55053]: INFO [main] build info | build=1 commit="1e6f655" tid="140525588689728" timestamp=1724944648
Aug 29 20:47:28 iMacPro ollama[55053]: INFO [main] system info | n_threads=6 n_threads_batch=-1 system_info="AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0 | FMA = 0 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | " tid="140525588689728" timestamp=1724944648 total_threads=6
Aug 29 20:47:28 iMacPro ollama[55053]: INFO [main] HTTP server listening | hostname="127.0.0.1" n_threads_http="6" port="42705" tid="140525588689728" timestamp=1724944648
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: loaded meta data with 25 key-value pairs and 507 tensors from /home/Ollama/blobs/sha256-e12cecf18621cf0e2893065a1dfa8d2960f061b15840d1ef81544bc375ef0eec (version GGUF V3 (latest))
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 0: general.architecture str = llama
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 1: general.name str = Codestral-22B-v0.1
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 2: llama.block_count u32 = 56
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 3: llama.context_length u32 = 32768
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 4: llama.embedding_length u32 = 6144
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 5: llama.feed_forward_length u32 = 16384
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 6: llama.attention.head_count u32 = 48
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 7: llama.attention.head_count_kv u32 = 8
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 8: llama.rope.freq_base f32 = 1000000.000000
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 9: llama.attention.layer_norm_rms_epsilon f32 = 0.000010
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 10: general.file_type u32 = 13
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 11: llama.vocab_size u32 = 32768
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 12: llama.rope.dimension_count u32 = 128
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 13: tokenizer.ggml.add_space_prefix bool = true
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 14: tokenizer.ggml.model str = llama
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 15: tokenizer.ggml.pre str = default
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 16: tokenizer.ggml.tokens arr[str,32768] = ["", "~~", "~~", "[INST]", "[...
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 17: tokenizer.ggml.scores arr[f32,32768] = [0.000000, 0.000000, 0.000000, 0.0000...
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 18: tokenizer.ggml.token_type arr[i32,32768] = [2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, ...
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 19: tokenizer.ggml.bos_token_id u32 = 1
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 20: tokenizer.ggml.eos_token_id u32 = 2
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 21: tokenizer.ggml.unknown_token_id u32 = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 22: tokenizer.ggml.add_bos_token bool = true
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 23: tokenizer.ggml.add_eos_token bool = false
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 24: general.quantization_version u32 = 2
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - type f32: 113 tensors
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - type q3_K: 225 tensors
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - type q5_K: 168 tensors
Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - type q6_K: 1 tensors
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_vocab: special tokens cache size = 771
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_vocab: token to piece cache size = 0.1731 MB
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: format = GGUF V3 (latest)
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: arch = llama
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: vocab type = SPM
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_vocab = 32768
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_merges = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: vocab_only = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_ctx_train = 32768
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_embd = 6144
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_layer = 56
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_head = 48
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_head_kv = 8
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_rot = 128
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_swa = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_embd_head_k = 128
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_embd_head_v = 128
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_gqa = 6
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_embd_k_gqa = 1024
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_embd_v_gqa = 1024
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: f_norm_eps = 0.0e+00
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: f_norm_rms_eps = 1.0e-05
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: f_clamp_kqv = 0.0e+00
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: f_max_alibi_bias = 0.0e+00
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: f_logit_scale = 0.0e+00
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_ff = 16384
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_expert = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_expert_used = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: causal attn = 1
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: pooling type = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: rope type = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: rope scaling = linear
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: freq_base_train = 1000000.0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: freq_scale_train = 1
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_ctx_orig_yarn = 32768
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: rope_finetuned = unknown
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: ssm_d_conv = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: ssm_d_inner = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: ssm_d_state = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: ssm_dt_rank = 0
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: model type = ?B
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: model ftype = Q3_K - Large
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: model params = 22.25 B
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: model size = 10.92 GiB (4.22 BPW)
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: general.name = Codestral-22B-v0.1
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: BOS token = 1 ''
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: EOS token = 2 ''
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: UNK token = 0 ''
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: LF token = 781 '<0x0A>'
Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: max token length = 48
Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.323+05:30 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server loading model"
Aug 29 20:47:29 iMacPro ollama[52949]: ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no
Aug 29 20:47:29 iMacPro ollama[52949]: ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
Aug 29 20:47:29 iMacPro ollama[52949]: ggml_cuda_init: found 1 ROCm devices:
Aug 29 20:47:29 iMacPro ollama[52949]: Device 0: AMD Radeon RX 6800 XT, compute capability 10.3, VMM: no
Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: ggml ctx size = 0.47 MiB
Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: offloading 56 repeating layers to GPU
Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: offloading non-repeating layers to GPU
Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: offloaded 57/57 layers to GPU
Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: ROCm0 buffer size = 11103.77 MiB
Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: ROCm_Host buffer size = 82.50 MiB
Aug 29 20:47:30 iMacPro ollama[52949]: time=2024-08-29T20:47:30.186+05:30 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error"
Aug 29 20:47:30 iMacPro ollama[52949]: time=2024-08-29T20:47:30.436+05:30 level=ERROR source=sched.go:456 msg="error loading llama server" error="llama runner process has terminated: signal: segmentation fault (core dumped)"

@anonymux1 commented on GitHub (Aug 29, 2024): Successfully ran a small llm like, starcoder2:3b but same error when i tried a slightly smaller model: ollama run codestral:22b-v0.1-q3_K_L pulling manifest pulling e12cecf18621... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 11 GB pulling 36ee4ce5634b... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 83 B pulling 5b68668f65de... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 11 KB pulling 5dea4f4d0fff... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 63 B pulling 9388242c6c41... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 488 B verifying sha256 digest writing manifest success Error: llama runner process has terminated: signal: segmentation fault (core dumped) journalctl -u ollama Output: Aug 29 20:47:28 iMacPro ollama[52949]: [GIN] 2024/08/29 - 20:47:28 | 200 | 8m17s | 127.0.0.1 | POST "/api/pull" Aug 29 20:47:28 iMacPro ollama[52949]: [GIN] 2024/08/29 - 20:47:28 | 200 | 9.630687ms | 127.0.0.1 | POST "/api/show" Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.068+05:30 level=INFO source=sched.go:715 msg="new model will fit in available VRAM in single GPU, loading" model=/home/Ollama/blobs/sha256-e12cecf18621cf0e2893065a1dfa8d2960f061b15840d1ef81544bc375ef0eec gpu=0 parallel=4 available=16134053888 required="14.1 GiB" Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.070+05:30 level=INFO source=memory.go:309 msg="offload to rocm" layers.requested=-1 layers.model=57 layers.offload=57 layers.split="" memory.available="[15.0 GiB]" memory.required.full="14.1 GiB" memory.required.partial="14.1 GiB" memory.required.kv="1.8 GiB" memory.required.allocations="[14.1 GiB]" memory.weights.total="12.4 GiB" memory.weights.repeating="12.3 GiB" memory.weights.nonrepeating="157.5 MiB" memory.graph.full="832.0 MiB" memory.graph.partial="860.3 MiB" Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.071+05:30 level=INFO source=server.go:391 msg="starting llama server" cmd="/tmp/ollama2276286463/runners/rocm_v60102/ollama_llama_server --model /home/Ollama/blobs/sha256-e12cecf18621cf0e2893065a1dfa8d2960f061b15840d1ef81544bc375ef0eec --ctx-size 8192 --batch-size 512 --embedding --log-disable --n-gpu-layers 57 --no-mmap --parallel 4 --port 42705" Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.072+05:30 level=INFO source=sched.go:450 msg="loaded runners" count=1 Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.072+05:30 level=INFO source=server.go:591 msg="waiting for llama runner to start responding" Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.072+05:30 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error" Aug 29 20:47:28 iMacPro ollama[55053]: INFO [main] build info | build=1 commit="1e6f655" tid="140525588689728" timestamp=1724944648 Aug 29 20:47:28 iMacPro ollama[55053]: INFO [main] system info | n_threads=6 n_threads_batch=-1 system_info="AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | AVX512_BF16 = 0 | FMA = 0 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | " tid="140525588689728" timestamp=1724944648 total_threads=6 Aug 29 20:47:28 iMacPro ollama[55053]: INFO [main] HTTP server listening | hostname="127.0.0.1" n_threads_http="6" port="42705" tid="140525588689728" timestamp=1724944648 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: loaded meta data with 25 key-value pairs and 507 tensors from /home/Ollama/blobs/sha256-e12cecf18621cf0e2893065a1dfa8d2960f061b15840d1ef81544bc375ef0eec (version GGUF V3 (latest)) Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output. Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 0: general.architecture str = llama Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 1: general.name str = Codestral-22B-v0.1 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 2: llama.block_count u32 = 56 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 3: llama.context_length u32 = 32768 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 4: llama.embedding_length u32 = 6144 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 5: llama.feed_forward_length u32 = 16384 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 6: llama.attention.head_count u32 = 48 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 7: llama.attention.head_count_kv u32 = 8 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 8: llama.rope.freq_base f32 = 1000000.000000 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 9: llama.attention.layer_norm_rms_epsilon f32 = 0.000010 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 10: general.file_type u32 = 13 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 11: llama.vocab_size u32 = 32768 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 12: llama.rope.dimension_count u32 = 128 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 13: tokenizer.ggml.add_space_prefix bool = true Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 14: tokenizer.ggml.model str = llama Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 15: tokenizer.ggml.pre str = default Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 16: tokenizer.ggml.tokens arr[str,32768] = ["<unk>", "<s>", "</s>", "[INST]", "[... Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 17: tokenizer.ggml.scores arr[f32,32768] = [0.000000, 0.000000, 0.000000, 0.0000... Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 18: tokenizer.ggml.token_type arr[i32,32768] = [2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, ... Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 19: tokenizer.ggml.bos_token_id u32 = 1 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 20: tokenizer.ggml.eos_token_id u32 = 2 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 21: tokenizer.ggml.unknown_token_id u32 = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 22: tokenizer.ggml.add_bos_token bool = true Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 23: tokenizer.ggml.add_eos_token bool = false Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - kv 24: general.quantization_version u32 = 2 Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - type f32: 113 tensors Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - type q3_K: 225 tensors Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - type q5_K: 168 tensors Aug 29 20:47:28 iMacPro ollama[52949]: llama_model_loader: - type q6_K: 1 tensors Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_vocab: special tokens cache size = 771 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_vocab: token to piece cache size = 0.1731 MB Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: format = GGUF V3 (latest) Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: arch = llama Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: vocab type = SPM Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_vocab = 32768 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_merges = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: vocab_only = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_ctx_train = 32768 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_embd = 6144 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_layer = 56 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_head = 48 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_head_kv = 8 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_rot = 128 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_swa = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_embd_head_k = 128 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_embd_head_v = 128 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_gqa = 6 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_embd_k_gqa = 1024 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_embd_v_gqa = 1024 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: f_norm_eps = 0.0e+00 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: f_norm_rms_eps = 1.0e-05 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: f_clamp_kqv = 0.0e+00 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: f_max_alibi_bias = 0.0e+00 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: f_logit_scale = 0.0e+00 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_ff = 16384 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_expert = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_expert_used = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: causal attn = 1 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: pooling type = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: rope type = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: rope scaling = linear Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: freq_base_train = 1000000.0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: freq_scale_train = 1 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: n_ctx_orig_yarn = 32768 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: rope_finetuned = unknown Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: ssm_d_conv = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: ssm_d_inner = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: ssm_d_state = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: ssm_dt_rank = 0 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: model type = ?B Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: model ftype = Q3_K - Large Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: model params = 22.25 B Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: model size = 10.92 GiB (4.22 BPW) Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: general.name = Codestral-22B-v0.1 Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: BOS token = 1 '<s>' Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: EOS token = 2 '</s>' Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: UNK token = 0 '<unk>' Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: LF token = 781 '<0x0A>' Aug 29 20:47:28 iMacPro ollama[52949]: llm_load_print_meta: max token length = 48 Aug 29 20:47:28 iMacPro ollama[52949]: time=2024-08-29T20:47:28.323+05:30 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server loading model" Aug 29 20:47:29 iMacPro ollama[52949]: ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no Aug 29 20:47:29 iMacPro ollama[52949]: ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no Aug 29 20:47:29 iMacPro ollama[52949]: ggml_cuda_init: found 1 ROCm devices: Aug 29 20:47:29 iMacPro ollama[52949]: Device 0: AMD Radeon RX 6800 XT, compute capability 10.3, VMM: no Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: ggml ctx size = 0.47 MiB Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: offloading 56 repeating layers to GPU Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: offloading non-repeating layers to GPU Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: offloaded 57/57 layers to GPU Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: ROCm0 buffer size = 11103.77 MiB Aug 29 20:47:29 iMacPro ollama[52949]: llm_load_tensors: ROCm_Host buffer size = 82.50 MiB Aug 29 20:47:30 iMacPro ollama[52949]: time=2024-08-29T20:47:30.186+05:30 level=INFO source=server.go:625 msg="waiting for server to become available" status="llm server error" Aug 29 20:47:30 iMacPro ollama[52949]: time=2024-08-29T20:47:30.436+05:30 level=ERROR source=sched.go:456 msg="error loading llama server" error="llama runner process has terminated: signal: segmentation fault (core dumped)"

GiteaMirror commented

2026-04-12 15:01:17 -05:00

@dhiltgen commented on GitHub (Sep 3, 2024):

I have a 6800 test system and was able to load the model. From the logs, it looks like it should fit on your GPU

Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.224+05:30 level=INFO source=memory.go:309 msg="offload to rocm" layers.requested=-1 layers.model=57 layers.offload=57 layers.split="" memory.available="[14.8 GiB]" memory.required.full="12.9 GiB" memory.required.partial="12.9 GiB" memory.required.kv="448.0 MiB" memory.required.allocations="[12.9 GiB]" memory.weights.total="11.9 GiB" memory.weights.repeating="11.7 GiB" memory.weights.nonrepeating="157.5 MiB" memory.graph.full="244.0 MiB" memory.graph.partial="256.3 MiB"

It looks like there are other GPU VRAM consumers on your system though (14.8G available, not 16G). It's possible the reporting may be inaccurate, or our prediction may be off. I'm curious if the crash disappears if you set num_gpu to a smaller value to allocate less on the GPU.

@dhiltgen commented on GitHub (Sep 3, 2024): I have a 6800 test system and was able to load the model. From the logs, it looks like it should fit on your GPU ``` Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.224+05:30 level=INFO source=memory.go:309 msg="offload to rocm" layers.requested=-1 layers.model=57 layers.offload=57 layers.split="" memory.available="[14.8 GiB]" memory.required.full="12.9 GiB" memory.required.partial="12.9 GiB" memory.required.kv="448.0 MiB" memory.required.allocations="[12.9 GiB]" memory.weights.total="11.9 GiB" memory.weights.repeating="11.7 GiB" memory.weights.nonrepeating="157.5 MiB" memory.graph.full="244.0 MiB" memory.graph.partial="256.3 MiB" ``` It looks like there are other GPU VRAM consumers on your system though (14.8G available, not 16G). It's possible the reporting may be inaccurate, or our prediction may be off. I'm curious if the crash disappears if you set `num_gpu` to a smaller value to allocate less on the GPU.

GiteaMirror commented

2026-04-12 15:01:18 -05:00

@anonymux1 commented on GitHub (Sep 4, 2024):

I have a 6800 test system and was able to load the model. From the logs, it looks like it should fit on your GPU
Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.224+05:30 level=INFO source=memory.go:309 msg="offload to rocm" layers.requested=-1 layers.model=57 layers.offload=57 layers.split="" memory.available="[14.8 GiB]" memory.required.full="12.9 GiB" memory.required.partial="12.9 GiB" memory.required.kv="448.0 MiB" memory.required.allocations="[12.9 GiB]" memory.weights.total="11.9 GiB" memory.weights.repeating="11.7 GiB" memory.weights.nonrepeating="157.5 MiB" memory.graph.full="244.0 MiB" memory.graph.partial="256.3 MiB"
It looks like there are other GPU VRAM consumers on your system though (14.8G available, not 16G). It's possible the reporting may be inaccurate, or our prediction may be off. I'm curious if the crash disappears if you set num_gpu to a smaller value to allocate less on the GPU.

yea i am on the gnome desktop on my ubuntu machine which is probably consuming the gpu mem.. can't think Of anything else that could be

@anonymux1 commented on GitHub (Sep 4, 2024): > I have a 6800 test system and was able to load the model. From the logs, it looks like it should fit on your GPU > > ``` > Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.224+05:30 level=INFO source=memory.go:309 msg="offload to rocm" layers.requested=-1 layers.model=57 layers.offload=57 layers.split="" memory.available="[14.8 GiB]" memory.required.full="12.9 GiB" memory.required.partial="12.9 GiB" memory.required.kv="448.0 MiB" memory.required.allocations="[12.9 GiB]" memory.weights.total="11.9 GiB" memory.weights.repeating="11.7 GiB" memory.weights.nonrepeating="157.5 MiB" memory.graph.full="244.0 MiB" memory.graph.partial="256.3 MiB" > ``` > > It looks like there are other GPU VRAM consumers on your system though (14.8G available, not 16G). It's possible the reporting may be inaccurate, or our prediction may be off. I'm curious if the crash disappears if you set `num_gpu` to a smaller value to allocate less on the GPU. > I have a 6800 test system and was able to load the model. From the logs, it looks like it should fit on your GPU > > ``` > Aug 29 20:11:30 iMacPro ollama[32080]: time=2024-08-29T20:11:30.224+05:30 level=INFO source=memory.go:309 msg="offload to rocm" layers.requested=-1 layers.model=57 layers.offload=57 layers.split="" memory.available="[14.8 GiB]" memory.required.full="12.9 GiB" memory.required.partial="12.9 GiB" memory.required.kv="448.0 MiB" memory.required.allocations="[12.9 GiB]" memory.weights.total="11.9 GiB" memory.weights.repeating="11.7 GiB" memory.weights.nonrepeating="157.5 MiB" memory.graph.full="244.0 MiB" memory.graph.partial="256.3 MiB" > ``` > > It looks like there are other GPU VRAM consumers on your system though (14.8G available, not 16G). It's possible the reporting may be inaccurate, or our prediction may be off. I'm curious if the crash disappears if you set `num_gpu` to a smaller value to allocate less on the GPU. yea i am on the gnome desktop on my ubuntu machine which is probably consuming the gpu mem.. can't think Of anything else that could be

GiteaMirror referenced this issue

2026-04-22 06:22:52 -05:00

[GH-ISSUE #4121] Add flag version #28318

GiteaMirror referenced this issue

2026-04-28 10:42:12 -05:00

[GH-ISSUE #4121] Add flag version #49070

GiteaMirror referenced this issue

2026-05-03 18:17:29 -05:00

[GH-ISSUE #4121] Add flag version #64596

Sign in to join this conversation.

Branches Tags

main

hoyyeva/anthropic-local-image-path

dhiltgen/ci

dhiltgen/llama-runner

parth-remove-claude-desktop-launch

hoyyeva/anthropic-reference-images-path

parth-anthropic-reference-images-path

brucemacd/download-before-remove

hoyyeva/editor-config-repair

parth-mlx-decode-checkpoints

parth-launch-codex-app

hoyyeva/fix-codex-model-metadata-warning

hoyyeva/qwen

parth/hide-claude-desktop-till-release

hoyyeva/opencode-image-modality

parth-add-claude-code-autoinstall

release_v0.22.0

pdevine/manifest-list

codex/fix-codex-model-metadata-warning

pdevine/addressable-manifest

brucemacd/launch-fetch-reccomended

jmorganca/llama-compat

launch-copilot-cli

hoyyeva/opencode-thinking

release_v0.20.7

parth-auto-save-backup

parth-test

jmorganca/gemma4-audio-replacements

fix-manifest-digest-on-pull

hoyyeva/vscode-improve

brucemacd/install-server-wait

parth/update-claude-docs

brucemac/start-ap-install

pdevine/mlx-update

pdevine/qwen35_vision

drifkin/api-show-fallback

mintlify/image-generation-1773352582

hoyyeva/server-context-length-local-config

jmorganca/faster-reptition-penalties

jmorganca/convert-nemotron

parth-pi-thinking

pdevine/sampling-penalties

jmorganca/fix-create-quantization-memory

dongchen/resumable_transfer_fix

pdevine/sampling-cache-error

jessegross/mlx-usage

hoyyeva/openclaw-config

hoyyeva/app-html

pdevine/qwen3next

brucemacd/sign-sh-install

brucemacd/tui-update

brucemacd/usage-api

jmorganca/launch-empty

fix-app-dist-embed

mxyng/mlx-compile

mxyng/mlx-quant

mxyng/mlx-glm4.7

mxyng/mlx

brucemacd/simplify-model-picker

jmorganca/qwen3-concurrent

fix-glm-4.7-flash-mla-config

drifkin/qwen3-coder-opening-tag

brucemacd/usage-cli

fix-cuda12-fattn-shmem

ollama-imagegen-docs

parth/fix-multiline-inputs

brucemacd/config-docs

mxyng/model-files

mxyng/simple-execute

fix-imagegen-ollama-models

mxyng/async-upload

jmorganca/lazy-no-dtype-changes

imagegen-auto-detect-create

parth/decrease-concurrent-download-hf

fix-mlx-quantize-init

jmorganca/x-cleanup

usage

imagegen-readme

jmorganca/glm-image

mlx-gpu-cd

jmorganca/imagegen-modelfile

parth/agent-skills

parth/agent-allowlist

parth/signed-in-offline

parth/agents

parth/fix-context-chopping

improve-cloud-flow

parth/add-models-websearch

parth/prompt-renderer-mcp

jmorganca/native-settings

jmorganca/download-stream-hash

jmorganca/client2-rebased

brucemacd/oai-chat-req-multipart

jessegross/multi_chunk_reserve

grace/additional-omit-empty

grace/mistral-3-large

mxyng/tokenizer2

mxyng/tokenizer

jessegross/flash

hoyyeva/windows-nacked-app

mxyng/cleanup-attention

grace/deepseek-parser

hoyyeva/remember-unsent-prompt

parth/add-lfs-pointer-error-conversion

parth/olmo2-test2

hoyyeva/ollama-launchagent-plist

nicole/olmo-model

parth/olmo-test

mxyng/remove-embedded

parth/render-template

jmorganca/intellect-3

parth/remove-prealloc-linter

jmorganca/cmd-eval

nicole/nomic-embed-text-fix

mxyng/lint-2

hoyyeva/add-gemini-3-pro-preview

hoyyeva/load-model-list

mxyng/expand-path

mxyng/environ-2

hoyyeva/deeplink-json-encoding

parth/improve-tool-calling-tests

hoyyeva/conversation

hoyyeva/assistant-edit-response

hoyyeva/thinking

origin/brucemacd/invalid-char-i-err

parth/improve-tool-calling

jmorganca/required-omitempty

grace/qwen3-vl-tests

mxyng/iter-client

parth/docs-readme

nicole/embed-test

pdevine/integration-benchstat

parth/remove-generate-cmd

parth/add-toolcall-id

mxyng/server-tests

jmorganca/glm-4.6

jmorganca/gin-h-compat

drifkin/stable-tool-args

pdevine/qwen3-more-thinking

parth/add-websearch-client

nicole/websearch_local

jmorganca/qwen3-coder-updates

grace/deepseek-v3-migration-tests

mxyng/fix-create

jmorganca/cloud-errors

pdevine/parser-tidy

revert-12233-parth/simplify-entrypoints-runner

parth/enable-so-gpt-oss

brucemacd/qwen3vl

jmorganca/readme-simplify

parth/gpt-oss-structured-outputs

revert-12039-jmorganca/tools-braces

mxyng/embeddings

mxyng/gguf

mxyng/benchmark

mxyng/types-null

parth/move-parsing

mxyng/gemma2

jmorganca/docs

mxyng/16-bit

mxyng/create-stdin

pdevine/authorizedkeys

mxyng/quant

parth/opt-in-error-context-window

brucemacd/cache-models

brucemacd/runner-completion

jmorganca/llama-update-6

brucemacd/benchmark-list

brucemacd/partial-read-caps

parth/deepseek-r1-tools

mxyng/omit-array

parth/tool-prefix-temp

brucemacd/runner-test

jmorganca/qwen25vl

brucemacd/model-forward-test-ext

parth/python-function-parsing

jmorganca/cuda-compression-none

drifkin/num-parallel

drifkin/chat-truncation-fix

jmorganca/sync

parth/python-tools-calling

drifkin/array-head-count

brucemacd/create-no-loop

parth/server-enable-content-stream-with-tools

qwen25omni

mxyng/v3

brucemacd/ropeconfig

jmorganca/silence-tokenizer

parth/sample-so-test

parth/sampling-structured-outputs

brucemacd/doc-go-engine

parth/constrained-sampling-json

jmorganca/mistral-wip

brucemacd/mistral-small-convert

parth/sample-unmarshal-json-for-params

brucemacd/jomorganca/mistral

pdevine/bfloat16

jmorganca/mistral

brucemacd/mistral

pdevine/logging

parth/sample-correctness-fix

parth/sample-fix-sorting

jmorgan/sample-fix-sorting-extras

jmorganca/temp-0-images

brucemacd/parallel-embed-models

brucemacd/shim-grammar

jmorganca/fix-gguf-error

bmizerany/nameswork

jmorganca/faster-releases

bmizerany/validatenames

brucemacd/err-no-vocab

brucemacd/rope-config

brucemacd/err-hint

brucemacd/qwen2_5

brucemacd/logprobs

brucemacd/new_runner_graph_bench

progress-flicker

brucemacd/forward-test

brucemacd/go_qwen2

pdevine/gemma2

jmorganca/add-missing-symlink-eval

mxyng/next-debug

parth/set-context-size-openai

brucemacd/next-bpe-bench

brucemacd/next-bpe-test

brucemacd/new_runner_e2e

brucemacd/new_runner_qwen2

pdevine/convert-cohere2

brucemacd/convert-cli

parth/log-probs

mxyng/next-mlx

mxyng/cmd-history

parth/templating

parth/tokenize-detokenize

brucemacd/check-key-register

bmizerany/grammar

jmorganca/vendor-081b29bd

mxyng/func-checks

jmorganca/fix-null-format

parth/fix-default-to-warn-json

jmorganca/qwen2vl

jmorganca/no-concat

parth/cmd-cleanup-SO

brucemacd/check-key-register-structured-err

parth/openai-stream-usage

parth/fix-referencing-so

stream-tools-stop

jmorganca/degin-1

brucemacd/install-path-clean

brucemacd/push-name-validation

brucemacd/browser-key-register

jmorganca/openai-fix-first-message

jmorganca/fix-proxy

jessegross/sample

parth/disallow-streaming-tools

dhiltgen/remove_submodule

jmorganca/ga

jmorganca/mllama

pdevine/newlines

pdevine/geems-2b

jmorganca/llama-bump

mxyng/modelname-7

mxyng/gin-slog

mxyng/modelname-6

jyan/convert-prog

jyan/quant5

paligemma-support

pdevine/import-docs

jmorganca/openai-context

jyan/paligemma

jyan/p2

jyan/palitest

bmizerany/embedspeedup

jmorganca/llama-vit

brucemacd/allow-ollama

royh/ep-methods

royh/whisper

mxyng/api-models

mxyng/fix-memory

jyan/q4_4/8

jyan/ollama-v

royh/stream-tools

roy-embed-parallel

bmizerany/hrm

revert-5963-revert-5924-mxyng/llama3.1-rope

royh/embed-viz

jyan/local2

jyan/auth

jyan/local

jyan/parse-temp

jmorganca/template-mistral

jyan/reord-g

royh-openai-suffixdocs

royh-imgembed

royh-embed-parallel

jyan/quant4

royh-precision

jyan/progress

pdevine/fix-template

jyan/quant3

pdevine/ggla

mxyng/update-registry-domain

jmorganca/ggml-static

mxyng/create-context

jyan/v0.146

mxyng/layers-from-files

build_dist

bmizerany/noseek

royh-ls

royh-name

timeout

mxyng/server-timestamp

bmizerany/nosillyggufslurps

royh-params

jmorganca/llama-cpp-7c26775

royh-openai-delete

royh-show-rigid

jmorganca/enable-fa

jmorganca/no-error-template

jyan/format

royh-testdelete

bmizerany/fastverify

language_support

pdevine/ps-glitches

brucemacd/tokenize

bruce/iq-quants

bmizerany/filepathwithcoloninhost

mxyng/split-bin

bmizerany/client-registry

jmorganca/if-none-match

native

jmorganca/native

jmorganca/batch-embeddings

jmorganca/initcmake

jmorganca/mm

pdevine/showggmlinfo

modenameenforcealphanum

bmizerany/modenameenforcealphanum

jmorganca/done-reason

jmorganca/llama-cpp-8960fe8

ollama.com

bmizerany/filepathnobuild

bmizerany/types/model/defaultfix

rmdisplaylong

nogogen

bmizerany/x

modelfile-readme

bmizerany/replacecolon

jmorganca/limit

jmorganca/execstack

jmorganca/replace-assets

mxyng/tune-concurrency

jmorganca/testing

whitespace-detection

jmorganca/options

upgrade-all

scratch

cuda-search

mattw/airenamer

mattw/allmodelsonhuggingface

mattw/quantcontext

mattw/whatneedstorun

brucemacd/llama-mem-calc

mattw/faq-context

mattw/communitylinks

mattw/noprune

mattw/python-functioncalling

rename

mxyng/install

pulse

remove-first

editor

mattw/selfqueryingretrieval

cgo

mattw/howtoquant

api

matt/streamingapi

format-config

mxyng/extra-args

shell

update-nous-hermes

cp-model

upload-progress

fix-unknown-model

fix-model-names

delete-fix

insecure-registry

ls

deletemodels

progressbar

readme-updates

license-layers

skip-list

list-models

modelpath

matt/examplemodelfiles

distribution

go-opts

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: github-starred/ollama#4121