[GH-ISSUE #4529] error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2' #28600

New Issue

GiteaMirror · 2026-04-22T07:00:28-05:00

GiteaMirror commented

2026-04-22 07:00:28 -05:00

Originally created by @Anorid on GitHub (May 20, 2024).
Original GitHub issue: https://github.com/ollama/ollama/issues/4529

What is the issue?

I carefully read the contents of the readme's documentation to try and found that something went wrong

time=2024-05-20T10:06:02.688+08:00 level=INFO source=server.go:320 msg="starting llama server" cmd="/tmp/ollama2132883000/runners/cuda_v11/ollama_llama_server --model /root/autodl-tmp/models/blobs/sha256-1c751709783923dab2b876d5c5c2ca36d4e205cfef7d88988df45752cb91f245 --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 41 --parallel 1 --port 33525"
time=2024-05-20T10:06:02.690+08:00 level=INFO source=sched.go:338 msg="loaded runners" count=1
time=2024-05-20T10:06:02.690+08:00 level=INFO source=server.go:504 msg="waiting for llama runner to start responding"
time=2024-05-20T10:06:02.691+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server error"
INFO [main] build info | build=1 commit="952d03d" tid="140401842012160" timestamp=1716170762
INFO [main] system info | n_threads=64 n_threads_batch=-1 system_info="AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | " tid="140401842012160" timestamp=1716170762 total_threads=128
INFO [main] HTTP server listening | hostname="127.0.0.1" n_threads_http="127" port="33525" tid="140401842012160" timestamp=1716170762
llama_model_loader: loaded meta data with 21 key-value pairs and 483 tensors from /root/autodl-tmp/models/blobs/sha256-1c751709783923dab2b876d5c5c2ca36d4e205cfef7d88988df45752cb91f245 (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv 0: general.architecture str = qwen2
llama_model_loader: - kv 1: general.name str = merge5-1
llama_model_loader: - kv 2: qwen2.block_count u32 = 40
llama_model_loader: - kv 3: qwen2.context_length u32 = 32768
llama_model_loader: - kv 4: qwen2.embedding_length u32 = 5120
llama_model_loader: - kv 5: qwen2.feed_forward_length u32 = 13696
llama_model_loader: - kv 6: qwen2.attention.head_count u32 = 40
llama_model_loader: - kv 7: qwen2.attention.head_count_kv u32 = 40
llama_model_loader: - kv 8: qwen2.rope.freq_base f32 = 1000000.000000
llama_model_loader: - kv 9: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001
llama_model_loader: - kv 10: general.file_type u32 = 2
llama_model_loader: - kv 11: tokenizer.ggml.model str = gpt2
llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2
llama_model_loader: - kv 13: tokenizer.ggml.tokens arr[str,152064] = ["!", """, "#", "$", "%", "&", "'", ...
llama_model_loader: - kv 14: tokenizer.ggml.token_type arr[i32,152064] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv 15: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",...
llama_model_loader: - kv 16: tokenizer.ggml.eos_token_id u32 = 151643
llama_model_loader: - kv 17: tokenizer.ggml.padding_token_id u32 = 151643
llama_model_loader: - kv 18: tokenizer.ggml.bos_token_id u32 = 151643
llama_model_loader: - kv 19: tokenizer.chat_template str = {% for message in messages %}{% if lo...
llama_model_loader: - kv 20: general.quantization_version u32 = 2
llama_model_loader: - type f32: 201 tensors
llama_model_loader: - type q4_0: 281 tensors
llama_model_loader: - type q6_K: 1 tensors
time=2024-05-20T10:06:02.944+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server loading model"
llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2'
llama_load_model_from_file: exception loading model
terminate called after throwing an instance of 'std::runtime_error'
what(): error loading model vocabulary: unknown pre-tokenizer type: 'qwen2'
time=2024-05-20T10:06:03.285+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server error"
time=2024-05-20T10:06:03.535+08:00 level=ERROR source=sched.go:344 msg="error loading llama server" error="llama runner process has terminated: signal: aborted (core dumped) "
[GIN] 2024/05/20 - 10:06:03 | 500 | 2.178464527s | 127.0.0.1 | POST "/api/chat"
time=2024-05-20T10:06:07.831+08:00 level=INFO source=memory.go:133 msg="offload to gpu" layers.requested=-1 layers.real=41 memory.available="47.3 GiB" memory.required.full="9.7 GiB" memory.required.partial="9.7 GiB" memory.required.kv="1.6 GiB" memory.weights.total="7.2 GiB" memory.weights.repeating="6.6 GiB" memory.weights.nonrepeating="609.1 MiB" memory.graph.full="307.0 MiB" memory.graph.partial="916.1 MiB"
time=2024-05-20T10:06:07.832+08:00 level=INFO source=memory.go:133 msg="offload to gpu" layers.requested=-1 layers.real=41 memory.available="47.3 GiB" memory.required.full="9.7 GiB" memory.required.partial="9.7 GiB" memory.required.kv="1.6 GiB" memory.weights.total="7.2 GiB" memory.weights.repeating="6.6 GiB" memory.weights.nonrepeating="609.1 MiB" memory.graph.full="307.0 MiB" memory.graph.partial="916.1 MiB"
time=2024-05-20T10:06:07.832+08:00 level=INFO source=server.go:320 msg="starting llama server" cmd="/tmp/ollama2132883000/runners/cuda_v11/ollama_llama_server --model /root/autodl-tmp/models/blobs/sha256-1c751709783923dab2b876d5c5c2ca36d4e205cfef7d88988df45752cb91f245 --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 41 --parallel 1 --port 43339"
time=2024-05-20T10:06:07.833+08:00 level=INFO source=sched.go:338 msg="loaded runners" count=1
time=2024-05-20T10:06:07.833+08:00 level=INFO source=server.go:504 msg="waiting for llama runner to start responding"
time=2024-05-20T10:06:07.833+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server error"
INFO [main] build info | build=1 commit="952d03d" tid="140283378036736" timestamp=1716170767
INFO [main] system info | n_threads=64 n_threads_batch=-1 system_info="AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | " tid="140283378036736" timestamp=1716170767 total_threads=128
INFO [main] HTTP server listening | hostname="127.0.0.1" n_threads_http="127" port="43339" tid="140283378036736" timestamp=1716170767
llama_model_loader: loaded meta data with 21 key-value pairs and 483 tensors from /root/autodl-tmp/models/blobs/sha256-1c751709783923dab2b876d5c5c2ca36d4e205cfef7d88988df45752cb91f245 (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv 0: general.architecture str = qwen2
llama_model_loader: - kv 1: general.name str = merge5-1
llama_model_loader: - kv 2: qwen2.block_count u32 = 40
llama_model_loader: - kv 3: qwen2.context_length u32 = 32768
llama_model_loader: - kv 4: qwen2.embedding_length u32 = 5120
llama_model_loader: - kv 5: qwen2.feed_forward_length u32 = 13696
llama_model_loader: - kv 6: qwen2.attention.head_count u32 = 40
llama_model_loader: - kv 7: qwen2.attention.head_count_kv u32 = 40
llama_model_loader: - kv 8: qwen2.rope.freq_base f32 = 1000000.000000
llama_model_loader: - kv 9: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001
llama_model_loader: - kv 10: general.file_type u32 = 2
llama_model_loader: - kv 11: tokenizer.ggml.model str = gpt2
llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2
llama_model_loader: - kv 13: tokenizer.ggml.tokens arr[str,152064] = ["!", """, "#", "$", "%", "&", "'", ...
llama_model_loader: - kv 14: tokenizer.ggml.token_type arr[i32,152064] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv 15: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",...
llama_model_loader: - kv 16: tokenizer.ggml.eos_token_id u32 = 151643
llama_model_loader: - kv 17: tokenizer.ggml.padding_token_id u32 = 151643
llama_model_loader: - kv 18: tokenizer.ggml.bos_token_id u32 = 151643
llama_model_loader: - kv 19: tokenizer.chat_template str = {% for message in messages %}{% if lo...
llama_model_loader: - kv 20: general.quantization_version u32 = 2
llama_model_loader: - type f32: 201 tensors
llama_model_loader: - type q4_0: 281 tensors
llama_model_loader: - type q6_K: 1 tensors
time=2024-05-20T10:06:08.085+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server loading model"
llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2'
llama_load_model_from_file: exception loading model
terminate called after throwing an instance of 'std::runtime_error'
what(): error loading model vocabulary: unknown pre-tokenizer type: 'qwen2'
time=2024-05-20T10:06:08.437+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server error"
time=2024-05-20T10:06:08.656+08:00 level=WARN source=sched.go:512 msg="gpu VRAM usage didn't recover within timeout" seconds=5.120574757
time=2024-05-20T10:06:08.688+08:00 level=ERROR source=sched.go:344 msg="error loading llama server" error="llama runner process has terminated: signal: aborted (core dumped) "

I look at the 4b to 72b of qwen1.5 provided, so this should be provided by the tokenizer as well

OS

Linux

GPU

Nvidia

CPU

Other

Ollama version

client version is 0.1.38

Originally created by @Anorid on GitHub (May 20, 2024). Original GitHub issue: https://github.com/ollama/ollama/issues/4529 ### What is the issue? I carefully read the contents of the readme's documentation to try and found that something went wrong time=2024-05-20T10:06:02.688+08:00 level=INFO source=server.go:320 msg="starting llama server" cmd="/tmp/ollama2132883000/runners/cuda_v11/ollama_llama_server --model /root/autodl-tmp/models/blobs/sha256-1c751709783923dab2b876d5c5c2ca36d4e205cfef7d88988df45752cb91f245 --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 41 --parallel 1 --port 33525" time=2024-05-20T10:06:02.690+08:00 level=INFO source=sched.go:338 msg="loaded runners" count=1 time=2024-05-20T10:06:02.690+08:00 level=INFO source=server.go:504 msg="waiting for llama runner to start responding" time=2024-05-20T10:06:02.691+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server error" INFO [main] build info | build=1 commit="952d03d" tid="140401842012160" timestamp=1716170762 INFO [main] system info | n_threads=64 n_threads_batch=-1 system_info="AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | " tid="140401842012160" timestamp=1716170762 total_threads=128 INFO [main] HTTP server listening | hostname="127.0.0.1" n_threads_http="127" port="33525" tid="140401842012160" timestamp=1716170762 llama_model_loader: loaded meta data with 21 key-value pairs and 483 tensors from /root/autodl-tmp/models/blobs/sha256-1c751709783923dab2b876d5c5c2ca36d4e205cfef7d88988df45752cb91f245 (version GGUF V3 (latest)) llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output. llama_model_loader: - kv 0: general.architecture str = qwen2 llama_model_loader: - kv 1: general.name str = merge5-1 llama_model_loader: - kv 2: qwen2.block_count u32 = 40 llama_model_loader: - kv 3: qwen2.context_length u32 = 32768 llama_model_loader: - kv 4: qwen2.embedding_length u32 = 5120 llama_model_loader: - kv 5: qwen2.feed_forward_length u32 = 13696 llama_model_loader: - kv 6: qwen2.attention.head_count u32 = 40 llama_model_loader: - kv 7: qwen2.attention.head_count_kv u32 = 40 llama_model_loader: - kv 8: qwen2.rope.freq_base f32 = 1000000.000000 llama_model_loader: - kv 9: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001 llama_model_loader: - kv 10: general.file_type u32 = 2 llama_model_loader: - kv 11: tokenizer.ggml.model str = gpt2 llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2 llama_model_loader: - kv 13: tokenizer.ggml.tokens arr[str,152064] = ["!", "\"", "#", "$", "%", "&", "'", ... llama_model_loader: - kv 14: tokenizer.ggml.token_type arr[i32,152064] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... llama_model_loader: - kv 15: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",... llama_model_loader: - kv 16: tokenizer.ggml.eos_token_id u32 = 151643 llama_model_loader: - kv 17: tokenizer.ggml.padding_token_id u32 = 151643 llama_model_loader: - kv 18: tokenizer.ggml.bos_token_id u32 = 151643 llama_model_loader: - kv 19: tokenizer.chat_template str = {% for message in messages %}{% if lo... llama_model_loader: - kv 20: general.quantization_version u32 = 2 llama_model_loader: - type f32: 201 tensors llama_model_loader: - type q4_0: 281 tensors llama_model_loader: - type q6_K: 1 tensors time=2024-05-20T10:06:02.944+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server loading model" llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2' llama_load_model_from_file: exception loading model terminate called after throwing an instance of 'std::runtime_error' what(): error loading model vocabulary: unknown pre-tokenizer type: 'qwen2' time=2024-05-20T10:06:03.285+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server error" time=2024-05-20T10:06:03.535+08:00 level=ERROR source=sched.go:344 msg="error loading llama server" error="llama runner process has terminated: signal: aborted (core dumped) " [GIN] 2024/05/20 - 10:06:03 | 500 | 2.178464527s | 127.0.0.1 | POST "/api/chat" time=2024-05-20T10:06:07.831+08:00 level=INFO source=memory.go:133 msg="offload to gpu" layers.requested=-1 layers.real=41 memory.available="47.3 GiB" memory.required.full="9.7 GiB" memory.required.partial="9.7 GiB" memory.required.kv="1.6 GiB" memory.weights.total="7.2 GiB" memory.weights.repeating="6.6 GiB" memory.weights.nonrepeating="609.1 MiB" memory.graph.full="307.0 MiB" memory.graph.partial="916.1 MiB" time=2024-05-20T10:06:07.832+08:00 level=INFO source=memory.go:133 msg="offload to gpu" layers.requested=-1 layers.real=41 memory.available="47.3 GiB" memory.required.full="9.7 GiB" memory.required.partial="9.7 GiB" memory.required.kv="1.6 GiB" memory.weights.total="7.2 GiB" memory.weights.repeating="6.6 GiB" memory.weights.nonrepeating="609.1 MiB" memory.graph.full="307.0 MiB" memory.graph.partial="916.1 MiB" time=2024-05-20T10:06:07.832+08:00 level=INFO source=server.go:320 msg="starting llama server" cmd="/tmp/ollama2132883000/runners/cuda_v11/ollama_llama_server --model /root/autodl-tmp/models/blobs/sha256-1c751709783923dab2b876d5c5c2ca36d4e205cfef7d88988df45752cb91f245 --ctx-size 2048 --batch-size 512 --embedding --log-disable --n-gpu-layers 41 --parallel 1 --port 43339" time=2024-05-20T10:06:07.833+08:00 level=INFO source=sched.go:338 msg="loaded runners" count=1 time=2024-05-20T10:06:07.833+08:00 level=INFO source=server.go:504 msg="waiting for llama runner to start responding" time=2024-05-20T10:06:07.833+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server error" INFO [main] build info | build=1 commit="952d03d" tid="140283378036736" timestamp=1716170767 INFO [main] system info | n_threads=64 n_threads_batch=-1 system_info="AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | " tid="140283378036736" timestamp=1716170767 total_threads=128 INFO [main] HTTP server listening | hostname="127.0.0.1" n_threads_http="127" port="43339" tid="140283378036736" timestamp=1716170767 llama_model_loader: loaded meta data with 21 key-value pairs and 483 tensors from /root/autodl-tmp/models/blobs/sha256-1c751709783923dab2b876d5c5c2ca36d4e205cfef7d88988df45752cb91f245 (version GGUF V3 (latest)) llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output. llama_model_loader: - kv 0: general.architecture str = qwen2 llama_model_loader: - kv 1: general.name str = merge5-1 llama_model_loader: - kv 2: qwen2.block_count u32 = 40 llama_model_loader: - kv 3: qwen2.context_length u32 = 32768 llama_model_loader: - kv 4: qwen2.embedding_length u32 = 5120 llama_model_loader: - kv 5: qwen2.feed_forward_length u32 = 13696 llama_model_loader: - kv 6: qwen2.attention.head_count u32 = 40 llama_model_loader: - kv 7: qwen2.attention.head_count_kv u32 = 40 llama_model_loader: - kv 8: qwen2.rope.freq_base f32 = 1000000.000000 llama_model_loader: - kv 9: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001 llama_model_loader: - kv 10: general.file_type u32 = 2 llama_model_loader: - kv 11: tokenizer.ggml.model str = gpt2 llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2 llama_model_loader: - kv 13: tokenizer.ggml.tokens arr[str,152064] = ["!", "\"", "#", "$", "%", "&", "'", ... llama_model_loader: - kv 14: tokenizer.ggml.token_type arr[i32,152064] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... llama_model_loader: - kv 15: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",... llama_model_loader: - kv 16: tokenizer.ggml.eos_token_id u32 = 151643 llama_model_loader: - kv 17: tokenizer.ggml.padding_token_id u32 = 151643 llama_model_loader: - kv 18: tokenizer.ggml.bos_token_id u32 = 151643 llama_model_loader: - kv 19: tokenizer.chat_template str = {% for message in messages %}{% if lo... llama_model_loader: - kv 20: general.quantization_version u32 = 2 llama_model_loader: - type f32: 201 tensors llama_model_loader: - type q4_0: 281 tensors llama_model_loader: - type q6_K: 1 tensors time=2024-05-20T10:06:08.085+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server loading model" llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2' llama_load_model_from_file: exception loading model terminate called after throwing an instance of 'std::runtime_error' what(): error loading model vocabulary: unknown pre-tokenizer type: 'qwen2' time=2024-05-20T10:06:08.437+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server error" time=2024-05-20T10:06:08.656+08:00 level=WARN source=sched.go:512 msg="gpu VRAM usage didn't recover within timeout" seconds=5.120574757 time=2024-05-20T10:06:08.688+08:00 level=ERROR source=sched.go:344 msg="error loading llama server" error="llama runner process has terminated: signal: aborted (core dumped) " I look at the 4b to 72b of qwen1.5 provided, so this should be provided by the tokenizer as well ### OS Linux ### GPU Nvidia ### CPU Other ### Ollama version client version is 0.1.38

GiteaMirror added the bug label 2026-04-22 07:00:28 -05:00

GiteaMirror closed this issue

2026-04-22 07:00:29 -05:00

GiteaMirror commented

2026-04-22 07:00:30 -05:00

@Anorid commented on GitHub (May 20, 2024):

This is the GGUF file and the information for the imported model

@Anorid commented on GitHub (May 20, 2024): ![image](https://github.com/ollama/ollama/assets/139095718/62e816f4-f87a-41a4-91b7-53872f447cca) This is the GGUF file and the information for the imported model

GiteaMirror commented

2026-04-22 07:00:31 -05:00

@liduang commented on GitHub (May 20, 2024):

I have also encountered this problem, and I feel that it is the problem here:
May 20 17:54:48 localhost.localdomain ollama[11885]: llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2
It is estimated that there is a conflict with llama.cpp's update this time

7114

@liduang commented on GitHub (May 20, 2024): I have also encountered this problem, and I feel that it is the problem here: `May 20 17:54:48 localhost.localdomain ollama[11885]: llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2 ` It is estimated that there is a conflict with llama.cpp's update this time [7114](https://github.com/ggerganov/llama.cpp/pull/7114)

GiteaMirror commented

2026-04-22 07:00:32 -05:00

@GitTurboy commented on GitHub (May 21, 2024):

I got the same error on windows system:
llama_model_loader: loaded meta data with 21 key-value pairs and 291 tensors from D:\lamaModels\blobs\sha256-6b22d907af67d494c1194b1bd688423945b4d3009bded2e5ecbc88d426b0c5a3 (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv 0: general.architecture str = qwen2
llama_model_loader: - kv 1: general.name str = Qwen1___5-1___8B-Chat
llama_model_loader: - kv 2: qwen2.block_count u32 = 24
llama_model_loader: - kv 3: qwen2.context_length u32 = 32768
llama_model_loader: - kv 4: qwen2.embedding_length u32 = 2048
llama_model_loader: - kv 5: qwen2.feed_forward_length u32 = 5504
llama_model_loader: - kv 6: qwen2.attention.head_count u32 = 16
llama_model_loader: - kv 7: qwen2.attention.head_count_kv u32 = 16
llama_model_loader: - kv 8: qwen2.rope.freq_base f32 = 1000000.000000
llama_model_loader: - kv 9: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001
llama_model_loader: - kv 10: general.file_type u32 = 1
llama_model_loader: - kv 11: tokenizer.ggml.model str = gpt2
llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2
llama_model_loader: - kv 13: tokenizer.ggml.tokens arr[str,151936] = ["!", """, "#", "$", "%", "&", "'", ...
llama_model_loader: - kv 14: tokenizer.ggml.token_type arr[i32,151936] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv 15: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",...
llama_model_loader: - kv 16: tokenizer.ggml.eos_token_id u32 = 151645
llama_model_loader: - kv 17: tokenizer.ggml.padding_token_id u32 = 151643
llama_model_loader: - kv 18: tokenizer.ggml.bos_token_id u32 = 151643
llama_model_loader: - kv 19: tokenizer.chat_template str = {% for message in messages %}{% if lo...
llama_model_loader: - kv 20: general.quantization_version u32 = 2
llama_model_loader: - type f32: 121 tensors
llama_model_loader: - type f16: 170 tensors
time=2024-05-20T16:44:58.427+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server loading model"
llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2'
llama_load_model_from_file: exception loading model
time=2024-05-20T16:44:58.698+08:00 level=ERROR source=sched.go:344 msg="error loading llama server" error="llama runner process has terminated: exit status 0xc0000409 "

@GitTurboy commented on GitHub (May 21, 2024): I got the same error on windows system: llama_model_loader: loaded meta data with 21 key-value pairs and 291 tensors from D:\lamaModels\blobs\sha256-6b22d907af67d494c1194b1bd688423945b4d3009bded2e5ecbc88d426b0c5a3 (version GGUF V3 (latest)) llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output. llama_model_loader: - kv 0: general.architecture str = qwen2 llama_model_loader: - kv 1: general.name str = Qwen1___5-1___8B-Chat llama_model_loader: - kv 2: qwen2.block_count u32 = 24 llama_model_loader: - kv 3: qwen2.context_length u32 = 32768 llama_model_loader: - kv 4: qwen2.embedding_length u32 = 2048 llama_model_loader: - kv 5: qwen2.feed_forward_length u32 = 5504 llama_model_loader: - kv 6: qwen2.attention.head_count u32 = 16 llama_model_loader: - kv 7: qwen2.attention.head_count_kv u32 = 16 llama_model_loader: - kv 8: qwen2.rope.freq_base f32 = 1000000.000000 llama_model_loader: - kv 9: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001 llama_model_loader: - kv 10: general.file_type u32 = 1 llama_model_loader: - kv 11: tokenizer.ggml.model str = gpt2 llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2 llama_model_loader: - kv 13: tokenizer.ggml.tokens arr[str,151936] = ["!", """, "#", "$", "%", "&", "'", ... llama_model_loader: - kv 14: tokenizer.ggml.token_type arr[i32,151936] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... llama_model_loader: - kv 15: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",... llama_model_loader: - kv 16: tokenizer.ggml.eos_token_id u32 = 151645 llama_model_loader: - kv 17: tokenizer.ggml.padding_token_id u32 = 151643 llama_model_loader: - kv 18: tokenizer.ggml.bos_token_id u32 = 151643 llama_model_loader: - kv 19: tokenizer.chat_template str = {% for message in messages %}{% if lo... llama_model_loader: - kv 20: general.quantization_version u32 = 2 llama_model_loader: - type f32: 121 tensors llama_model_loader: - type f16: 170 tensors time=2024-05-20T16:44:58.427+08:00 level=INFO source=server.go:540 msg="waiting for server to become available" status="llm server loading model" llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2' llama_load_model_from_file: exception loading model time=2024-05-20T16:44:58.698+08:00 level=ERROR source=sched.go:344 msg="error loading llama server" error="llama runner process has terminated: exit status 0xc0000409 "

GiteaMirror commented

2026-04-22 07:00:33 -05:00

@binganao commented on GitHub (May 21, 2024):

临时解决方案可以参考我的，使用 convert-hf-to-gguf.py 合并模型时，注释掉这一行

@binganao commented on GitHub (May 21, 2024): 临时解决方案可以参考我的，使用 convert-hf-to-gguf.py 合并模型时，注释掉这一行 ![图片](https://github.com/ollama/ollama/assets/70050083/2bee3f28-5bd1-40a3-9d71-98d5cf272773)

GiteaMirror commented

2026-04-22 07:00:34 -05:00

@Treedy2020 commented on GitHub (May 21, 2024):

The specific reason may be that llama.cpp/convert-hf-to-gguf.py encountered issues during the rapid iteration process. I experienced the same problem when exporting and quantizing qwen2 in the latest version of llama.cpp, but the exported and quantized gguf models using an older version of llama.cpp for qwen2 are usable. You can try modifying this file like @binganao did, or simply roll back the version of llama.cpp and try again:

cd llama.cpp 
git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72

check this release for detail. Then import and re-quantize the modelscope / hf folder of qwen2 according to the official ollama documentation. Hopefully this can solve your problem.

@Treedy2020 commented on GitHub (May 21, 2024): The specific reason may be that **llama.cpp/convert-hf-to-gguf.py** encountered issues during the rapid iteration process. I experienced the same problem when exporting and quantizing qwen2 in the [latest version of llama.cpp](https://github.com/ggerganov/llama.cpp/tree/917dc8cfa67a72fb7c8bf7392270da3bf4833af4), but the exported and quantized gguf models using an older version of llama.cpp for qwen2 are usable. You can try modifying this file like @binganao did, or simply roll back the version of llama.cpp and try again: ```bash cd llama.cpp git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72 ``` check this [release](https://github.com/ggerganov/llama.cpp/tree/46e12c4692a37bdd31a0432fc5153d7d22bc7f72) for detail. Then import and re-quantize the **modelscope / hf** folder of qwen2 according to the [official ollama documentation](https://github.com/ollama/ollama/blob/main/docs/import.md). Hopefully this can solve your problem.

GiteaMirror commented

2026-04-22 07:00:35 -05:00

@xianyuxm commented on GitHub (May 22, 2024):

The specific reason may be that llama.cpp/convert-hf-to-gguf.py encountered issues during the rapid iteration process. I experienced the same problem when exporting and quantizing qwen2 in the latest version of llama.cpp, but the exported and quantized gguf models using an older version of llama.cpp for qwen2 are usable. You can try modifying this file like @binganao did, or simply roll back the version of llama.cpp and try again:
cd llama.cpp 
git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72
check this release for detail. Then import and re-quantize the modelscope / hf folder of qwen2 according to the official ollama documentation. Hopefully this can solve your problem.

I tried binganao's method, but it didn't work. However, following your suggestion to roll back to a previous version successfully resolved the issue. Thank you!

@xianyuxm commented on GitHub (May 22, 2024): > The specific reason may be that **llama.cpp/convert-hf-to-gguf.py** encountered issues during the rapid iteration process. I experienced the same problem when exporting and quantizing qwen2 in the [latest version of llama.cpp](https://github.com/ggerganov/llama.cpp/tree/917dc8cfa67a72fb7c8bf7392270da3bf4833af4), but the exported and quantized gguf models using an older version of llama.cpp for qwen2 are usable. You can try modifying this file like @binganao did, or simply roll back the version of llama.cpp and try again: > > ```shell > cd llama.cpp > git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72 > ``` > > check this [release](https://github.com/ggerganov/llama.cpp/tree/46e12c4692a37bdd31a0432fc5153d7d22bc7f72) for detail. Then import and re-quantize the **modelscope / hf** folder of qwen2 according to the [official ollama documentation](https://github.com/ollama/ollama/blob/main/docs/import.md). Hopefully this can solve your problem. I tried binganao's method, but it didn't work. However, following your suggestion to roll back to a previous version successfully resolved the issue. Thank you!

GiteaMirror commented

2026-04-22 07:00:35 -05:00

@bartowski1182 commented on GitHub (May 26, 2024):

I just tried a Qwen2 model I made recently with llama.cpp ./main and it loaded and generated with no issues. Are we sure this isn't ollama needing an update?

@bartowski1182 commented on GitHub (May 26, 2024): I just tried a Qwen2 model I made recently with llama.cpp ./main and it loaded and generated with no issues. Are we sure this isn't ollama needing an update?

GiteaMirror commented

2026-04-22 07:00:36 -05:00

@tk19911120 commented on GitHub (May 26, 2024):

I have the same issue when exporting and quantizing qwen1.5-7b-chat,(Error: llama runner process has terminated: signal: aborted (core dumped)). And I tried Treedy2020's method(sudo git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72), solved the issue.
ollama version is 0.1.37

@tk19911120 commented on GitHub (May 26, 2024): I have the same issue when exporting and quantizing qwen1.5-7b-chat,(Error: llama runner process has terminated: signal: aborted (core dumped)). And I tried Treedy2020's method(`sudo git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72`), solved the issue. ollama version is 0.1.37

GiteaMirror commented

2026-04-22 07:00:36 -05:00

@pdevine commented on GitHub (May 30, 2024):

The problem was that llama.cpp changed how the tokenizer worked because of changes w/ llama3 tokenization. This should be fixed in 0.1.39 though, so I'll go ahead and close the issue. @Anorid LMK if it's still persisting and I can reopen.

@pdevine commented on GitHub (May 30, 2024): The problem was that llama.cpp changed how the tokenizer worked because of changes w/ llama3 tokenization. This should be fixed in `0.1.39` though, so I'll go ahead and close the issue. @Anorid LMK if it's still persisting and I can reopen.

GiteaMirror commented

2026-04-22 07:00:37 -05:00

@markg85 commented on GitHub (Jun 7, 2024):

Could this be re-opened?
I have the very same issue too.

Jun 07 02:14:13 newphobos ollama[4528]: {"function":"server_params_parse","level":"INFO","line":2604,"msg":"logging to file is disabled.","tid":"129450009160768","timestamp":1717719253}
Jun 07 02:14:13 newphobos ollama[4528]: {"build":1,"commit":"952d03d","function":"main","level":"INFO","line":2821,"msg":"build info","tid":"129450009160768","timestamp":1717719253}
Jun 07 02:14:13 newphobos ollama[4528]: {"function":"main","level":"INFO","line":2828,"msg":"system info","n_threads":16,"n_threads_batch":-1,"system_info":"AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | ","tid":"129450009160768","timestamp":1717719253,"total_threads":32}
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: loaded meta data with 21 key-value pairs and 339 tensors from /var/lib/ollama/.ollama/models/blobs/sha256-43f7a214e5329f672bb05404cfba1913cbb70fdaa1a17497224e1925046b0ed5 (version GGUF V3 (latest))
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv   0:                       general.architecture str              = qwen2
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv   1:                               general.name str              = Qwen2-7B-Instruct
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv   2:                          qwen2.block_count u32              = 28
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv   3:                       qwen2.context_length u32              = 32768
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv   4:                     qwen2.embedding_length u32              = 3584
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv   5:                  qwen2.feed_forward_length u32              = 18944
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv   6:                 qwen2.attention.head_count u32              = 28
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv   7:              qwen2.attention.head_count_kv u32              = 4
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv   8:                       qwen2.rope.freq_base f32              = 1000000.000000
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv   9:     qwen2.attention.layer_norm_rms_epsilon f32              = 0.000001
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  10:                          general.file_type u32              = 2
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  11:                       tokenizer.ggml.model str              = gpt2
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  12:                         tokenizer.ggml.pre str              = qwen2
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  13:                      tokenizer.ggml.tokens arr[str,152064]  = ["!", "\"", "#", "$", "%", "&", "'", ...
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  14:                  tokenizer.ggml.token_type arr[i32,152064]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  15:                      tokenizer.ggml.merges arr[str,151387]  = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",...
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  16:                tokenizer.ggml.eos_token_id u32              = 151645
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  17:            tokenizer.ggml.padding_token_id u32              = 151643
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  18:                tokenizer.ggml.bos_token_id u32              = 151643
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  19:                    tokenizer.chat_template str              = {% for message in messages %}{% if lo...
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv  20:               general.quantization_version u32              = 2
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - type  f32:  141 tensors
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - type q4_0:  197 tensors
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - type q6_K:    1 tensors
Jun 07 02:14:13 newphobos ollama[4379]: llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2'
Jun 07 02:14:13 newphobos ollama[4379]: llama_load_model_from_file: exception loading model
Jun 07 02:14:13 newphobos ollama[4379]: terminate called after throwing an instance of 'std::runtime_error'
Jun 07 02:14:13 newphobos ollama[4379]:   what():  error loading model vocabulary: unknown pre-tokenizer type: 'qwen2'

Now there's something strange going on too.

❯ ollama --version
ollama version is 0.1.34

While i have 0.1.41 installed (arch linux):

❯ pacman -Qi ollama
Name            : ollama-rocm
Version         : 0.1.41-1
Description     : Create, run and share large language models (LLMs) with ROCm
Architecture    : x86_64
URL             : https://github.com/ollama/ollama
Licenses        : MIT
Groups          : None
Provides        : ollama
Depends On      : hipblas
Optional Deps   : None
Required By     : None
Optional For    : None
Conflicts With  : ollama
Replaces        : None
Installed Size  : 66.50 MiB
Packager        : Lukas Fleischer <lfleischer@archlinux.org>
Build Date      : Sun 02 Jun 2024 17:51:45 CEST
Install Date    : Fri 07 Jun 2024 02:22:08 CEST
Install Reason  : Explicitly installed
Install Script  : No
Validated By    : Signature

So upon further inspection, this is how it's build:
https://gitlab.archlinux.org/archlinux/packaging/packages/ollama/-/blob/main/PKGBUILD?ref_type=heads

Which builds the tag 476fb8e892, that is the 0.1.41 tag: https://github.com/ollama/ollama/releases/tag/v0.1.41

The llama-cpp version is this tag 5921b8f089 which is just a week old.

Am i missing something here to get qwen2 working?
The version thing is weird for sure but that might be it's own bug?

@markg85 commented on GitHub (Jun 7, 2024): Could this be re-opened? I have the very same issue too. ``` Jun 07 02:14:13 newphobos ollama[4528]: {"function":"server_params_parse","level":"INFO","line":2604,"msg":"logging to file is disabled.","tid":"129450009160768","timestamp":1717719253} Jun 07 02:14:13 newphobos ollama[4528]: {"build":1,"commit":"952d03d","function":"main","level":"INFO","line":2821,"msg":"build info","tid":"129450009160768","timestamp":1717719253} Jun 07 02:14:13 newphobos ollama[4528]: {"function":"main","level":"INFO","line":2828,"msg":"system info","n_threads":16,"n_threads_batch":-1,"system_info":"AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | ","tid":"129450009160768","timestamp":1717719253,"total_threads":32} Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: loaded meta data with 21 key-value pairs and 339 tensors from /var/lib/ollama/.ollama/models/blobs/sha256-43f7a214e5329f672bb05404cfba1913cbb70fdaa1a17497224e1925046b0ed5 (version GGUF V3 (latest)) Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output. Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 0: general.architecture str = qwen2 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 1: general.name str = Qwen2-7B-Instruct Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 2: qwen2.block_count u32 = 28 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 3: qwen2.context_length u32 = 32768 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 4: qwen2.embedding_length u32 = 3584 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 5: qwen2.feed_forward_length u32 = 18944 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 6: qwen2.attention.head_count u32 = 28 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 7: qwen2.attention.head_count_kv u32 = 4 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 8: qwen2.rope.freq_base f32 = 1000000.000000 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 9: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 10: general.file_type u32 = 2 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 11: tokenizer.ggml.model str = gpt2 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 13: tokenizer.ggml.tokens arr[str,152064] = ["!", "\"", "#", "$", "%", "&", "'", ... Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 14: tokenizer.ggml.token_type arr[i32,152064] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 15: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",... Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 16: tokenizer.ggml.eos_token_id u32 = 151645 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 17: tokenizer.ggml.padding_token_id u32 = 151643 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 18: tokenizer.ggml.bos_token_id u32 = 151643 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 19: tokenizer.chat_template str = {% for message in messages %}{% if lo... Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - kv 20: general.quantization_version u32 = 2 Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - type f32: 141 tensors Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - type q4_0: 197 tensors Jun 07 02:14:13 newphobos ollama[4379]: llama_model_loader: - type q6_K: 1 tensors Jun 07 02:14:13 newphobos ollama[4379]: llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2' Jun 07 02:14:13 newphobos ollama[4379]: llama_load_model_from_file: exception loading model Jun 07 02:14:13 newphobos ollama[4379]: terminate called after throwing an instance of 'std::runtime_error' Jun 07 02:14:13 newphobos ollama[4379]: what(): error loading model vocabulary: unknown pre-tokenizer type: 'qwen2' ``` Now there's something strange going on too. ``` ❯ ollama --version ollama version is 0.1.34 ``` While i have 0.1.41 installed (arch linux): ``` ❯ pacman -Qi ollama Name : ollama-rocm Version : 0.1.41-1 Description : Create, run and share large language models (LLMs) with ROCm Architecture : x86_64 URL : https://github.com/ollama/ollama Licenses : MIT Groups : None Provides : ollama Depends On : hipblas Optional Deps : None Required By : None Optional For : None Conflicts With : ollama Replaces : None Installed Size : 66.50 MiB Packager : Lukas Fleischer <lfleischer@archlinux.org> Build Date : Sun 02 Jun 2024 17:51:45 CEST Install Date : Fri 07 Jun 2024 02:22:08 CEST Install Reason : Explicitly installed Install Script : No Validated By : Signature ``` So upon further inspection, this is how it's build: https://gitlab.archlinux.org/archlinux/packaging/packages/ollama/-/blob/main/PKGBUILD?ref_type=heads Which builds the tag 476fb8e89242720a7cdd57400ba928de4dde9cc1, that is the 0.1.41 tag: https://github.com/ollama/ollama/releases/tag/v0.1.41 The llama-cpp version is this tag https://github.com/ggerganov/llama.cpp/commit/5921b8f089d3b7bda86aac5a66825df6a6c10603 which is just a week old. Am i missing something here to get qwen2 working? The version thing is weird for sure but that might be it's own bug?

GiteaMirror commented

2026-04-22 07:00:38 -05:00

@cyp0633 commented on GitHub (Jun 7, 2024):

Now there's something strange going on too.
❯ ollama --version
ollama version is 0.1.34

Did you reboot your machine or do sudo systemctl restart ollama after upgrading? The running ollama service is not automatically upgraded.

@cyp0633 commented on GitHub (Jun 7, 2024): > Now there's something strange going on too. > > ``` > ❯ ollama --version > ollama version is 0.1.34 > ``` Did you reboot your machine or do `sudo systemctl restart ollama` after upgrading? The running ollama service is not automatically upgraded.

GiteaMirror commented

2026-04-22 07:00:38 -05:00

@markg85 commented on GitHub (Jun 7, 2024):

@cyp0633 yes! :)

I did both (and a couple times), didn't help.
Let's not spend too much time in the version thing but let's check 1 thing.

Could someone else run ollama --version ion a 0.1.41 release and post your result here? If there's anyone else that has this bug too (wrong version number for the release your using) then I'll make a new issue for that. If this can't be reproduced and the command matches your install then there's something seriously wrong on my setup and I'll have to dig deep to figure it out.

@markg85 commented on GitHub (Jun 7, 2024): @cyp0633 yes! :) I did both (and a couple times), didn't help. Let's not spend too much time in the version thing but let's check 1 thing. Could someone else run `ollama --version` ion a 0.1.41 release and post your result here? If there's anyone else that has this bug too (wrong version number for the release your using) then I'll make a new issue for that. If this can't be reproduced and the command matches your install then there's something seriously wrong on my setup and I'll have to dig deep to figure it out.

GiteaMirror commented

2026-04-22 07:00:39 -05:00

@I321065 commented on GitHub (Jun 7, 2024):

same issue happened to me

@I321065 commented on GitHub (Jun 7, 2024): same issue happened to me

GiteaMirror commented

2026-04-22 07:00:41 -05:00

@markg85 commented on GitHub (Jun 7, 2024):

Issue can be closed again.
I had installed ollama using the script on the ollama site.
And i had it installed through my package manager.

Removing the one installed through the script made things work. Version is as expected now.
100% user error, sorry for the noise!

@markg85 commented on GitHub (Jun 7, 2024): Issue can be closed again. I had installed ollama using the script on the ollama site. **And** i had it installed through my package manager. Removing the one installed through the script made things work. Version is as expected now. 100% user error, sorry for the noise!

GiteaMirror commented

2026-04-22 07:00:42 -05:00

@rallg0535 commented on GitHub (Jun 10, 2024):

update ollama to version 0.1.42 , then ok

@rallg0535 commented on GitHub (Jun 10, 2024): update ollama to version 0.1.42 , then ok

GiteaMirror commented

2026-04-22 07:00:42 -05:00

@Fau57 commented on GitHub (Jun 10, 2024):

I was using LM studio and just had to update btw

@Fau57 commented on GitHub (Jun 10, 2024): I was using LM studio and just had to update btw

GiteaMirror commented

2026-04-22 07:00:43 -05:00

@ligson commented on GitHub (Jun 12, 2024):

time=2024-06-12T17:45:14.644+08:00 level=INFO source=sched.go:338 msg="loaded runners" count=1
time=2024-06-12T17:45:14.644+08:00 level=INFO source=server.go:529 msg="waiting for llama runner to start responding"
time=2024-06-12T17:45:14.644+08:00 level=INFO source=server.go:567 msg="waiting for server to become available" status="llm server error"
INFO [wmain] build info | build=2770 commit="952d03d" tid="32236" timestamp=1718185514
INFO [wmain] system info | n_threads=10 n_threads_batch=-1 system_info="AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 0 | SSSE3 = 0 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | " tid="32236" timestamp=1718185514 total_threads=20
INFO [wmain] HTTP server listening | hostname="127.0.0.1" n_threads_http="19" port="57166" tid="32236" timestamp=1718185514
llama_model_loader: loaded meta data with 21 key-value pairs and 338 tensors from E:\chatglm\ollama\models\blobs\sha256-405b56374e02b21122ae1469db646be0617c02928fd78e246723ebbb98dbca3e (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv 0: general.architecture str = qwen2
llama_model_loader: - kv 1: general.name str = Qwen2-1.5B-Instruct
llama_model_loader: - kv 2: qwen2.block_count u32 = 28
llama_model_loader: - kv 3: qwen2.context_length u32 = 32768
llama_model_loader: - kv 4: qwen2.embedding_length u32 = 1536
llama_model_loader: - kv 5: qwen2.feed_forward_length u32 = 8960
llama_model_loader: - kv 6: qwen2.attention.head_count u32 = 12
llama_model_loader: - kv 7: qwen2.attention.head_count_kv u32 = 2
llama_model_loader: - kv 8: qwen2.rope.freq_base f32 = 1000000.000000
llama_model_loader: - kv 9: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001
llama_model_loader: - kv 10: general.file_type u32 = 2
llama_model_loader: - kv 11: tokenizer.ggml.model str = gpt2
llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2
llama_model_loader: - kv 13: tokenizer.ggml.tokens arr[str,151936] = ["!", """, "#", "$", "%", "&", "'", ...
llama_model_loader: - kv 14: tokenizer.ggml.token_type arr[i32,151936] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv 15: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",...
llama_model_loader: - kv 16: tokenizer.ggml.eos_token_id u32 = 151645
llama_model_loader: - kv 17: tokenizer.ggml.padding_token_id u32 = 151643
llama_model_loader: - kv 18: tokenizer.ggml.bos_token_id u32 = 151643
llama_model_loader: - kv 19: tokenizer.chat_template str = {% for message in messages %}{% if lo...
llama_model_loader: - kv 20: general.quantization_version u32 = 2
llama_model_loader: - type f32: 141 tensors
llama_model_loader: - type q4_0: 196 tensors
llama_model_loader: - type q6_K: 1 tensors
llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2'
llama_load_model_from_file: exception loading model
time=2024-06-12T17:45:15.283+08:00 level=ERROR source=sched.go:344 msg="error loading llama server" error="llama runner process has terminated: exit status 0xc0000409 "

ollama version：
ollama version is 0.1.43

windows 11

@ligson commented on GitHub (Jun 12, 2024): time=2024-06-12T17:45:14.644+08:00 level=INFO source=sched.go:338 msg="loaded runners" count=1 time=2024-06-12T17:45:14.644+08:00 level=INFO source=server.go:529 msg="waiting for llama runner to start responding" time=2024-06-12T17:45:14.644+08:00 level=INFO source=server.go:567 msg="waiting for server to become available" status="llm server error" INFO [wmain] build info | build=2770 commit="952d03d" tid="32236" timestamp=1718185514 INFO [wmain] system info | n_threads=10 n_threads_batch=-1 system_info="AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 0 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 0 | SSSE3 = 0 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | " tid="32236" timestamp=1718185514 total_threads=20 INFO [wmain] HTTP server listening | hostname="127.0.0.1" n_threads_http="19" port="57166" tid="32236" timestamp=1718185514 llama_model_loader: loaded meta data with 21 key-value pairs and 338 tensors from E:\chatglm\ollama\models\blobs\sha256-405b56374e02b21122ae1469db646be0617c02928fd78e246723ebbb98dbca3e (version GGUF V3 (latest)) llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output. llama_model_loader: - kv 0: general.architecture str = qwen2 llama_model_loader: - kv 1: general.name str = Qwen2-1.5B-Instruct llama_model_loader: - kv 2: qwen2.block_count u32 = 28 llama_model_loader: - kv 3: qwen2.context_length u32 = 32768 llama_model_loader: - kv 4: qwen2.embedding_length u32 = 1536 llama_model_loader: - kv 5: qwen2.feed_forward_length u32 = 8960 llama_model_loader: - kv 6: qwen2.attention.head_count u32 = 12 llama_model_loader: - kv 7: qwen2.attention.head_count_kv u32 = 2 llama_model_loader: - kv 8: qwen2.rope.freq_base f32 = 1000000.000000 llama_model_loader: - kv 9: qwen2.attention.layer_norm_rms_epsilon f32 = 0.000001 llama_model_loader: - kv 10: general.file_type u32 = 2 llama_model_loader: - kv 11: tokenizer.ggml.model str = gpt2 llama_model_loader: - kv 12: tokenizer.ggml.pre str = qwen2 llama_model_loader: - kv 13: tokenizer.ggml.tokens arr[str,151936] = ["!", "\"", "#", "$", "%", "&", "'", ... llama_model_loader: - kv 14: tokenizer.ggml.token_type arr[i32,151936] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... llama_model_loader: - kv 15: tokenizer.ggml.merges arr[str,151387] = ["Ġ Ġ", "ĠĠ ĠĠ", "i n", "Ġ t",... llama_model_loader: - kv 16: tokenizer.ggml.eos_token_id u32 = 151645 llama_model_loader: - kv 17: tokenizer.ggml.padding_token_id u32 = 151643 llama_model_loader: - kv 18: tokenizer.ggml.bos_token_id u32 = 151643 llama_model_loader: - kv 19: tokenizer.chat_template str = {% for message in messages %}{% if lo... llama_model_loader: - kv 20: general.quantization_version u32 = 2 llama_model_loader: - type f32: 141 tensors llama_model_loader: - type q4_0: 196 tensors llama_model_loader: - type q6_K: 1 tensors llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'qwen2' llama_load_model_from_file: exception loading model time=2024-06-12T17:45:15.283+08:00 level=ERROR source=sched.go:344 msg="error loading llama server" error="llama runner process has terminated: exit status 0xc0000409 " ollama version： ollama version is 0.1.43 windows 11

GiteaMirror commented

2026-04-22 07:00:44 -05:00

@QiuZiXian commented on GitHub (Jun 18, 2024):

升级ollama

@QiuZiXian commented on GitHub (Jun 18, 2024): 升级ollama

GiteaMirror commented

2026-04-22 07:00:44 -05:00

@jmorganca commented on GitHub (Jun 24, 2024):

Hi folks sorry about the errors. Qwen 2 requires a newer version of Ollama: https://ollama.com/download make sure to update and let me know if this issue persists

@jmorganca commented on GitHub (Jun 24, 2024): Hi folks sorry about the errors. Qwen 2 requires a newer version of Ollama: https://ollama.com/download make sure to update and let me know if this issue persists

GiteaMirror commented

2026-04-22 07:00:45 -05:00

@sorenchiron commented on GitHub (Jul 6, 2024):

git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72

This solution works for me. Similar error voilates LM-Studio's pipeline too.
For those who cloned only one commit:

git fetch https://github.com/ggerganov/llama.cpp.git  46e12c4692a37bdd31a0432fc5153d7d22bc7f72
git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72

@sorenchiron commented on GitHub (Jul 6, 2024): > ```shell > git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72 > ``` This solution works for me. Similar error voilates LM-Studio's pipeline too. For those who cloned only one commit: ```bash git fetch https://github.com/ggerganov/llama.cpp.git 46e12c4692a37bdd31a0432fc5153d7d22bc7f72 git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72 ```

GiteaMirror commented

2026-04-22 07:00:45 -05:00

@Rodert commented on GitHub (Jul 8, 2024):

run llama3 8b How much configuration is required。 Is 4g memory enough？

运行llama3 8b需要多少配置。4g内存够吗?

我得到一个错误：ollama Error: llama runner process has terminated: signal: aborted (core dum .

@Rodert commented on GitHub (Jul 8, 2024): run llama3 8b How much configuration is required。 Is 4g memory enough？运行llama3 8b需要多少配置。4g内存够吗? 我得到一个错误：`ollama Error: llama runner process has terminated: signal: aborted (core dum` .

GiteaMirror commented

2026-04-22 07:00:47 -05:00

@hemangjoshi37a commented on GitHub (Jul 15, 2024):

I am running it using docker container . how am i suppose to run git hard reset command. i dont have access to these as i am running in the cloud docker container. how to resolve this in my situation ?

@hemangjoshi37a commented on GitHub (Jul 15, 2024): I am running it using docker container . how am i suppose to run `git hard reset` command. i dont have access to these as i am running in the cloud docker container. how to resolve this in my situation ?

Sign in to join this conversation.

Branches Tags

main

parth-update-hermes-launch

parth-agent-system-prompt-cwd

hoyyeva/vscode-extension-docs-update

parth-gemma4-chat-template-renderer

parth-fix-claude-model-picker

parth-api-status-context-length

docs/vscode-extension-setup

hoyyeva/wire-up-context-length

hoyyeva/claude-code-context-doc

jmorganca/investigate-issue-17046

hoyyeva/hermes-docs

jmorganca/agent-loop-style

hoyyeva/openclaw

parth-agent-loop

hoyyeva/ollama-vscode-extension

brucemacd/cache-metrics

brucemacd/hermes-desktop

hoyyeva/docs-vscode

parth-input-style-experiment

brucemacd/docs-glm52

hoyyeva/poc-docs

Parth/mlx-launch-recommendations

parth-first-time-app-cli-experience

test/darwin-xcode-pin

improve-cloud-model-recommendations

hoyyeva/goose-docs

jmorganca/context-limit-fixes

hoyyeva/qwen-doc

hoyyeva/vscode-docs

jmorganca/remove-mlx-imagegen-code

parth-copilot-token-length-defaults

hoyyeva/poolside-windows

laguna-support

jmorganca/harden-markdown-rendering

laguna-renderer-parser

laguna-llamacpp

codex/make-integration-hidden-and-lunchable

brucemacd/omp-docs

pdevine/gguf-mtp-oldstyle

hoyyeva/migrate-pi

hoyyeva/anthropic-local-image-path

parth-launch-codex-app

hoyyeva/anthropic-reference-images-path

parth-anthropic-reference-images-path

brucemacd/download-before-remove

hoyyeva/editor-config-repair

parth-mlx-decode-checkpoints

parth/hide-claude-desktop-till-release

parth-add-claude-code-autoinstall

release_v0.22.0

pdevine/manifest-list

codex/fix-codex-model-metadata-warning

pdevine/addressable-manifest

brucemacd/launch-fetch-reccomended

jmorganca/llama-compat

launch-copilot-cli

release_v0.20.7

parth-auto-save-backup

parth-test

jmorganca/gemma4-audio-replacements

fix-manifest-digest-on-pull

hoyyeva/vscode-improve

brucemacd/install-server-wait

parth/update-claude-docs

brucemac/start-ap-install

pdevine/mlx-update

pdevine/qwen35_vision

drifkin/api-show-fallback

mintlify/image-generation-1773352582

hoyyeva/server-context-length-local-config

jmorganca/faster-reptition-penalties

jmorganca/convert-nemotron

parth-pi-thinking

pdevine/sampling-penalties

jmorganca/fix-create-quantization-memory

dongchen/resumable_transfer_fix

pdevine/sampling-cache-error

jessegross/mlx-usage

hoyyeva/openclaw-config

hoyyeva/app-html

pdevine/qwen3next

brucemacd/sign-sh-install

brucemacd/tui-update

brucemacd/usage-api

jmorganca/launch-empty

fix-app-dist-embed

mxyng/mlx-compile

mxyng/mlx-quant

mxyng/mlx-glm4.7

mxyng/mlx

brucemacd/simplify-model-picker

jmorganca/qwen3-concurrent

fix-glm-4.7-flash-mla-config

drifkin/qwen3-coder-opening-tag

brucemacd/usage-cli

fix-cuda12-fattn-shmem

ollama-imagegen-docs

parth/fix-multiline-inputs

brucemacd/config-docs

mxyng/model-files

mxyng/simple-execute

fix-imagegen-ollama-models

mxyng/async-upload

jmorganca/lazy-no-dtype-changes

imagegen-auto-detect-create

parth/decrease-concurrent-download-hf

fix-mlx-quantize-init

jmorganca/x-cleanup

usage

imagegen-readme

jmorganca/glm-image

mlx-gpu-cd

jmorganca/imagegen-modelfile

parth/agent-skills

parth/agent-allowlist

parth/signed-in-offline

parth/agents

parth/fix-context-chopping

improve-cloud-flow

parth/add-models-websearch

parth/prompt-renderer-mcp

jmorganca/native-settings

jmorganca/download-stream-hash

jmorganca/client2-rebased

brucemacd/oai-chat-req-multipart

jessegross/multi_chunk_reserve

grace/additional-omit-empty

grace/mistral-3-large

mxyng/tokenizer2

mxyng/tokenizer

jessegross/flash

hoyyeva/windows-nacked-app

mxyng/cleanup-attention

grace/deepseek-parser

hoyyeva/remember-unsent-prompt

parth/add-lfs-pointer-error-conversion

parth/olmo2-test2

hoyyeva/ollama-launchagent-plist

nicole/olmo-model

parth/olmo-test

mxyng/remove-embedded

parth/render-template

jmorganca/intellect-3

parth/remove-prealloc-linter

jmorganca/cmd-eval

nicole/nomic-embed-text-fix

mxyng/lint-2

hoyyeva/add-gemini-3-pro-preview

hoyyeva/load-model-list

mxyng/expand-path

mxyng/environ-2

hoyyeva/deeplink-json-encoding

parth/improve-tool-calling-tests

hoyyeva/conversation

hoyyeva/assistant-edit-response

hoyyeva/thinking

origin/brucemacd/invalid-char-i-err

parth/improve-tool-calling

jmorganca/required-omitempty

grace/qwen3-vl-tests

mxyng/iter-client

parth/docs-readme

nicole/embed-test

pdevine/integration-benchstat

parth/remove-generate-cmd

parth/add-toolcall-id

mxyng/server-tests

jmorganca/glm-4.6

jmorganca/gin-h-compat

drifkin/stable-tool-args

pdevine/qwen3-more-thinking

parth/add-websearch-client

nicole/websearch_local

jmorganca/qwen3-coder-updates

grace/deepseek-v3-migration-tests

mxyng/fix-create

jmorganca/cloud-errors

pdevine/parser-tidy

revert-12233-parth/simplify-entrypoints-runner

parth/enable-so-gpt-oss

brucemacd/qwen3vl

jmorganca/readme-simplify

parth/gpt-oss-structured-outputs

revert-12039-jmorganca/tools-braces

mxyng/embeddings

mxyng/gguf

mxyng/benchmark

mxyng/types-null

parth/move-parsing

mxyng/gemma2

jmorganca/docs

mxyng/16-bit

mxyng/create-stdin

pdevine/authorizedkeys

mxyng/quant

parth/opt-in-error-context-window

brucemacd/cache-models

brucemacd/runner-completion

jmorganca/llama-update-6

brucemacd/benchmark-list

brucemacd/partial-read-caps

parth/deepseek-r1-tools

mxyng/omit-array

parth/tool-prefix-temp

brucemacd/runner-test

jmorganca/qwen25vl

brucemacd/model-forward-test-ext

parth/python-function-parsing

jmorganca/cuda-compression-none

drifkin/num-parallel

drifkin/chat-truncation-fix

jmorganca/sync

parth/python-tools-calling

drifkin/array-head-count

brucemacd/create-no-loop

parth/server-enable-content-stream-with-tools

qwen25omni

mxyng/v3

brucemacd/ropeconfig

jmorganca/silence-tokenizer

parth/sample-so-test

parth/sampling-structured-outputs

brucemacd/doc-go-engine

parth/constrained-sampling-json

jmorganca/mistral-wip

brucemacd/mistral-small-convert

parth/sample-unmarshal-json-for-params

brucemacd/jomorganca/mistral

pdevine/bfloat16

jmorganca/mistral

brucemacd/mistral

pdevine/logging

parth/sample-correctness-fix

parth/sample-fix-sorting

jmorgan/sample-fix-sorting-extras

jmorganca/temp-0-images

brucemacd/parallel-embed-models

brucemacd/shim-grammar

jmorganca/fix-gguf-error

bmizerany/nameswork

jmorganca/faster-releases

bmizerany/validatenames

brucemacd/err-no-vocab

brucemacd/rope-config

brucemacd/err-hint

brucemacd/qwen2_5

brucemacd/logprobs

brucemacd/new_runner_graph_bench

progress-flicker

brucemacd/forward-test

brucemacd/go_qwen2

pdevine/gemma2

jmorganca/add-missing-symlink-eval

mxyng/next-debug

parth/set-context-size-openai

brucemacd/next-bpe-bench

brucemacd/next-bpe-test

brucemacd/new_runner_e2e

brucemacd/new_runner_qwen2

pdevine/convert-cohere2

brucemacd/convert-cli

parth/log-probs

mxyng/next-mlx

mxyng/cmd-history

parth/templating

parth/tokenize-detokenize

brucemacd/check-key-register

bmizerany/grammar

jmorganca/vendor-081b29bd

mxyng/func-checks

jmorganca/fix-null-format

parth/fix-default-to-warn-json

jmorganca/qwen2vl

jmorganca/no-concat

parth/cmd-cleanup-SO

brucemacd/check-key-register-structured-err

parth/openai-stream-usage

parth/fix-referencing-so

stream-tools-stop

jmorganca/degin-1

brucemacd/install-path-clean

brucemacd/push-name-validation

brucemacd/browser-key-register

jmorganca/openai-fix-first-message

jmorganca/fix-proxy

jessegross/sample

parth/disallow-streaming-tools

dhiltgen/remove_submodule

jmorganca/ga

jmorganca/mllama

pdevine/newlines

pdevine/geems-2b

jmorganca/llama-bump

mxyng/modelname-7

mxyng/gin-slog

mxyng/modelname-6

jyan/convert-prog

jyan/quant5

paligemma-support

pdevine/import-docs

jmorganca/openai-context

jyan/paligemma

jyan/p2

jyan/palitest

bmizerany/embedspeedup

jmorganca/llama-vit

brucemacd/allow-ollama

royh/ep-methods

royh/whisper

mxyng/api-models

mxyng/fix-memory

jyan/q4_4/8

jyan/ollama-v

royh/stream-tools

roy-embed-parallel

bmizerany/hrm

revert-5963-revert-5924-mxyng/llama3.1-rope

royh/embed-viz

jyan/local2

jyan/auth

jyan/local

jyan/parse-temp

jmorganca/template-mistral

jyan/reord-g

royh-openai-suffixdocs

royh-imgembed

royh-embed-parallel

jyan/quant4

royh-precision

jyan/progress

pdevine/fix-template

jyan/quant3

pdevine/ggla

mxyng/update-registry-domain

jmorganca/ggml-static

mxyng/create-context

jyan/v0.146

mxyng/layers-from-files

build_dist

bmizerany/noseek

royh-ls

royh-name

timeout

mxyng/server-timestamp

bmizerany/nosillyggufslurps

royh-params

jmorganca/llama-cpp-7c26775

royh-openai-delete

royh-show-rigid

jmorganca/enable-fa

jmorganca/no-error-template

jyan/format

royh-testdelete

bmizerany/fastverify

language_support

pdevine/ps-glitches

brucemacd/tokenize

bruce/iq-quants

bmizerany/filepathwithcoloninhost

mxyng/split-bin

bmizerany/client-registry

jmorganca/if-none-match

native

jmorganca/native

jmorganca/batch-embeddings

jmorganca/initcmake

jmorganca/mm

pdevine/showggmlinfo

modenameenforcealphanum

bmizerany/modenameenforcealphanum

jmorganca/done-reason

jmorganca/llama-cpp-8960fe8

ollama.com

bmizerany/filepathnobuild

bmizerany/types/model/defaultfix

rmdisplaylong

nogogen

bmizerany/x

modelfile-readme

bmizerany/replacecolon

jmorganca/limit

jmorganca/execstack

jmorganca/replace-assets

mxyng/tune-concurrency

jmorganca/testing

whitespace-detection

jmorganca/options

upgrade-all

scratch

cuda-search

mattw/airenamer

mattw/allmodelsonhuggingface

mattw/quantcontext

mattw/whatneedstorun

brucemacd/llama-mem-calc

mattw/faq-context

mattw/communitylinks

mattw/noprune

mattw/python-functioncalling

rename

mxyng/install

pulse

remove-first

editor

mattw/selfqueryingretrieval

cgo

mattw/howtoquant

api

matt/streamingapi

format-config

mxyng/extra-args

shell

update-nous-hermes

cp-model

upload-progress

fix-unknown-model

fix-model-names

delete-fix

insecure-registry

ls

deletemodels

progressbar

readme-updates

license-layers

skip-list

list-models

modelpath

matt/examplemodelfiles

distribution

go-opts

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: github-starred/ollama#28600