[GH-ISSUE #15240] Gemma4 26B and 31B miss some UTF-8 characters in polish #71808

Closed
opened 2026-05-05 02:36:14 -05:00 by GiteaMirror · 4 comments
Owner

Originally created by @roxlukas on GitHub (Apr 2, 2026).
Original GitHub issue: https://github.com/ollama/ollama/issues/15240

What is the issue?

In model responses I see that some characters are missing, even when model is repeating verbatim my own prompt. This issue does not appear on Vertex AI and in Google AI Studio, so it's unlikely to be model problem. Due to missing both UTF and latin characters following are missing, I suspect this is a multibyte encoding issue.

For example

* *Option 3 (Conversational):* Hej! Jestem sztuczn inteligencj od Google. W czym mog Ci dzisiaj pom? (Hey! I am an AI from Google. How can I help you today?)

should be

* *Option 3 (Conversational):* Hej! Jestem sztuczną inteligencją od Google. W czym mogę Ci dzisiaj pomóc? (Hey! I am an AI from Google. How can I help you today?)

Relevant log output

PowerShell 7.6.0
PS C:\Users\lukas> ollama run gemma4:31b
>>> cześć, proszę zidentyfikuj się
Thinking...
"cześ, prosz zidentyfikuj si" (Hi, please identify yourself).
Polish.
The user wants to know who/what I am.

    *   I am a large language model.
    *   I was trained by Google.
    *   I don't have a personal name, feelings, or a physical body.
    *   My purpose is to help with a variety of tasks (writing, translating, coding, answering questions, etc.).

    *   *Option 1 (Simple):* Cześ! Jestem modelem jzykowym wytrenowanym przez Google. (Hi! I am a language model
trained by Google.)
    *   *Option 2 (Detailed):* Cześ! Jestem dużym modelem jzykowym, stworzonym przez Google. Mog pomaga w pisaniu
tekst, tzeniu, programowaniu i odpowiadaniu na pytania. (Hi! I am a large language model, created by Google. I can
help with writing texts, translating, programming, and answering questions.)
    *   *Option 3 (Conversational):* Hej! Jestem sztuczn inteligencj od Google. W czym mog Ci dzisiaj pom? (Hey! I
am an AI from Google. How can I help you today?)

    *   A combination of being clear, professional, and helpful is best.

    *   *Draft:* "Cześ! Jestem dużym modelem jzykowym, wytrenowanym przez Google." (Hi! I am a large language
model, trained by Google.)
...done thinking.

Cześ! Jestem dużym modelem jzykowym, wytrenowanym przez Google.

W skr: jestem sztuczn inteligencj, kt potrafi przetwarza i generowa tekst w wielu jzykach. Mog Ci pom w wielu
rzeczach, na przyk:

* **Odpowiadaniu na pytania** z r dziedzin.
* **Pisaniu tekst** (maile, wypracowania, wiersze, kody programistyczne).
* **Tumaczeniu** treści midzy jzykami.
* **Podsumowywaniu** dich artyku.
* **Planowaniu** podr, nauki czy codziennych zadań.

W czym mog Ci dzisiaj pom?
PS C:\Users\lukas> ollama --version
ollama version is 0.20.0-rc0

OS

Windows

GPU

Nvidia

CPU

Intel

Ollama version

ollama version is 0.20.0-rc0

Originally created by @roxlukas on GitHub (Apr 2, 2026). Original GitHub issue: https://github.com/ollama/ollama/issues/15240 ### What is the issue? In model responses I see that some characters are missing, even when model is repeating verbatim my own prompt. This issue does not appear on Vertex AI and in Google AI Studio, so it's unlikely to be model problem. Due to missing both UTF and latin characters following are missing, I suspect this is a multibyte encoding issue. For example ` * *Option 3 (Conversational):* Hej! Jestem sztuczn inteligencj od Google. W czym mog Ci dzisiaj pom? (Hey! I am an AI from Google. How can I help you today?)` should be ` * *Option 3 (Conversational):* Hej! Jestem sztuczną inteligencją od Google. W czym mogę Ci dzisiaj pomóc? (Hey! I am an AI from Google. How can I help you today?)` ### Relevant log output ```shell PowerShell 7.6.0 PS C:\Users\lukas> ollama run gemma4:31b >>> cześć, proszę zidentyfikuj się Thinking... "cześ, prosz zidentyfikuj si" (Hi, please identify yourself). Polish. The user wants to know who/what I am. * I am a large language model. * I was trained by Google. * I don't have a personal name, feelings, or a physical body. * My purpose is to help with a variety of tasks (writing, translating, coding, answering questions, etc.). * *Option 1 (Simple):* Cześ! Jestem modelem jzykowym wytrenowanym przez Google. (Hi! I am a language model trained by Google.) * *Option 2 (Detailed):* Cześ! Jestem dużym modelem jzykowym, stworzonym przez Google. Mog pomaga w pisaniu tekst, tzeniu, programowaniu i odpowiadaniu na pytania. (Hi! I am a large language model, created by Google. I can help with writing texts, translating, programming, and answering questions.) * *Option 3 (Conversational):* Hej! Jestem sztuczn inteligencj od Google. W czym mog Ci dzisiaj pom? (Hey! I am an AI from Google. How can I help you today?) * A combination of being clear, professional, and helpful is best. * *Draft:* "Cześ! Jestem dużym modelem jzykowym, wytrenowanym przez Google." (Hi! I am a large language model, trained by Google.) ...done thinking. Cześ! Jestem dużym modelem jzykowym, wytrenowanym przez Google. W skr: jestem sztuczn inteligencj, kt potrafi przetwarza i generowa tekst w wielu jzykach. Mog Ci pom w wielu rzeczach, na przyk: * **Odpowiadaniu na pytania** z r dziedzin. * **Pisaniu tekst** (maile, wypracowania, wiersze, kody programistyczne). * **Tumaczeniu** treści midzy jzykami. * **Podsumowywaniu** dich artyku. * **Planowaniu** podr, nauki czy codziennych zadań. W czym mog Ci dzisiaj pom? PS C:\Users\lukas> ollama --version ollama version is 0.20.0-rc0 ``` ### OS Windows ### GPU Nvidia ### CPU Intel ### Ollama version ollama version is 0.20.0-rc0
GiteaMirror added the bug label 2026-05-05 02:36:14 -05:00
Author
Owner

@szmarczak commented on GitHub (Apr 2, 2026):

Minutes ago there has been published a fix: https://github.com/ollama/ollama/releases/tag/v0.20.0

<!-- gh-comment-id:4180520621 --> @szmarczak commented on GitHub (Apr 2, 2026): Minutes ago there has been published a fix: https://github.com/ollama/ollama/releases/tag/v0.20.0
Author
Owner

@szmarczak commented on GitHub (Apr 2, 2026):

I confirm it's been fixed.

<!-- gh-comment-id:4180570008 --> @szmarczak commented on GitHub (Apr 2, 2026): I confirm it's been fixed.
Author
Owner

@szmarczak commented on GitHub (Apr 2, 2026):

Also duplicate of #15231

<!-- gh-comment-id:4180574797 --> @szmarczak commented on GitHub (Apr 2, 2026): Also duplicate of #15231
Author
Owner

@roxlukas commented on GitHub (Apr 2, 2026):

let's close it then :-)

<!-- gh-comment-id:4180585292 --> @roxlukas commented on GitHub (Apr 2, 2026): let's close it then :-)
Sign in to join this conversation.
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: github-starred/ollama#71808