[GH-ISSUE #5380] Feature Request: Add ftfy dependency for RAG text cleaning #52630

Closed
opened 2026-05-05 13:43:40 -05:00 by GiteaMirror · 2 comments
Owner

Originally created by @thiswillbeyourgithub on GitHub (Sep 12, 2024).
Original GitHub issue: https://github.com/open-webui/open-webui/issues/5380

Originally assigned to: @tjbck on GitHub.

Is your feature request related to a problem? Please describe.
ftfy is a battle tested (often used in tokenizers themselves!) library that can fix text efficiently. It's especially relevant for online web search where encoding can get funky. This can seem like a niche cases but it happens often enough in french, and probably too in other languages with accents etc.

Describe the solution you'd like
Add this RAG preprocessing step for web at least.

import ftfy

cleaned = ftfy.fix_text(dirty)

Describe alternatives you've considered
Tolerating poorly parsed web text.

Additional context
Here's an example found on linkedin when using tavily as a search engine (after my #5378 PR)

Input: Alors que les hôpitaux français font face à de grandes tensions cet été, "le vrai fond du problème, c’est qu’il n’y a pas de participation de la médecine libérale et des cliniques privées à la permanence des soins", a déclaré mercredi 21 août le Pr Jouve au micro de Franceinfo.

Output: Alors que les hôpitaux français font face à de grandes tensions cet été, "le vrai fond du problème, c\'est qu\'il n\'y a pas de participation de la médecine libérale et des cliniques privées à la permanence des soins", a déclaré mercredi 21 août le Pr Jouve au micro de Franceinfo

Originally created by @thiswillbeyourgithub on GitHub (Sep 12, 2024). Original GitHub issue: https://github.com/open-webui/open-webui/issues/5380 Originally assigned to: @tjbck on GitHub. **Is your feature request related to a problem? Please describe.** [ftfy](https://ftfy.readthedocs.io/en/latest/) is a battle tested (often used in tokenizers themselves!) library that can fix text efficiently. It's especially relevant for online web search where encoding can get funky. This can seem like a niche cases but it happens often enough in french, and probably too in other languages with accents etc. **Describe the solution you'd like** Add this RAG preprocessing step for web at least. ``` python import ftfy cleaned = ftfy.fix_text(dirty) ``` **Describe alternatives you've considered** Tolerating poorly parsed web text. **Additional context** Here's an example found on linkedin when using tavily as a search engine (after my #5378 PR) Input: `Alors que les h√¥pitaux fran√ßais font face √† de grandes tensions cet √©t√©, "le vrai fond du probl√®me, c‚Äôest qu‚Äôil n‚Äôy a pas de participation de la m√©decine lib√©rale et des cliniques priv√©es √† la permanence des soins", a d√©clar√© mercredi 21 ao√ªt le Pr Jouve au micro de Franceinfo.` Output: `Alors que les hôpitaux français font face à de grandes tensions cet été, "le vrai fond du problème, c\'est qu\'il n\'y a pas de participation de la médecine libérale et des cliniques privées à la permanence des soins", a déclaré mercredi 21 août le Pr Jouve au micro de Franceinfo`
Author
Owner

@peuportier commented on GitHub (Sep 13, 2024):

Super, oui, ça manque, ce genre de librairies ici. Beaucoup de dépendances sont à ajouter. Ce serait cool si on pouvait aussi faire des graphiques spéciaux et autres. Mais l'équipe est très occupée, donc ça viendra petit à petit. En tout cas, merci beaucoup pour ton ajout.

<!-- gh-comment-id:2347899567 --> @peuportier commented on GitHub (Sep 13, 2024): Super, oui, ça manque, ce genre de librairies ici. Beaucoup de dépendances sont à ajouter. Ce serait cool si on pouvait aussi faire des graphiques spéciaux et autres. Mais l'équipe est très occupée, donc ça viendra petit à petit. En tout cas, merci beaucoup pour ton ajout.
Author
Owner

@tjbck commented on GitHub (Sep 28, 2024):

Added to dev!

<!-- gh-comment-id:2380324155 --> @tjbck commented on GitHub (Sep 28, 2024): Added to dev!
Sign in to join this conversation.
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: github-starred/open-webui#52630