mirror of
https://github.com/open-webui/open-webui.git
synced 2026-05-06 02:48:13 -05:00
[GH-ISSUE #5380] Feature Request: Add ftfy dependency for RAG text cleaning #29492
Reference in New Issue
Block a user
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Originally created by @thiswillbeyourgithub on GitHub (Sep 12, 2024).
Original GitHub issue: https://github.com/open-webui/open-webui/issues/5380
Originally assigned to: @tjbck on GitHub.
Is your feature request related to a problem? Please describe.
ftfy is a battle tested (often used in tokenizers themselves!) library that can fix text efficiently. It's especially relevant for online web search where encoding can get funky. This can seem like a niche cases but it happens often enough in french, and probably too in other languages with accents etc.
Describe the solution you'd like
Add this RAG preprocessing step for web at least.
Describe alternatives you've considered
Tolerating poorly parsed web text.
Additional context
Here's an example found on linkedin when using tavily as a search engine (after my #5378 PR)
Input:
Alors que les hôpitaux français font face à de grandes tensions cet été, "le vrai fond du problème, c’est qu’il n’y a pas de participation de la médecine libérale et des cliniques privées à la permanence des soins", a déclaré mercredi 21 août le Pr Jouve au micro de Franceinfo.Output:
Alors que les hôpitaux français font face à de grandes tensions cet été, "le vrai fond du problème, c\'est qu\'il n\'y a pas de participation de la médecine libérale et des cliniques privées à la permanence des soins", a déclaré mercredi 21 août le Pr Jouve au micro de Franceinfo@peuportier commented on GitHub (Sep 13, 2024):
Super, oui, ça manque, ce genre de librairies ici. Beaucoup de dépendances sont à ajouter. Ce serait cool si on pouvait aussi faire des graphiques spéciaux et autres. Mais l'équipe est très occupée, donc ça viendra petit à petit. En tout cas, merci beaucoup pour ton ajout.
@tjbck commented on GitHub (Sep 28, 2024):
Added to dev!