Normalisation et prétokenization.

Installez les bibliothèques 🤗 Transformers et 🤗 Datasets pour exécuter ce notebook.

In [ ]:

!pip install datasets transformers[sentencepiece]

In [ ]:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("camembert-base") 
print(type(tokenizer.backend_tokenizer))

In [ ]:

print(tokenizer.backend_tokenizer.normalizer.normalize_str("Héllò hôw are ü?"))

In [ ]:

# Ne semble pas marcher sur le français
tokenizer_fr = AutoTokenizer.from_pretrained("camembert-base") 
tokenizer_fr.backend_tokenizer.normalizer.normalize_str("Bönjoùr commènt vas tü ?")

In [ ]:

tokenizer.backend_tokenizer.pre_tokenizer.pre_tokenize_str("Hello, how are  you?")

In [ ]:

tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokenizer.backend_tokenizer.pre_tokenizer.pre_tokenize_str("Hello, how are  you?")

In [ ]:

tokenizer = AutoTokenizer.from_pretrained("t5-small")
tokenizer.backend_tokenizer.pre_tokenizer.pre_tokenize_str("Hello, how are  you?")

Real-time collaboration for Jupyter Notebooks, Linux Terminals, LaTeX, VS Code, R IDE, and more,
all in one place. Commercial Alternative to JupyterHub.

Normalisation et prétokenization.

Product

Resources

Company

Real-time collaboration for Jupyter Notebooks, Linux Terminals, LaTeX, VS Code, R IDE, and more, all in one place. Commercial Alternative to JupyterHub.

Normalisation et prétokenization.

Real-time collaboration for Jupyter Notebooks, Linux Terminals, LaTeX, VS Code, R IDE, and more,
all in one place. Commercial Alternative to JupyterHub.