Commit cedabf8d authored by BERNHARD Delphine's avatar BERNHARD Delphine
Browse files

Correction faute grammaire cours 6

parent 402e30e6
......@@ -169,11 +169,11 @@
La liste `stop_words` peut encore être améliorée. Il faudrait y ajouter les signes de ponctuation et d'autres mots outils supplémentaires.
%% Cell type:markdown id: tags:
L'autre problème restant concerne le découpage en mots, qui n'a pas été fait correctement : on retrouve par exemple "c'est" (qu'il faudrait découper en "c'" + "est"). La méthode `split()` se contente de découper le texte selon les espaces, ce qui n'est pas suffisant pour découper le texte en mots et signes de ponctuation (ce que l'on appelle la **tokenisation** ou *tokenization* en anglais). Un programme qui découpe un texte en tokens est appelé **tokéniseur**. Les règles de découpage sont spécifiques à chaque langue et peuvent être relativement complexe, pour prendre tous les cas particuliers en compte. Nous allons donc utiliser un tokéniseur spécifique au français, fourni par la bibliothèque `spacy`.
L'autre problème restant concerne le découpage en mots, qui n'a pas été fait correctement : on retrouve par exemple "c'est" (qu'il faudrait découper en "c'" + "est"). La méthode `split()` se contente de découper le texte selon les espaces, ce qui n'est pas suffisant pour découper le texte en mots et signes de ponctuation (ce que l'on appelle la **tokenisation** ou *tokenization* en anglais). Un programme qui découpe un texte en tokens est appelé **tokéniseur**. Les règles de découpage sont spécifiques à chaque langue et peuvent être relativement complexes, pour prendre tous les cas particuliers en compte. Nous allons donc utiliser un tokéniseur spécifique au français, fourni par la bibliothèque `spacy`.
%% Cell type:code id: tags:
``` python
# Installation de spaCy si besoin
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment