Ainsi, "a rose is a rose is a rose" = 8 tokens / 3 types ≈ 2,67,
mais "les chaussettes de la comtesse sont super sèches" = 8 tokens / 8 types = 1.
Pratique ! On peut comparer ainsi la "richesse" du vocabulaire de deux romans, discours, etc.
Sauf… sauf quand les corpus que l'on compare sont de tailles différentes. En effet, plus un texte est long, plus il va réutiliser les mêmes mots, et son ratio tokens/types va s'envoler.
…/…