Tiens, pour rebondir sur la vidéo de Desmurget et la différence mots (ou types) vs. tokens…
Le ratio entre types et tokens fournit une indication de la diversité lexicale d'un texte ou d'un corpus donné : on divise le nombre de tokens par le nombre de types (ou, mieux, de lemmes), et plus le résultat est bas (proche de 1), plus le corpus est "riche" lexicalement.
…/…