Madame Bovary, avec ses 183.000 tokens, va alors sembler bien plus "pauvre" que Boule de Suif (45.600 tokens) : 21,06 vs. 10,22.
Alors qu'en fait, compte tenu de leurs tailles respectives, ces deux œuvres déploient une diversité lexicale équivalente. Et ça, on le sait en faisant un comptage incrémentiel du nombre de types ou de lemmes rencontrés token après token :