Ah et puis tiens, puisque Desmurget prend l'exemple de Harry Potter : il se trouve que j'ai il y a quelques années mis Harry Potter en corpus, du coup j'ai les données.
Harry Potter, c'est exactement 1.421.581 tokens (c'est presque 1,5 fois ce qu'il dit), par contre c'est 28.924 mots (on dit aussi « types ») et 19.362 lemmes.
Ratio beaucoup moins sexy pour la télé… 🤷♂️