Ainsi « J’aime mieux le vélo bleu que le vélo rouge » comporte 10 tokens, mais 8 mots, puisqu’on trouve 2 fois les formes « le » et « vélo ». Quant au « lemme », c’est la forme de base d’un mot donné. Ainsi, « vais », « ira » et « allez » sont trois formes du lemme « aller ». Du coup, on ne sait pas bien ce que veut dire M. Desmurget, mais ce qui est sûr, c’est qu’il parle d’1 million de tokens, pas de mots, parmi lesquels on apprend 1000 mots, ou plus probablement lemmes.
D'abord, dans cette phrase, « mot » est utilisé dans 2 sens bien différents, que Desmurget se garde bien de distinguer pour ménager son petit effet : en linguistique, on parle de « mot » (mais aussi de « lemme ») et de « token ». Les « mots » d’un texte sont les formes différentes qu’on y trouve, à différencier des « tokens » qui représentent la totalité des formes présentes, même répétées.
Ensuite, à un niveau beaucoup plus élémentaire, bah… le nombre de mots qu’on apprend dans un livre dépend vachement du nombre de mots qu’on connaissait déjà avant de l’ouvrir 🤷♂️
M. Desmurget est un adepte patenté de l’ultracrépidarianisme linguistique : soit il n’y connait vraiment rien, soit il s’assoit sur ce qu’il sait pour mieux vendre son fonds de commerce idéologique… https://threadreaderapp.com/thread/1711353960395603988.html
Ah et puis tiens, puisque Desmurget prend l'exemple de Harry Potter : il se trouve que j'ai il y a quelques années mis Harry Potter en corpus, du coup j'ai les données.
Harry Potter, c'est exactement 1.421.581 tokens (c'est presque 1,5 fois ce qu'il dit), par contre c'est 28.924 mots (on dit aussi « types ») et 19.362 lemmes.