Courbe montrant un ratio lemmes / tokens équivalent pour Madame Bovary et Boule de Suif
https://files.mastodon.online/media_attachments/files/113/147/221/656/632/897/original/4d6b6ab9a5cde19a.png
Madame Bovary, avec ses 183.000 tokens, va alors sembler bien plus "pauvre" que Boule de Suif (45.600 tokens) : 21,06 vs. 10,22.
Alors qu'en fait, compte tenu de leurs tailles respectives, ces deux œuvres déploient une diversité lexicale équivalente. Et ça, on le sait en faisant un comptage incrémentiel du nombre de types ou de lemmes rencontrés token après token :
GNU social JP is a social network, courtesy of GNU social JP管理人. It runs on GNU social, version 2.0.2-dev, available under the GNU Affero General Public License.
All GNU social JP content and data are available under the Creative Commons Attribution 3.0 license.