Or le tome 2 du dictionnaire de l’Académie (de « Éocene à Mappemonde ») a été publié en 2000, soit plus de 20 ans après ces attestations (mais, certes, 7 ans avant l’élection de Fernandez).
Dommage, Antoine…
Or le tome 2 du dictionnaire de l’Académie (de « Éocene à Mappemonde ») a été publié en 2000, soit plus de 20 ans après ces attestations (mais, certes, 7 ans avant l’élection de Fernandez).
Dommage, Antoine…
Le Grand Robert fait remonter le nom « homophobie » à 1977, en tant que calque du mot anglais équivalent.
Et on trouve le mot, par exemple, dans un article du Monde daté de 1979, rapportant les propos d’un certain Dominique Fernandez, lui-même futur académicien et membre de la Commission du dictionnaire…
Savez pas quoi ? Lors du débat sur Inter avec Julie Neveux de @tract_linguistes, sur l'absence, jusqu'à mardi, du mot « homophobie » dans le dictionnaire de l'Académie, ce grand homme qu'est Antoine Compagnon s'est exclamé : « Comment voulez-vous qu'"homophobie" soit présent il y a 30 ans ? »
Alors, comment dire…
🧵
Vous, quand vous lisez ‘useless af’, vous entendez quoi ?
Je dis : il y a ambigüité.
9e édition du Dictionnaire de l'Académie française : vous alliez débourser 100€ pour un volume où vous trouverez "woke" et "wokisme" mais pas le verbe "spoiler" ni le nom "webmestre", et où "stylé" ne se dit que d'un domestique rompu aux règles de la maison qui l'emploie ?
Lisez plutôt la tribune de @tract_linguistes parue hier dans Libération, et désormais en accès libre :
https://www.tract-linguistes.org/neuvieme-edition-du-dictionnaire-de-lacademie-francaise/
Doublé gagnant en Allemagne, où les puristes s'alarment à la fois d'une règle autorisant l'ajout d'une apostrophe avant le -s du génitif et de l'influence mortifère de l'anglais qu'elle représente à leurs yeux.
Académie française, eat your heart out.
https://www.theguardian.com/world/2024/oct/07/germany-influence-of-english-idiots-apostrophe
@lanodan Après, vu la faible longueur du texte, l'intervalle (1 datapoint tous les 1000 tokens) est probablement trop grand… je vais enlever la limite minimale pour permettre de traiter des textes plus petits… 😉
@lanodan Je trouve que si, au contraire : un texte "naturel" tendra à avoir une courbe qui s'aplatit, car plus un texte est long, plus les "types" ou lemmes tendent à se répéter. Ici on a une progression quasi arithmétique qui montre qu'il y a très peu de répétition !
Ainsi, "a rose is a rose is a rose" = 8 tokens / 3 types ≈ 2,67,
mais "les chaussettes de la comtesse sont super sèches" = 8 tokens / 8 types = 1.
Pratique ! On peut comparer ainsi la "richesse" du vocabulaire de deux romans, discours, etc.
Sauf… sauf quand les corpus que l'on compare sont de tailles différentes. En effet, plus un texte est long, plus il va réutiliser les mêmes mots, et son ratio tokens/types va s'envoler.
…/…
Madame Bovary, avec ses 183.000 tokens, va alors sembler bien plus "pauvre" que Boule de Suif (45.600 tokens) : 21,06 vs. 10,22.
Alors qu'en fait, compte tenu de leurs tailles respectives, ces deux œuvres déploient une diversité lexicale équivalente. Et ça, on le sait en faisant un comptage incrémentiel du nombre de types ou de lemmes rencontrés token après token :
C'est le type de représentation qui est expliqué ici :
http://www.jstor.org/stable/42946163
Et si vous voulez vous amuser à faire pareil, c'est par là :
https://fmoncomble.github.io/ttr/index.html
Tiens, pour rebondir sur la vidéo de Desmurget et la différence mots (ou types) vs. tokens…
Le ratio entre types et tokens fournit une indication de la diversité lexicale d'un texte ou d'un corpus donné : on divise le nombre de tokens par le nombre de types (ou, mieux, de lemmes), et plus le résultat est bas (proche de 1), plus le corpus est "riche" lexicalement.
…/…
Ah et puis tiens, puisque Desmurget prend l'exemple de Harry Potter : il se trouve que j'ai il y a quelques années mis Harry Potter en corpus, du coup j'ai les données.
Harry Potter, c'est exactement 1.421.581 tokens (c'est presque 1,5 fois ce qu'il dit), par contre c'est 28.924 mots (on dit aussi « types ») et 19.362 lemmes.
Ratio beaucoup moins sexy pour la télé… 🤷♂️
… qui n’est pas sans rappeler celui d’un Alain Bentolila, patiemment déboulonné par Michel Launey dans 2 billets de blog de @tract_linguistes :
https://www.tract-linguistes.org/notes-sur-louvrage-dalain-bentolila-controverses-sur-la-langue-francaise-2024-premiere-partie/
M. Desmurget est un adepte patenté de l’ultracrépidarianisme linguistique : soit il n’y connait vraiment rien, soit il s’assoit sur ce qu’il sait pour mieux vendre son fonds de commerce idéologique…
https://threadreaderapp.com/thread/1711353960395603988.html
Ensuite, à un niveau beaucoup plus élémentaire, bah… le nombre de mots qu’on apprend dans un livre dépend vachement du nombre de mots qu’on connaissait déjà avant de l’ouvrir 🤷♂️
D'abord, dans cette phrase, « mot » est utilisé dans 2 sens bien différents, que Desmurget se garde bien de distinguer pour ménager son petit effet : en linguistique, on parle de « mot » (mais aussi de « lemme ») et de « token ».
Les « mots » d’un texte sont les formes différentes qu’on y trouve, à différencier des « tokens » qui représentent la totalité des formes présentes, même répétées.
« On apprend 1000 mots par million de mots » : pourquoi, présentée comme ça, cette stat ne veut rien dire (et est donc trompeuse).
🧵🔽
Ainsi « J’aime mieux le vélo bleu que le vélo rouge » comporte 10 tokens, mais 8 mots, puisqu’on trouve 2 fois les formes « le » et « vélo ».
Quant au « lemme », c’est la forme de base d’un mot donné. Ainsi, « vais », « ira » et « allez » sont trois formes du lemme « aller ».
Du coup, on ne sait pas bien ce que veut dire M. Desmurget, mais ce qui est sûr, c’est qu’il parle d’1 million de tokens, pas de mots, parmi lesquels on apprend 1000 mots, ou plus probablement lemmes.
Maitre de Conférences en linguistique anglaise | Senior Lecturer in English linguistics | #Linguistics #Linguistique #Linguistodon #GrammaireAnglaise #Handicap #Autisme
GNU social JP is a social network, courtesy of GNU social JP管理人. It runs on GNU social, version 2.0.2-dev, available under the GNU Affero General Public License.
All GNU social JP content and data are available under the Creative Commons Attribution 3.0 license.