L’un de mes dictionnaires place les mots de longueur impaire et les mots de longueur paire à quasi-égalité (mais cela n’inclut pas leur fréquence).
P=0; Q=0; for i in $(aspell dump master fr_FR); do [ $((${#i}%2)) = 0 ] && P=$(($P+1)) || Q=$(($Q+1)); done; echo pair: $P; echo impair: $Q
Qui donne :
pair: 314692
impair: 314877
Et en enlevant les combinaisons qui contiennent une apostrophe :
pair: 170861
impair: 170924
Comme suggéré sur le chat, voici une analyse sur le lexique de lexique.org en fonction de la longueur des mots. En bleu la fréquence des mots de longueur paire, en orange celle des mots de longueur impaire, pour les mots de longueurs supérieures à l’abscisse. En jaune la fréquence des mots de ces longueurs dans le lexique :
L’analyse ne tient compte que des lemmes (formes non-fléchies).
On a visiblement toujours un ratio 50/50 à quelques poussières près, surtout dans les longueurs qui ont une fréquence représentative.
Conclusion : avec toutes les pincettes possibles, non, il ne semble pas y avoir de biais en faveur des longueurs paires.
Pour les sceptiques, le script (sale pour l’instant) est sur GitHub.
Leave a comment