Tenían unas normas, incluyendo no entrenar las IA con los datos de la prueba final
Pues al final el equipo de Baidu, que sacó muy buenos resultados, habían entrenado a la IA haciéndola hacer y rehacer la prueba para, en el fondo, entrenarla, haciéndose pasar por otros usuarios o equipos.
Los descalificaron cuando los pillaron
Eso que llaman "benchmark" es básicamente tests de respuestas relativamente cerradas, en ocasiones se están utilizando tests oficiales de humanos como el bar exam