Qué palo más grande la gente fan de OpenAI con otro nuevo anuncio diciendo que su modelo ha sobrepasado el % de puntuación con tests, cuando son tests que los elabora la misma empresa (que ya sabemos que ni es open, ni por amor a la ciencia ni sin aspiraciones lucrativas, ni sin una estructura de gobernanza libre de presiones a dar resultados financieros)...
¿Sabéis el caso hace una década del concurso Imagenet y el escándalo de Baidu? ImageNet era un concurso donde diferentes universidades y startups o el grupo que quisiera que estuviera entrenando sus modelos Deep Learning de reconocimiento de imágenes podían competir, para demostrar quién tenía el modelo de IA más buena
El tema era entrenarlas con una base de datos determinada, pero en la prueba final usarían otra para demostrar qué bien lo hacían (% de aciertos en describir la figura central)
Tenían unas normas, incluyendo no entrenar las IA con los datos de la prueba final
Pues al final el equipo de Baidu, que sacó muy buenos resultados, habían entrenado a la IA haciéndola hacer y rehacer la prueba para, en el fondo, entrenarla, haciéndose pasar por otros usuarios o equipos. Los descalificaron cuando los pillaron
Eso que llaman "benchmark" es básicamente tests de respuestas relativamente cerradas, en ocasiones se están utilizando tests oficiales de humanos como el bar exam
*elaborar no, quiero decir que los observa ella misma y dice que superao
Luego vienen agentes independientes, re-observan su actuación con los mismos test tratando de entender qué proceso hicieron OpenAI para entrenarla para el test (opaco, no lo explican), y ven que bien, no va
P.e. hace un año y pico anunciaba openAI que aprobaba el bar test de abogacía, y al rehacer la prueba, el test, no tan bien, y tareas que se salían de los casos de los exámenes, peor