Embed Notice

HTML Code

<blockquote style="position: relative; padding-left: 55px;"><section><a href="https://mastodon.social/users/lisrosello/statuses/113692060041647878">Elisabet Roselló (lisrosello@mastodon.social)'s status on Monday, 23-Dec-2024 00:52:37 JST</a><a href="https://mastodon.social/@lisrosello" title="lisrosello@mastodon.social"><img src="https://gnusocial.jp/avatar/287316-48-20241016091624.webp" width="48" height="48" alt="Elisabet Roselló" style="position: absolute; left: 0; top: 0;">Elisabet Roselló</a><div><a href="https://mastodon.social/@lisrosello/113692049258413906" rel="in-reply-to">in reply to</a></div></section><article><p>Tenían unas normas, incluyendo no entrenar las IA con los datos de la prueba final</p><p>Pues al final el equipo de Baidu, que sacó muy buenos resultados, habían entrenado a la IA haciéndola hacer y rehacer la prueba para, en el fondo, entrenarla, haciéndose pasar por otros usuarios o equipos.<br>Los descalificaron cuando los pillaron</p><p>Eso que llaman "benchmark" es básicamente tests de respuestas relativamente cerradas, en ocasiones se están utilizando tests oficiales de humanos como el bar exam</p></article><footer><a rel="bookmark" href="https://gnusocial.jp/conversation/4236639#notice-8279978">In conversation</a><time datetime="2024-12-23T00:52:37+09:00" title="Monday, 23-Dec-2024 00:52:37 JST">about 4 months ago</time> <span>from <span><a href="https://mastodon.social/@lisrosello/113692060041647878" rel="external" title="Sent from mastodon.social via ActivityPub">mastodon.social</a></span></span><a href="https://mastodon.social/@lisrosello/113692060041647878">permalink</a></footer></blockquote>

Corresponding Notice

Embed this notice
Elisabet Roselló (lisrosello@mastodon.social)'s status on Monday, 23-Dec-2024 00:52:37 JST Elisabet Roselló
in reply to
Tenían unas normas, incluyendo no entrenar las IA con los datos de la prueba final
Pues al final el equipo de Baidu, que sacó muy buenos resultados, habían entrenado a la IA haciéndola hacer y rehacer la prueba para, en el fondo, entrenarla, haciéndose pasar por otros usuarios o equipos.
Los descalificaron cuando los pillaron
Eso que llaman "benchmark" es básicamente tests de respuestas relativamente cerradas, en ocasiones se están utilizando tests oficiales de humanos como el bar exam
In conversationabout 4 months ago from mastodon.socialpermalink

Public

Embed Notice

HTML Code

Corresponding Notice