O DeepSeek-R1 usa tecnologia de aprendizado por reforço em larga escala no estágio pós-treinamento, o que melhora muito a capacidade de raciocínio do modelo com apenas poucos dados rotulados.