O sucesso do DeepSeek R1 está relacionado ao uso da arquitetura Mixture of Experts (MoE), que otimiza o uso de parâmetros. Enquanto os modelos atuais ativam todos os neurônios para cada inferência, o DeepSeek possui 670 bilhões de parâmetros, mas apenas cerca de 37 bilhões são utilizados por vez, por exemplo, em uma inferencia qualquer.