Reader

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

2025-03-20 08:17:52 +0000 UTC | 量子位 | Default

创造性引入规则化奖励函数机制