Reader

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

| 量子位 | Default
创造性引入规则化奖励函数机制