Reader
posts
feeds
[+]
[rss]
[atom]
[opml]
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
2025-03-20 08:17:52 +0000 UTC
|
量子位
|
Default
创造性引入规则化奖励函数机制