你是否想开发一个真正能看懂图像、理解语境、给出准确回答的 AI?你是否对多模态生成、检索增强大模型(RAG)感兴趣?如果你的答案是“YES”,那你一定不能错过 Meta CRAG-MM Challenge 2025!
这不仅是一场比赛,更是一场打造”下一代可穿戴 AI”的全球技术竞赛。
想象一下:AI 眼镜与现实世界的无缝融合
设想你正在最喜欢的超市为晚餐采购食材,佩戴着一副 AI 智能眼镜。你扫视货架,在各种意面中寻找无麸质的那一款。
你问:“这些意面里哪种是无麸质的?”
几秒钟内,你的 AI 助手便给出准确答案,交叉参考了商品标签和可靠的数据库来源。没有猜测,没有错误信息,只有即时可靠的知识,如影随形地为你所用。
这,正是AI 驱动的可穿戴设备所能带来的变革性体验。
但现实是,现有的视觉大语言模型(VLLMs)在准确性、上下文理解和实时信息处理方面仍存在明显短板。这也是为什么我们需要你。
什么是 Meta CRAG-MM Challenge?
Meta CRAG–MM Challenge 是 KDD Cup 2025 的官方挑战赛之一,是一个专为可穿戴设备场景设计的视觉问答基准数据集,聚焦多模态、多轮对话任务,并通过引入检索增强生成(Retrieval-Augmented Generation, RAG)机制以提升生成内容的真实性。
CRAG–MM (Comprehensive RAG Benchmark for Multi-modal, Multi-turn) 是首个面向公众开放的多模态 RAG 基准数据集,同时也是最早专门面向可穿戴 AI 应用打造的评测之一。
参赛者将面对一个高度现实化的任务:在面对复杂视觉线索(如图像)和语境信息(如说明、提示、对话历史)时,模型需要生成自然语言响应,做到准确理解、逻辑连贯、上下文契合。这不仅考验模型的生成能力,更检验其多模态推理与对齐能力。
挑战赛最终将评选出一支总分最高、最能支持可穿戴 AI 实际应用场景的团队,颁发 5,000 美元大奖。整个挑战总奖金池高达 33,000 美元,用以表彰在不同子任务中表现突出的优秀方案。
你将有机会参与构建真正能够:
● 观察现实世界图像、理解语境;
● 检索外部知识、提供有依据的答案;
● 在多轮对话中保持逻辑一致;
为什么值得参加?
● 🧠 顶尖研究方向:该挑战聚焦于多模态生成任务,紧贴当前最热门的 AI 研究趋势,如 LVLM(大规模视觉语言模型)、对话系统、多模态理解与推理等。
● 🌍 国际舞台:与全球优秀研究者同台竞技,在国际平台上展示你的技术实力与创新能力。
● 🏆 丰厚奖励:除了奖金之外,优胜团队还可能获得在顶级会议进行展示的机会。
● 📊 真实数据与严格评估:提供高质量、多样性的多模态数据集,以及严谨科学的评估指标,确保模型能力得到全面检验。
● 🤝 行业合作与曝光:获得 Meta 等一线科技公司的关注,打开科研与职业发展的新大门。
🧪 三大任务设置:多模态问答系统的全面挑战
Meta CRAG-MM Challenge 2025 通过三个逐层递进的任务,全面考察多模态检索增强生成(MM-RAG)系统在真实世界中的能力:从单源信息获取、多源信息整合,到多轮上下文理解。三个任务可独立参与,参赛者可选择任意一项或多项提交,每项任务将分别进行评估与排名。
任务一:单源增强(Single-source Augmentation)
📌 目标:测试多模态 RAG 系统的基础回答生成能力。
💡 系统将通过一个图像检索模拟 API,访问一个“基于图像的结构化知识图谱(mock KG)”。该知识图谱以图像为索引,存储与之相关的结构化信息(如属性、标签等)。模型需使用该 API 返回的相似图像及其结构化数据,辅助完成回答生成。
任务二:多源增强(Multi-source Augmentation)
📌 目标:测试模型综合多个信息源的能力。
在任务一的基础上,新增一个“网页检索模拟 API”作为第二个知识获取渠道。返回的网页内容可能包含回答所需信息,但同时也可能夹杂噪声或不相关内容。
🧠 模型需要具备信息筛选、跨源融合与噪声鲁棒性,在多源信息中识别最有价值的支持依据,生成准确合理的回答。
任务三:多轮问答(Multi-turn QA)
📌 目标:测试系统对多轮对话上下文的理解与连贯性。
此任务模拟人与 AI 助手之间的连续对话,每轮对话包含 2 至 6 轮问答。除首轮外,后续问题可能需要,也可能不需要图像信息来生成回答。
模型需在历史对话语境下做出自然、上下文一致的回应,避免信息冲突或丢失上下文。
如何参赛?
1. 访问挑战主页: 👉Meta CRAG-MM Challenge 2025
2. 注册 AIcrowd 账号,加入挑战
3. 下载数据集,阅读任务说明
4. 开始训练你的模型并提交结果!
时间节点
● ⏳ 报名截止日期:2025年5月17日
● 📥 提交系统已开放
奖金设置
● 总奖金池:33,000 美元
● 单项任务奖:
○ 第一名:4,000 美元
○ 第二名:2,500 美元
○ 第三名:1,500 美元
● 特别奖项:每项问题类型的第一名将获得 1,000 美元
● 全场大奖:在 egocentric 图像上得分最高的团队将获得 5,000 美元
无论你是想要深入探索多模态生成、RAG 与人机交互的研究者与学生, 还是专注于可穿戴 AI、机器人、智能助手等领域的开发者与创业团队, 或者是寻找高质量多模态数据集与评估基准的 学术团队与实验室,我们都期待你们加入挑战!