华体会- 华体会体育官网- 体育APP下载焦点关注杏彩新版官方网站_社会新闻_大众网

admin@youweb.com

400-123-4567

栏目：华体会发布时间：2025-07-09

　　华体会,华体会体育官网,华体会体育APP下载/华体会体育[永久网址:363050.com]平台是一家专注于体育娱乐的领先平台。华体会专注体育竞技，华体会app提供实时体育赛事、华体会棋牌、华体会彩票、华体会百家乐、华体会APP,华体会官网,华体会官方网站,华体会网址,华体会登陆链接,华体会平台,华体会官方平台,华体会app下载,华体会体育靠谱吗,华体会2025最新,华体会世界杯,华体会体育打造安全便捷的互动娱乐平台，体验最好的赛事服务。近日，中国科学技术大学本科校友、美国哈佛大学博士生陈勇超和所在团队以 Qwen-3B/7B/14B 为初始模型, 用多步监督微调（SFT，Supervised Fine-tuning）和群体相对策略优化（GRPO，Group Relative Policy Optimization）让模型在 144 个推理和规划的任务上进行训练。训练过程中模型可以自由多次使用代码执行器来帮助推理，这些任务都有符号计算的成分，但是文字推理和符号计算哪个更合适以及如何相互配合其实需要模型自主学会。

　　研究团队发现，训练代码执行器（Code Interpreter）受限于模型的能力。比如，很多模型在过度的文字推理训练后，代码生成能力反而会下降。这种能力下降在 Leetcode 这种特定代码基准上很难体现出来，因为下降的能力是在解析具体抽象问题到代码或者符号计算这一步。现实生活中很多问题也是这样，尽管存在符号计算的因素，但是想要抽象成符号计算的问题需要有很多思考。

　　任务的多样性则是另一个挑战。训练单个任务的代码执行系统很容易，但是研究团队发现当任务种类繁多情况下，模型就很难学会根据不同任务来决定策略，很多任务对于策略的偏好性甚至是相反的。鉴于此，研究团队发现单纯靠强化学习很难达到很好的效果，这和在数学任务或检索任务上使用强化学习就能完成训练存在不同之处。“所以，SFT 阶段在我们研究团队的任务上还是非常重要的。”陈勇超表示。

　　陈勇超认为，未来基于大模型的代理或者具身智能系统在很多任务中都需要融入符号计算，就像很多机器人领域的学者认为“未来的模型不是从视觉语言到动作，而是视觉语言到控制”。可以预见的是，最先应用的是虚拟世界，比如旅行规划、网页任务以及各种科学问题求解。同时，虽然很多任务并不需要符号计算，但是仍需要代码执行，例如任务过程中需要画图来可视化，这些场景也亟需训练模型融入代码执行器。

　　据介绍，R1-Code-Interpreter 工作是研究团队整个大课题的一部分：把符号计算与基于大模型的推理规划结合起来（Neuro-Symbolic Foundation Models for Reasoning and Planning）。现在的大模型推理规划基本都是直接基于纯神经网络以及文字推理来进行。但是，有很多任务都是需要基于符号来计算优化的，比如要让大模型帮用户规划旅行路线，整个机票、酒店、时间、地点和交通的选择都是在预算、偏好、行程和价格等因素下的优化与规划问题。再比如，机器人中典型的任务与移动规划。前段时间特别火的“9.9 和 9.11 比大小”还有“strawberry 里面有几个 r”等问题，让大模型生成代码来解决这些问题比直接文字推理要简单容易得多。

　　在这个工作之前，研究团队在 ICRA 2024 发表的 AutoTAMP[1] 和在 NAACL 2025 发表的 TravelPlanner[2] 利用其预先设计好的框架和算法把大模型与符号计算的工具相结合, 来做机器人和旅行中的规划问题。这样做能带来很好的效果，但是泛化性会有局限性。比如，面临不同任务需求时，所需要的算法以及框架会不一样，这时若为每个场景设计一个框架会显得十分局限。现在大模型之所以这么火，一大原因就是因为它超强的泛化性。所以，研究团队一直思考如何在让大模型能够在符号计算的同时，又不损失大模型的泛化能力。

　　2024 年，陈勇超在微软研究院实习的时候，首先想到的就是以代码为载体，来融合各个算法、控制器和规划器。一方面，因为符号计算就是在人为预先设定的规则语言下调用各种算法，比如编程语言、控制器以及规划搜索方法等。另一方面，当前的大模型在经过训练后，天然具备代码编程的能力。所以研究团队认为，如果大模型能够自然高效运用代码执行器，然后在文字推理和符号计算之间灵活调动，那么在处理各种推理规划任务时会非常高效。同时，因为是否调用代码以及选择什么样的算法都是大模型自主完成，所以对泛化性没有损失。

　　明确了这个方向之后，研究团队先测试了一下目前 OpenAI 的 Code-Interpreter，借此发现目前 OpenAI 训练的 GPT-4o+代码执行器有很多问题，比如有些任务很明显使用生成代码来解决会更好，但是其实模型仍然会选择自己用文字推理，然后导致出错。研究团队还发现，即使通过调整提示词引导模型生成代码来解决任务，生成的代码也会经常包含无效的代码，未能充分利用符号计算。最新的推理模型 o1、o3 还有 DeepSeek-R1 也被发现存在这些问题。后来，研究团队把所发现的现有 Code-Interpreter 的问题总结成论文，并以《在代码执行与文本推理之间引导大型语言模型》（Steering Large Language Models between Code Execution and Textual Reasoning）为题发表在 2025 国际学习表征会议（ICLR，International Conference on Learning Representations）[3]。

　　而为了解决这些不足，研究团队尝试训练模型来提高自如运用代码执行器的能力。其中涉及到两个方向：一是额外训练一个辅助的模型来指导主模型的生成，好处是辅助模型的尺寸和训练难度都要小很多，而且可以通过用最强的主模型来探测现在能达到的最强能力。二是直接微调单个模型来兼顾纯文字推理以及符号计算的能力，这对基础模型的能力要求比较高。研究团队一开始尝试的是第一种方法，训练出来的 CodeSteer[4] 能够让 GPT-4o 在 8B 模型的指导下，充分利用符号计算来解决很多推理规划问题，甚至在很多任务上比 o1 和 DeepSeek-R1 的表现还好。第二种方法就是研究团队在此次 R1-Code-Interpreter 工作中所探究的。

　　陈勇超认为，未来的大模型做推理和规划任务的时候，应该在三种方法模态直接自由选择和衔接：1）自己直接生成答案，大模型文字推理或者机器人里面 VLA 生成控制信号；2）调用外部的工具（tool use）；3）生成代码来创造合适的工具。后续，他计划探索一些方法把这三种模式都结合起来。同时，也打算在具体实际的应用任务上达到更好的效果，来验证想法的可行性。

　　06月28日,国家医保局印发《康复类医疗服务价格项目立项指南（试行）》,

　　这次全县城镇化工作会议是继市、县“两会”之后召开的一次十分重要的会议。会议的主要任务是深入贯彻省、市城镇化工作会议精神，回顾总结去年我县的城镇化工作，分析查找存在的问题，明确今年加快城镇化的发展思路、工作重点和保障措施，动员全县上下进一步统一思想，振奋精神，加大力度，真抓实干，开拓创新，推动我县城镇化工作再上新台阶。可以说，这次会议不仅是一次推动我县城镇化工作再掀高潮的动员会、鼓劲会，更是一次加压会、誓师会。随后，方书记还要作重要讲话。下面，根据县委、县政府研究的意见，我讲四个方面的问题。

　　忽然，一声微弱的传来，那是一个白发苍苍的老人，肚子被剖开了，血水与肠子流了一地，竟然还没有断气。

　　时事2：AG线日,台湾多地降雪民众兴奋追雪留影,众人惊异，这个小家伙还真机灵，看出诸强不善，唯有手拈一根雪羽的老者还算维护，这样开口，明显是想要他主持公道。,博宝网官网app,至尊游戏厅官方下载,168体育押注平台。

　　这头生灵眸孔冰冷，并无一语，盯住小不点展开绝杀，它的速度太快了，宛若一道闪电，而且力大无穷，极度恐怖。

　　06月28日,湖南一高校舞龙巡游迎“龙抬头” 把农耕文化融入教育教学,各种宝术冲向天空，闪烁符文，击裂石峰，乱石迸射，尘沙飞扬，这里的天空灰蒙蒙一片，洒落到灵湖，到处都是土石。第一百六十二章咬耳朵,ob官网最新,黄金城捕鱼,皇冠体育365官。

　　06月28日,江西省十四届人大二次会议在南昌开幕,“两年前的那场大战，可真是惊心动魄啊，真不知道都来了什么样的凶禽巨兽，有一次深夜我曾见到一只高耸入云的人形生物拎着一条黑铁棍，一步迈过了数道山岭，只是没有看清其真容。”石飞蛟叹道，至今想来还毛骨悚然。,亚星可靠吗,体育平台比分网,万博manxbetx。

　　“是真的。”小不点扑闪着大眼，认真的说道，可是怎么看都像是一个漂亮与可爱的瓷娃娃，不怎么让人信服。

　　新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证山东省互联网传媒集团主办联系电话违法不良信息举报电话

上一篇：华体会- 华体会体育官网- 体育APP下载开yunapp下载官网

下一篇：华体会- 华体会体育官网- 体育APP下载平台app

联系我们

华体会体育官网

电话：400-123-4567
传真：+86-123-4567
邮箱：admin@youweb.com
QQ：1234567890
地址：华体会体育官网永久网址【363050.com】

姓名

邮箱

电话

内容

提交

友情链接:

TOP