Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型
Skywork-SWE-32B是什么
Skywork-SWE-32B是昆仑万维推出的开源的32B规模的软件工程(SWE)自主代码智能体基座模型。模型专注于软件工程任务,具备强大的仓库级代码修复能力,能在多轮交互和长文本处理的复杂场景中表现出色。通过构建超过1万个可验证的GitHub仓库任务实例,打造了目前最大规模的可验证GitHub仓库级代码修复的数据集,在SWE-bench Verified基准测试中取得了38.0%的pass@1准确率,刷新了同参数规模模型的最佳成绩。引入测试时扩展技术后,准确率进一步提升至47.0%,显著超越了现有32B以下的开源模型,接近甚至超越部分闭源模型的性能。

Skywork-SWE-32B的主要功能
- 仓库级代码修复:能定位GitHub仓库中的代码问题(如Bug),生成修复代码,验证修复效果,完成从问题理解到解决的全流程闭环。
- 多轮交互能力:支持超过50轮的交互,模拟真实开发场景中的多次调试与修复过程,逐步解决问题。
- Long Text Processing:能处理超过32k tokens的长文本,满足复杂代码文件和多文件依赖的处理需求。
- 自动化验证:通过构建专用的运行时环境和单元测试验证机制,确保生成的修复代码在实际运行环境中有效。
- Data-Driven Performance Improvement:基于大规模(超过1万个实例)和高质量的可验证数据集进行训练,随着数据量增加,模型性能持续提升,验证了数据缩放定律在软件工程任务中的适用性。
Skywork-SWE-32B的项目地址
- HuggingFace Model Library:https://huggingface.co/Skywork/Skywork-SWE-32B
- Technical Papers:https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf
Skywork-SWE-32B的技术优势
- 大规模高质量数据集
- 数据规模与多样性:Skywork-SWE-32B基于超过1万个可验证的GitHub仓库任务实例进行训练,覆盖2,531个不同的GitHub仓库,是目前最大规模的可验证SWE数据集。大规模数据集为模型提供了丰富的训练样本,能学习到更多样的代码修复模式。
- 自动化数据收集与验证:通过三阶段自动化流程(数据采集与预筛选、基于执行的验证、智能体轨迹生成),确保数据的高质量和可验证性。每个任务实例都配备了专用的Docker运行时环境镜像,支持自动化单元测试验证,确保生成的修复代码在实际运行环境中有效。
- 强大的模型性能
- 高准确率:在SWE-bench Verified基准测试中,Skywork-SWE-32B取得了38.0%的pass@1准确率,刷新了同参数规模模型的最佳成绩。引入测试时扩展技术(TTS)后,准确率进一步提升至47.0%,显著超越了现有32B以下的开源模型,接近甚至超越部分闭源模型的性能。
- 数据缩放定律:通过系统性验证,发现随着训练数据规模的增加,模型性能持续提升,验证了数据缩放定律在软件工程任务中的适用性。随着数据量的增加,模型的性能可以进一步提升,为未来的扩展提供了理论支持。
Skywork-SWE-32B的适用人群
- 软件开发者:开发者可以用Skywork-SWE-32B快速定位和修复代码中的问题,减少手动调试的时间和精力。
- 软件测试工程师:测试工程师可以用Skywork-SWE-32B自动化执行单元测试,验证生成的修复代码是否有效,提高测试效率。
- project management:通过自动化修复和优化代码,减少项目中的技术债务,提高项目的交付速度和质量。
- Academic researchers:研究人员可以用Skywork-SWE-32B作为实验平台,探索大语言模型在软件工程任务中的应用,验证数据缩放定律等理论。
- 技术经理和架构师:技术经理和架构师可以用Skywork-SWE-32B的性能数据和技术优势,做出更明智的技术决策。
© Copyright notes
The copyright of the article belongs to the author, please do not reprint without permission.
Related posts
No comments...