OpenAI推出代码生成评估基准

2024-08-14 新闻资讯 万阅读 投稿:admin

OpenAI推出代码生成评估基准SWE-bench Verified。该公司在官网博客中提到:"随着我们的系统越来越接近 AGI,我们需要在越来越具有挑战性的任务中对它们进行评估"。这一基准是对现有SWE-bench的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。SWE-bench是一个软件工程评估套件,用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。


帮企客致力于为您提供最新最全的财经资讯,想了解更多行业动态,欢迎关注本站。
声明:易百科所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系。