OpenCompass

OpenCompass

更新日期:02-07

OpenCompass是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。

标签:OpenCompass

OpenCompass 产品介绍

OpenCompass是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。
OpenCompass 的主要特点包括开源可复现、全面的能力维度、丰富的模型支持、分布式高效评测、多样化评测范式以及灵活化拓展。 基于高质量、多层次的能力体系和工具链,OpenCompass 创新了多项能力评测方法,并构建了一套高质量的中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,能够实现对大模型真实能力的全面诊断。

CompassRank

CompassRank 作为 OpenCompass 中各类榜单的承载平台,CompassRank 不受任何商业利益干扰,保持中立性。同时,依托 CompassKit 工具链体系中的各类评测手段,保证了 CompassRank 的客观性。CompassRank 不仅覆盖多领域、多任务下的模型性能,还将定期更新,提供动态的行业洞察。与此同时,OpenCompass 团队将在榜单中提供专业解读,进一步帮助从业者理解技术深意,优化模型选择。 [2]

CompassHub

CompassHub 是面向大模型能力评测开源开放的基准社区,提供面向不同能力维度和行业场景的评测基准。OpenCompass 欢迎评测用户在 CompassHub 上传各自构建的高质量评测基准,发布相应的性能榜单,汇聚社区力量助力大模型社区整体快速发展。 

CompassKit

OpenCompass 对广受欢迎的初代评测工具库进行了全面优化,推出大模型评测全栈工具链 CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。 
CompassKit 中包含:
OpenCompass 升级版大语言模型评测工具:提供全面的大模型评测功能,包括广泛模型支持、高效评测速度、主观评测能力、数据污染检查和丰富的长文本评测能力。 
VLMEvalKit 多模态大模型评测工具:一站式多模态评测工具,支持主流多模态模型和数据集,助力社区比较不同多模态模型在各种任务上的性能。 
Code-Evaluator 代码评测服务工具:提供基于 docker 的统一编程语言评测环境,确保代码能力评测的稳定性和可复现性。 
MixtralKit MoE 模型入门工具:为 MoE 模型初学者提供学习资料、模型架构解析、推理与评测教程等入门工具。
 

替代工具