OpenCompass官网地址_OpenCompass工具下载_OpenCompass使用教程 -<必要的>AI工具站

OpenCompass 产品介绍

OpenCompass是由上海人工智能实验室（上海AI实验室）于2023年8月正式推出的大模型开放评测体系，通过完整开源可复现的评测框架，支持大语言模型、多模态模型各类模型的一站式评测，并定期公布评测结果榜单。
OpenCompass 的主要特点包括开源可复现、全面的能力维度、丰富的模型支持、分布式高效评测、多样化评测范式以及灵活化拓展。基于高质量、多层次的能力体系和工具链，OpenCompass 创新了多项能力评测方法，并构建了一套高质量的中英文双语评测基准，涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面，能够实现对大模型真实能力的全面诊断。

CompassRank

CompassRank 作为 OpenCompass 中各类榜单的承载平台，CompassRank 不受任何商业利益干扰，保持中立性。同时，依托 CompassKit 工具链体系中的各类评测手段，保证了 CompassRank 的客观性。CompassRank 不仅覆盖多领域、多任务下的模型性能，还将定期更新，提供动态的行业洞察。与此同时，OpenCompass 团队将在榜单中提供专业解读，进一步帮助从业者理解技术深意，优化模型选择。^[2]

CompassHub

CompassHub 是面向大模型能力评测开源开放的基准社区，提供面向不同能力维度和行业场景的评测基准。OpenCompass 欢迎评测用户在 CompassHub 上传各自构建的高质量评测基准，发布相应的性能榜单，汇聚社区力量助力大模型社区整体快速发展。

CompassKit

OpenCompass 对广受欢迎的初代评测工具库进行了全面优化，推出大模型评测全栈工具链 CompassKit，不仅提供完整的开源可复现评测代码，更提供了丰富的模型支持和高效的分布式评测策略。
CompassKit 中包含：
OpenCompass 升级版大语言模型评测工具：提供全面的大模型评测功能，包括广泛模型支持、高效评测速度、主观评测能力、数据污染检查和丰富的长文本评测能力。
VLMEvalKit 多模态大模型评测工具：一站式多模态评测工具，支持主流多模态模型和数据集，助力社区比较不同多模态模型在各种任务上的性能。
Code-Evaluator 代码评测服务工具：提供基于 docker 的统一编程语言评测环境，确保代码能力评测的稳定性和可复现性。
MixtralKit MoE 模型入门工具：为 MoE 模型初学者提供学习资料、模型架构解析、推理与评测教程等入门工具。

OpenCompass

OpenCompass 产品介绍

CompassRank

CompassHub

CompassKit

替代工具

热门工具

猜你喜欢