下载此文档

中文大模型基准测评2023年度报告—AI跃迁的2023，中文大模型进展评估-SuperCLUE团队.ppt

文档分类：管理/人力资源 | 页数：约49页举报非法文档有奖

1/49

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/49 下载此文档

文档列表 文档介绍

该【中文大模型基准测评2023年度报告—AI跃迁的2023，中文大模型进展评估-SuperCLUE团队】是由【youyicheng】上传分享，文档一共【49】页，该文档可以免费在线阅读，需要了解更多关于【中文大模型基准测评2023年度报告—AI跃迁的2023，中文大模型进展评估-SuperCLUE团队】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。中文大模型基准测评2023年度报告—AI跃迁的2023,??2023年大模型关键进展与中文大模型全景图2023年国内大模型发展趋势测评体系、方法说明??中文大模型基准SuperCLUE介绍测评体系、层次、方法说明目录大模型综合测评结果????行业及专项测评基准05四大维度测评分析及示例介绍?四大维度测评结果及示例优秀模型案例介绍06?优秀模型案例介绍第1部分2023全年国内大模型关键进展2023大模型关键进展?自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。SuperCLUE:AI大模型2023年关键进展(关键进展)爆发期??????????Meta开源Llama2??????OpenAI发布多模态GPT-4V百川智能开源Baichuan2腾讯发布混元助手???GPT-4Turbo发布百川智能开源Baichuan-7B清华&??????OpenAI发布GPT4?阿里云开源Qwen-7B???零一万物开源Yi-???小米发布大模型MiLM???—Turbo上海人工智能实验室开源InternLM-20B故事的起点:ChatGPT发布理想汽车发布MindGPT?Google发布多模态大模型Gemini国内迅速形成大模型共识???元象科技开源XVERSE--34B百川Baichuan开源医疗汽车教育金融工业文化/零售/交通行业大模型MindGPT蚂蚁金融大模型轩辕大模型AInno-15B妙笔大模型部分领域银河大模型COSMO-GPT岐黄问道SMoreLrMo....................................国内外大模型发展趋势趋势说明过去六个月国内外代表性模型的发展趋势过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,,每个月都有稳定且巨大的提升,。,在11月份测评结果中显示,在中文能力都有一定的下滑,而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到,国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。说明:趋势展示,选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型,选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献;GPT4成绩,由GPT4-API(7-9月)与GPT4-Turbo(10-12月)组成,用以表现国外最好模型发展。部分国内代表性模型SuperCLUE基准得分(7月-12月)-、(TheChineseLanguageUnderstandingEvaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。第三方测评,不与模型厂商竞争SuperCLUE始终秉持中立、客观的第三方测评理念,不会预设立场或偏向特定的模型方。同时,SuperCLUE采用自动化方式的客观评估,大大降低评测过程中的人为评估的不确定性。0102SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题,SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。测评方式与真实用户体验目标一致不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型的应用场景,真实有效的考察模型生成能力。传统测评与SuperCLUE的区别传统测评SuperCLUEVS同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话选择题主观题+客观题场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。单轮学术不限于学术领域的测评,更为了服务产业界多轮十大维度03不同于传统学术领域的评测,SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计,到行业大模型测评基准的推出,所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距,引导大模型提升技术落地效果,在通用能力的基础上更好的进行垂直领域的应用。保密性低高保密性产业+用户视角测评层级SuperCLUE多层次基准一级(能力)专业与技能语言与知识安全性AI智能体二级(任务)逻辑与推理知识与百科语言理解与抽取上下文对话生成与创作角色扮演传统安全指令攻击任务规划工具使用代码计算代数计算应用题......常识推理条件推理......代码生成代码补全......历史地理阅读理解科学技术信息抽取情境对话生成对话......文学写作文本续写......名人角色职业角色......偏见歧视违法犯罪......目标劫持任务分解自我反思......调用API检索API......Prompt泄漏三级(子任务)..................不安全指令概率统计微积分思维推理决策推理代码注释bug解决文化娱乐摘要生成社会人文情感分析对话记忆任务对话广告文案技术报告虚构角色非人类财产隐私脏话侮辱思维链规划API反面诱导测评体系SuperCLUE中文大模型综合性评测基准SuperCLUE-OPENSuperCLUE-OPT多维度客观题基础(10项任务)SuperCLUE-Agent智能体能力评估任务规划、工具使用SuperCLUE-Safety多轮对抗安全评估四大维度(20+任务)SuperCLUE-Auto中文汽车行业评估中文原生汽车场景多轮开放式问题多层次基础能力可测多轮、主观、开放式完全自动化测评中文(10项任务)长短期记忆中文5000题5000道对抗性安全题目多轮主观题、自动化评测多轮开放式问题学术与专业(50+任务)细粒度评估与反馈通用能力测评专项能力测评行业能力测评构建不同视角、不同范围的多层次评测基准,形成相对完善的评价大模型能力的测评框架对大模型研发机构及应用开发者,为优化模型和场景应用提供了相对全面的视角。

中文大模型基准测评2023年度报告—AI跃迁的2023，中文大模型进展评估-SuperCLUE团队来自淘豆网www.taodocs.com转载请标明出处.