加入收藏 | 设为首页 | 会员中心 | 我要投稿 92站长网 (https://www.92zz.com.cn/)- 语音技术、视频终端、数据开发、人脸识别、智能机器人!
当前位置: 首页 > 站长资讯 > 动态 > 正文

全方位的中文大语言模型评测来啦!香港中文大学研究团队发布

发布时间:2023-10-17 10:00:38 所属栏目:动态 来源:互联网
导读:   在 2023 年, ChatGPT 的一个发布引来了全世界对于大型通用语言的竞技比赛。2023年初以来,来自工业界和研究机构的各种大语言模型层出不穷,特别值得一提的是,中文大语言模型也如雨后
  在 2023 年, ChatGPT 的一个发布引来了全世界对于大型通用语言的竞技比赛。2023年初以来,来自工业界和研究机构的各种大语言模型层出不穷,特别值得一提的是,中文大语言模型也如雨后春笋般,在过去的半年里不断涌现。
 
  与此同时,和如何训练大语言模型相比,另一些核心的难题同时出现在学术界和产业界的面前:究竟应该如何理解和评价中文大语言模型的能力?在中文和英文模型的理解和评测上又应该有什么联系与区别?
 
  想要准确全面地理解和评测中文的语言模型,这些问题亟须解决:
 
  评测数据与指标的选择需要更加全面。传统的自动评测工作往往基于数量有限的考试题或部分开源数据集,采用的评测指标大多只关注广义的准确率。数据的选择不够丰富多样,指标上也忽视了鲁棒性、公平性等在模型应用中很重要的其他维度。而人工评测模型因高昂的人力成本,在数据与指标的选择上更受制约。
 
  不一致的评测过程容易损害评测结果的可比性。提示(prompt)模板、超参数、数据预处理等环节都会对模型最终的结果有直接影响。
 
  难以避免的数据污染(data contamination)风险让评测对比难上加难。随着训练语料不断扩大,模型在训练过程中见过考试题和开源数据集的可能性也不断升高。
 
  针对这些挑战,有研究团队已经给出了自己的探索与方案。
 
  近日,EMNLP 2023的论文结果公布。来自香港中文大学计算机科学与工程学系的王历伟助理教授研究团队的CLEVA: Chinese Language Models EVAluation Platform 被EMNLP 2023 System Demonstrations 录取。
 
  据CLEVA项目负责人王历伟教授介绍,CLEVA是其带领的港中文语言和视觉实验室(CUHK LaVi Lab)联合上海人工智能实验室合作研究的全面的中文大语言模型评测方法。
 
  值得一提的是,CLEVA目前已经被全球前沿的英文大语言模型评测体系-斯坦福大学的HELM 评测体系认可和接入!
 
  目前,用户已经可以通过斯坦福的HELM评测平台来调用和测试CLEVA的中文大模型评测。“能得到国际前沿大模型评测研究团队的认可,是对我们研究工作的极大鼓励。” LaVi实验室的同学自豪地说。
 
  如何进行CLEVA 评测?
 
  CLEVA已经评测了23个中文大模型,还会持续用更多的数据和指标,评测更多的模型。对大模型评测感兴趣的研究团队,可以通过CLEVA网站提交和对接评测后续的进展。详细的教程请参考CLEVA官方网页或GitHub repo。
 
  对于CLEVA已经具有的评测需求,CLEVA还提供了清晰好用的网络界面进行操作。用户可以用可交互的可视化工具,仔细对比不同模型在不同任务和评测指标上的差异。在申请权限后,用户可以让自己感兴趣的模型通过网络接口跟CLEVA进行交互,只需按几次鼠标即可开始一次全面评测,十分便利。
 
  “团队很努力地做了很久的CLEVA,不仅仅是研究上的理解加深,细节上也在不断打磨,不断优化。在此过程中,非常感谢上海人工智能实验室的合作与支持。” CLEVA 团队在提起打造这个研究工作的时候,能感觉出来研究积累的力量。
 
  笔者也深入浅出地了解到,近期以来学术界和工业界对于模型算法的能力复杂性的评测与其所关注的角度也有一些令人意想不到的区别与联系。
 
  王历伟教授,在2020年加入香港中文大学任助理教授之前,已经在北美有数年的工业界工作经验。他也曾作为商汤科技大语言模型“商量SenseChat”的技术总负责人,带领团队于2023年4月,发布最早的国内中文大语言模型的代表之一,“商量SenseChat”。
 
  当他提起学术界和工业界关注大模型评测的角度的区别和联系的时候,他说道:“工业界的大模型会不仅仅关注大模型的基本通用能力,还会关注大模型如何服务垂直场景和垂直产业,所以评测能力会更加在场景中具象化;而学校或者研究机构则更适合从基本的模型理解能力、认知能力、通用智能等角度来理解和评测大模型。”
 
  针对大模型评测领域的许多开放问题,王历伟教授提到,短期内他的港中文研究团队会持续关注的几点:
 
  “第一,就是进一步优化解决数据污染的办法。CLEVA 通过增加新数据和采样的方式减少数据污染的可能。但是未来应该可以通过新的数据生成方式来构造更多的评测数据。”
 
  “第二,就是目前评测工作还存在很多需要提高的方面,比如应该如何定义推理(reasoning)?应该如何评价推理的过程,而不仅仅是简单地看推理的结果?再比如,针对什么是智能的理解问题上,应该如何跨学科地合作,来设计新的问题,来检验大模型的智能。当然还有很多方面,比如AI 安全问题,如何评价幻觉问题,等等。”
 
  “第三,多模态场景下的涌现能力和纯语言学习下有哪些不同?我们有十年左右的vision+language 研究经验和积累。CUHK LaVi Lab在不断加强大语言模型和多模态大模型的各个课题研究的同时,也会不断探索多模态场景下的大模型的能力认知和评测。”
 
  “对大模型能力认知和评测的研究本身,也一定会帮助研究团队理解和加强持续提高大模型的能力,从而更好地服务于实际应用。
 

(编辑:92站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章