查看原文
其他

【第五届RPA极客挑战赛】赛题一:自动化大语言模型语义理解能力测试

【第五届RPA极客挑战赛】结束后很多未参与的伙伴留言对赛题设置很感兴趣,赛题结合当前爆火的ChatGPT、大语言模型技术热点,共设置“自动化大语言模型语义理解能力测试”“会议摘要小助手:上传会议录制文件,自动总结摘要”“打造可以联网的ChatGPT搜索助手”三道题目。我们将在公众号以文章形式发布详细的赛题说明,供大家参阅。

 赛题1:自动化大语言模型语义理解能力测试(35分)

一、赛题背景描述

在这个赛题中,我们将聚焦于利用机器人流程自动化(RPA)技术来测试大型语言模型的语义理解能力。随着ChatGPT、文心一言、盘古等大语言模型的快速发展带来了新的AI变革。然而,尽管这些模型在处理常见任务方面表现出色,但对于复杂的语义理解仍然存在一些挑战。RPA通过模拟人类用户的行为和交互,可以自动执行各种重复性、繁琐的任务。将RPA与AI能力结合,我们可以设计出一系列有趣且具有挑战性的赛题,以测试语言模型在语义理解方面的表现。

本赛题需要利用RPA技术与大型语言模型进行交互,根据给定的数据集(json格式)对大模型进行语义理解方面的能力考量。参赛队伍需要设计合适的自动化流程,确保语言模型对复杂语义的准确理解和正确处理。

二、赛题目标说明

测试ChatGPT3.5 Turbo的大模型语义理解能力。使用给定的Json格式的测试数据集,编写合适的Prompt提示词,对ChatGPT3.5 Turbo进行测试,并最终获得反馈的结果,将测试结果写到Excel中并上传。

三、流程描述

1.手动从竞赛系统中下载测试数据集;

2.RPA读取数据库(Json格式)

3.RPA打开大模型对话平台(手动登录操作)

4.请提前确定合适的prompt(提示词),RPA自动开始问答并记录答案和判断是否正确;

5.RPA自动将问答过程记录和最终计算的数值结果写入到Excel文件中

提示:该大模型对话平台上下文的context最大2048token,大约1个汉字2个token计算。多轮问答时需要额外处理超出上下文后,重新告知模型你的要求。请在自动化前测试好你的prompt(提示词)

三、赛题要求说明

1. 使用工具:(1)请使用给定的大模型对话平台:https://prompt.aigcopen.com 使用微信扫码登录,在对话页面下进行。

注意:与模型对话需要使用积分,该平台可免费领取积分,测试开发如需要更多积分,请联系现场大赛负责人后台添加积分。

2.  备用平台:在微信中使用ChatGPT服务,微信扫码识别点击并输入手机号加入,使用ChatGPT应用对话即可

四、计分与结果统计

每道问题计1分,大模型回答正确即得分,答错不得分。

结果文件规范(系统中可下载该示例结果文件):

1.结果文件都写入到OpenLLMsBenchmark.xlsx文件,共有两个sheet,第一个sheet命名为ChatGPT,第二个sheet命名为ChatGPT-Result

2.将每道题的问题和模型答案以及正确选项,写入到ChatGPT结果文件中。

3.将总题目数,以及回答正确的题目数,得分数,以及正确率的百分比数据写入到ChatGPT-Result

4.将结果文件与录屏结果上传竞赛系统(手动)

五、赛题数据包下载

在公众号后台回复“数据包1”,可下载本道赛题的数据包。


-  END  -

 报告下载 



佬观点分享
关于RPA、AI、企业数字化转型
(点击文字即可阅读)

吴威 |  UiPath-邹作基 艺赛旗- 唐琦松 | 艺赛旗-胡立军 | 壹沓科技-卞晓瑜 | 弘玑-高煜光 | 弘玑-吴迪 | 凡得科技-海广跃、刘聪
达观数据-陈运文 | 达观数据-陈文彬 | 华为-杨永根 |  华为-杨波 | IBM-孙震
IBM-常旭  | 天行智能-张尧 来也科技 - 褚瑞 | 实在智能-孙林君      
金智维-廖万里 | 金智维-屈文浩 | 阿博茨-余宙 | 阿博茨-刘铁锋 | 英诺森-胡益、徐志宏
云扩-刘春刚  | 云扩-刘林 | 容智-柴亚团 | 容智-黄莹 |  微软-李永智 | 微软-缪玉峰
中关村科金-周长安  | 百炼智能-冯是聪 | 玄一科技 - 杨凯程
德勤-杨玲玲 | 德勤-周麟 | 普华永道-庞胤杰 | 安永咨询-安武 | 中兴云-刘雅琼  
BV百度风投-方鑫 | 致同咨询-任子旭 | 兴业数金-梁一纲 | 毕马威-马金平 
建信金融- 陈文极 | 海通证券-任荣 

行业知识交流分享,结识扩展人脉圈层
公众号后台回复【RPA】
可受邀加入【RPA数字技术】交流群


继续滑动看下一个
RPA全球生态
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存