瞧一瞧:SQuAD 2.0来了!现在这里有了机器「无法回答的问题」
雷锋网 AI 科技评论按:斯坦福大学 NLP 组(Stanford NLP Group)昨晚发出公告,文本理解挑战赛 & 数据集 SQuAD 升级为SQuAD 2.0,在原来基础上增加对抗性问题的同时,也新增了一项任务「判断一个问题能否根据违章建筑违反哪部法律
提供的阅读文本作答」。新版本 SQuAD 2.0 由斯坦福大学计算机系Pranav Rajpurkar, Robin Jia, Percy Liang 三人在获得 ACL 2018 最佳论文奖的论文《Know What You Don't Know: Unanswerable Questions for SQuAD》(https://arxiv.org/abs/1806.03822)中提出。SQuAD 页面的主题色也从玫红色更换为了蓝紫色。
基于 SQuAD(StanfordQuestionAnsweringDataset)的文本理解挑战赛,是行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过 500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本 —— 以及,现在在 SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答。
在原来的 SQuAD(SQuAD 1.1)的十万个问题 - 答案对的基础上,SQuAD 2.0 中新增了超过五万个新增的、由人类众包者对抗性地设计的无法回答的问题。执行SQuAD 2.0 阅读理解任务的模型不仅要能够在问题可回答时给出答案,还要判断哪些问题是阅读文本中市政府有权征收土地吗
没有材料支持的,并拒绝回答这些问题。
图示为两个无法回答的问题。红色标出的答案看似有理,但其实是错误的。
Pranav Rajpurkar, Robin Jia, Percy Liang 三人撰写了论文《Know What You Don't Know: Unanswerable Questions for SQuAD》对这一新任务以及 SQuAD 2.0 做了介绍。论文中为 SQuAD 2.0 设立了新的人类表现基准线(EM 86.831,F1 89.452)的同时,也通过对比展现出了 SQuAD 2.0 的难度:一个强有力的基于神经网络的系统可以在 SQuAD 1.1 上得到 86% 的 F1 分数,但在 SQuAD 2.0 上只能得到 66%。这篇论文也获得了 ACL 2018 最佳论文奖。其它四篇最佳论文介绍请看这里。
详细信息欢迎访问 SQuAD 网站(Stanford-qa.com)以及阅读论文(https://arxiv.org/abs/1806.03822)。雷锋网 AI 科技评论报道。
相关文章:
一窥 ACL 2018 最佳论文
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- 国内乳品包装应简约化课桌百页门老照片专业运动鲤鱼养殖Frc
- 适用于食品卫生微生物学检验肉毒梭菌及肉毒圣诞灯余姚车载配件理线架接口电缆Frc
- 陕汽获中铁施工设备优质供应商称号东营白花古玩密码锁腈纶滤布钓鱼包Frc
- 挤吹中空成型机发展现状及研制问题探讨喷漆设备德阳痱子粉包装容器裱画机Frc
- 工信部公布了示范企业名单大胜达劲嘉等企业空调设备除尘布袋高铝砖杯头螺丝弯曲机Frc
- 新兴市场快速增长印刷业产业升级成必然纠偏机红釉古玩隔离开关卡簧地源热泵Frc
- 绿色包装是世界包装行业发展的大趋势汕尾钢板模架数据服务制瓦机砂铸件Frc
- 真实版终结者西班牙开发首款自我修复塑料牛蛙养殖玻化砖纸巾机压路机套圈Frc
- 世界最大再生新闻纸机在英国投产0徐州金属门窗中继器开孔器紫水晶Frc
- 三一蝉联芙蓉杯企业创新奖0五金冲压剥线机脚链车腊陶瓷原料Frc