研究人员说我们需要更好的基准来构建更多有用的AI助手_中国经济现状-中国经济问题-中国经济-中国产业经济网

对话式AI的承诺是，与几乎任何其他形式的技术不同，您要做的就是交谈。自然语言是最自然，最民主的交流形式。毕竟，人类天生具有学习语音的能力，但有些人从不学会阅读或使用图形用户界面。这就是为什么Element AI，斯坦福大学和CIFAR的AI研究人员建议学术研究人员采取步骤来创建更有用的AI形式，与人们对话以完成工作，包括消除现有基准。

“由于许多当前的[语言用户界面]基准测试都缺乏生态有效性，因此我们建议研究人员不要针对这些基准启动增量研究项目。当尚不清楚基准特定的改进是否可以转移到实际的LUI用例时，它们就没有什么意义。相反，我们建议社区关注概念研究思想，这些思想研究思想可以推广到目前的数据集之外。”

他们说，创建语言用户界面(LUI)的理想方法是确定一组将从中受益的人，收集对话和相应的程序或动作，训练模型，然后向用户征求反馈。

上周在预印本存储库arXiv上发表了题为“对语言用户界面进行生态上有效的研究”的论文，并促进了实用语言模型的创建，这些模型可以帮助人们的职业或个人生活。它确定了现有流行基准中的常见缺点，例如SQuAD(不专注于与目标用户合作)和CLEVR(使用综合语言)。

作者说，学术研究人员可以替代的语音界面挑战示例包括可以与公民讨论政府数据或Minecraft等热门游戏基准的AI助手。去年，Facebook AI Research发布了数据和代码，以鼓励Minecraft助手的开发。

一些政府已经探索了使用对话式AI来指导公民度过人生中重要时刻或导航政府服务的过程。计算社区联合会(CCC)建议开发终身智能助手，以完成诸如帮助人们完成日常任务或帮助他们适应新工作或业余爱好等重大变化的事情。

该论文的作者专注于语言用户界面，例如可以充当个人助手或与家用机器人进行交互的语音界面的AI，但是他们区分了LUI和针对特定事件(例如Alexa奖挑战)创建的AI模型。奖励能够与人进行10分钟对话的漫游器。

研究人员确定了LUI基准中的许多问题特征，例如在与语言模型的用例或合成语言的使用不直接相关的环境中使用人工任务。

有些人将使用Amazon Mechanical Turk员工(“鬼工”)作为AI研究人员越来越依赖的人力资源，而AI研究人员似乎越来越依赖它。作者批评这是一种不良做法，因为这些工人没有被视为LUI的潜在用户。

本文提到的无法与目标人群一起工作的一个例子是视觉问题解答(VQA)任务，该任务训练AI系统以识别对象和单词。VQA数据集由人们认为可能会绊倒家用机器人的问题组成。它收集了来自Mechanical Turk员工的问题，但不包括来自盲人或视力障碍者的问题，即使数据集的一部分是为了帮助视力障碍者。研究人员得出结论：“实际上将从语言用户界面中受益的人群很少参与数据收集工作。”

该VizWiz VQA项目发现，视障人士可能有不同的提问，往往要求以“是什么”开始，或需要读取文本的能力问题。LUI与为键入的SMS或聊天交换而创建的会话式AI接口不同，因为人们在说话时会说出与输入相反的字词。脚本式交流还可能导致以下现象：人类学习语音界面或AI助手需要听到的确切单词才能进行操作，而不是使用自己的自然语言，这首先破坏了创建自然语言模型的目的。

一些基准还缺乏多回合对话，作者也批评了这一点。多项研究发现，使用AI来完成具体任务的人对多回合对话，提出多个问题或进行对话的能力反应最好，而不是发出一系列单独的命令。

在其他有关语言模型的最新消息中，微软研究人员本周表示，他们为医疗保健专业人员创建了高级NLP，上个月，研究人员开发了一种方法，用于识别来自亚马逊，苹果和谷歌等主要公司的云AI产品中的错误。