Facebook让聊天机器人学会了谈判

发布时间：2017-06-18 08:42:03 所属栏目：行业来源：techweb

导读：目前人们对聊天机器人的认识还在调戏微软小冰的阶段，可以明显感觉到小冰不是很关心上下文之间的关联。

副标题[/!--empirenews.page--]

目前人们对聊天机器人的认识还在调戏微软小冰的阶段，可以明显感觉到小冰不是很关心上下文之间的关联。

监督强化学习两不误：Facebook让聊天机器人学会谈判目前人们对聊天机器人的认识还在调戏微软小冰的阶段，可以明显感觉到小冰不是很关心上下文之间的关联。而且在我们的观念里，聊天机器人也没办法真的理解人类所说的话，没办法跟人类讨论事情、明确地达到什么共同目标。

不过，Facebook的人工智能研究机构FAIR刚刚开源并公开发表的聊天机器人就开始拥有了跟人类进行协商谈判、进行讨价还价的能力。通过监督学习+强化学习，这个聊天机器人不仅能理解字词和语义的对应关系，还能针对自己的目标制定策略，跟别人进行协商讨论达成一致。

生活的每一天里，我们一睁眼就要不停地跟别人协商事情。要么是讨论看哪个电视台，要么是说服家里小孩吃蔬菜，或者买东西的时候讨价还价。这几件事的共同点是，都需要复杂的交流和讲理能力，而这些能力很难在计算机里见到。

发展到现在，聊天机器人方面的研究已经可以形成聊天系统，它能进行简短对话，能完成订餐馆这样的简单任务。但是让机器人跟人进行有意义的对话还是很难的，因为这需要机器人把它对对话的理解和它对世界的知识进行组合，然后再生成一句能帮它达到自己的目标的句子。

今天，Facebook FAIR的研究员们开源并公开发表的聊天机器人有了一项新能力，这个新能力就是协商。

有着不同目标的人类之间会产生冲突，然后通过协商达成一种大家共同认可的妥协，现在研究员们证明了聊天机器人也可以做到这些。具有不同目标的聊天机器人（具体实现是端到端训练的神经网络）在一段从头到尾的协商中，可以跟其它聊天机器人或者人类一起做出共同的决定或者达到共同的目标。

任务：多种类讨价还价

FAIR的研究员们研究了一种多种类讨价还价任务下的协商任务。给两个智能体展示同一组物体（比如2本书，1个帽子，3个篮球），为了能把东西分给它们，就需要教它们协商自己分到的数目。

每个智能体都有自己的价值函数，它代表了智能体对每种物体的关心程度如何（比如在智能体1看来每个篮球值3分）。然后，就像生活中一样，每个智能体都没法确切知道别的智能体的价值函数，只能从对话中进行推测（如果对方说他想要篮球，那在他看来篮球的分值肯定比较高）。

FAIR的研究员们设计了很多类似这样需要协商的情境，而且始终不会让两个智能体同时达成自己最满意的分法。以及，如果拒绝协商（或者如果10轮对话以后还没达成一致），那么两个智能体都会得0分。简单说，进行协商是关键，如果还协商到了一个好的结果那就得分更高。

对话推演（Dialog Rollouts）

协商是一个语言性和讲理性的综合问题，其中的参与者要先形成自己的意图，还要能用语言表达出来。合作和对抗的元素都会出现在这些对话中，这就需要智能体们理解并形成长期计划，然后据此进行表达以便达到自己的目标。

为了建立这种有长期计划能力的对话智能体，FAIR研究员们有一个核心的技术创新，他们把这个点子叫做“对话推演”（dialog rollouts）。

如果聊天机器人可以建立对谈者的虚拟模型然后“提前考虑”，或者预感到未来对话的可能方向，它们就可以选择避开没有信息量的、引发困惑的或者糟糕的来回讨论，转而向着成功一些的方向去。

具体来说，FAIR开发出了对话推演这样的新颖技术，一个使用这种技术的智能体可以一直模拟未来的对话到结尾，这样它就可以选出可以在未来带来最高收益的话语。

类似的方法已经在游戏环境中得到过应用，但是用来解决语言问题还是第一次，因为可选择的行动数目要多多了。为了提高效率，研究员们首先生成了一组数量不多的话语可供选择，然后为了估计这些话语是否成功，他们对其中的每一条都反复模拟完整的后续对话。这个模型的预测准确率足够高，也要归功于这项技术从以下几个方面显著提升了协商水平：

协商时候更努力：这些新的智能体能跟人类进行更长的对话，代价是对价码的接受会慢一点。相比人类有时候不达成一致就走掉了，这个实验中的模型会一直协商到取得成功的结果为止。
智能化的应对：有时候会出现这样的状况，智能体一开始会假装对没什么价值的东西感兴趣，就为了后来可以放弃它们来表现出自己在“妥协”，这确实是一个人类经常使用的谈判技巧。这种行为可不是研究员们设计给它们的，而是智能体在想办法达成目标的过程中自己发现的谈判方法。
产生新颖的句子：尽管神经网络模型可以很轻松地从训练数据中重复一些句子，这项研究也展示出在有必要的时候模型也能自己生成一些句子。

建立及评价一个协商数据集

为了能够训练协商智能体以及做大规模量化评估，FAIR团队用众包的方法建立了一个人和人之间协商对话的数据集。其中参与的人看到了一组东西和每个东西的价值，然后要商量他们之间怎么分这些东西。然后研究员们就用这些对话训练出了一个能模仿人类行为进行协商的循环神经网络（RNN）。在对话中的任何时刻，这个模型都会猜测人类在这种状况下会说什么。

在以前目标导向的对话研究中，模型都是完全由人类的语言和决定进行“端到端”训练得到的，这意味着这种方法可以方便地用在其它任务中。

为了让模型不仅仅停留在对人类的模仿，FAIR的研究员们接下来让模型转而向完成协商的目标发展。为了让模型达到目标，研究员们让模型自己跟自己进行了上千轮协商，并且用到了强化学习在得到好的结果的时候奖励模型。为了避免让算法生成自己的一套语言，模型同时也要训练生成类人的语言。

为了评价这些协商智能体，FAIR让它们上网跟人类聊天。之前的大多数研究都在避免跟真人聊天，或者研究的是难度更低的领域，这都是因为对各种各种的人类语言进行回答需要训练复杂的模型。

（编辑：186手机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页