Task-Oriented Dialog System

面向任务的对话(Task-oriented Dialog)主要关注在某些特定的领域,用户带有目的的发起的会话。本文将从一个具体的数据集出发,结合基于此数据集设计的不同的系统来具体的分析对于此类任务的the-State-of-Art。

数据集 In-Car DataSet

数据集 In-Car DataSet,是用户和车载助手对于日程安排,天气和导航三个领域进行的多轮对话,下面是一个对话例子:



这个数据集中总共有3031次对话,具体信息如下:



其中针对3个不同的领域,日程安排,天气和导航,具有不同的槽类型以及槽值:



特别地,此数据中认为后台已经有一个知识库(Knowledge Base)。即用户提出请求后,系统会在这个知识库中找到匹配的答案,最终生成相应的答案。下面是两个基于此数据集的对话系统。

Key Value Retrieval Networks [1]

这个模型是针对此数据集提出的 baseline,将End-to-End模型信息检索模型结合。



  • Encoder - LSTM
    输入:历史对话,\((u_1, s_1, …, s_{i-1}, u_i)\)
    Hidden State: \(h_i\)

  • Decoder
    输入:\(h_i\)
    Hidden State: \(\tilde{h_{t}}\)
    输出:\(y_1, y_2, …, y_n\)
    其中,在decoder的过程中,结合了Attention机制,来给知识库中不同的KB entry给予不同的权重。

  • Attention
    在知识库(Knowledege)中,每个entry表示为(subject, relation, objective)。在模型中,将每个entry表示为subjectrelation的embedding的和\(k_j\)。具体的attention计算过程如下:
    \[u_i^t = w^T tanh(W_2 tanh(W_1[h_i, \tilde{h_{t}}]))\] \[a_i^t = softmax(u_i^t)\]\[\tilde{h_{t}}^{,} = a_i^t h_i\]\[u_j^t = r^T tanh(W_2 tanh(W_1[k_j, \tilde{h_{t}}]))\]\[o_t = U[\tilde{h_{t}}, \tilde{h_{t}}^{,}] + \tilde{v_{t}}\]\[y_t = Softmax(o_t)\]
    其中,\(\tilde{v_t}\)维度为|V| + n,|V|为词典长度,n表示为指知识库中entry的个数。需要特别注意的是,本文通过NER将知识库中具体的“槽值”替换为“槽类型”(如,“5pm”替换为“meeting_time”),这样就使得词典的长度大大减少。\(\tilde{v_t}\)中与知识库中相关的表示为\(u_j^t\),其与为0,即加重网络在知识库上的权重。总的来说,我们可以将\(v_t\)看做是分别在原始词典和知识库上的概率分布,通过两者来确定最终的输出。最终的实验结果如下:



Mem2Seq [2]

这篇文章主要结合End-to-End memory network和Pointer network的思想。其中MemNN是将memory和question进行embedding,然后计算两者的匹配度;接着对memory进行另一种embedding之后,以匹配度作为权重得到输出;再结合question,通过softmax得到最终的answer。而Pointer network没有关注在输出,而是通过计算encoder和decoder的匹配度之后,直接根据其softmax值指向输入的某个部分,从输入序列里“提取”一些元素来输出。



  • Encoder - Multi-hop MemNN
    输入:U = [B; X],其中X = {x1, …, xn, \$} 为对话历史,包括时间信息和用户信息(如“hello”表示为“hello t1 \$u”),\$表示结束;B = {b1, …, bl}表示知识库。
    输出:\(o_k\)

    \[ p_k^i = Softmax(q_k)^T C_i^k\] \[o_k = \sum p_k C_{k+1}\] \[q_{k+1} = q_k + o_k\]

    一般的MemNN过程,其中\(C_i\)为Encoder的memory。

  • Decoder - GRU + MemNN
    输入:\(o_k\)
    HiddenState:\(h_t\)
    输出:\(P_{vocab}(\hat{y_t}), P_{ptr}\)

    \[P_{vocab}(\hat{y_t}) = Softmax(W_1[h_t; o^1])\] \[P_{ptr} = p_t^K \]

    其中,\(P_{vocab}(\hat{y_t})\)结合第一个hop的输出得到输出词在词典上的分布,\(P_{ptr}\)是Decoder中MemNN的最后一个hop的\(p_t^K\)表示(此处K=3),可以看做是在对话历史和知识库上的分布。当生成的词为“\$”时,则从词典中选择词语作为输出,否则则在对话历史或者知识库中选择词作为输出。最终的实验结果如下:




    下面是一个具体的生成案例:


 
 
 
 

[1] Key-Value Retrieval Networks for Task-Oriented Dialogue.
[2] Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems.