0%

摘要

最早将深度学习应用到关系抽取的文章出现在COLING 2014上,近年来,基于深度学习的关系抽取呈现出蓬勃发展的趋势。但一直以来,学者们大都致力于解决远程监督标注数据产生的噪声问题,将一些在通用自然语言处理任务中效果很好的方法应用到关系抽取任务上。直到2018年,随着一些新技术和新思路的出现,学者们不再聚焦于传统的去噪任务,逐渐开始针对关系抽取任务的特点进行一些深入分析和大胆尝试。本文从2018年人工智能和自然语言处理的顶级会议中选取了部分相关论文进行简单介绍,希望能够从中发现关系抽取的最新发展方向。

Read more »

监督学习

模型和参数

定义: $x_i \in \Bbb R^d$ 来表示第 $i$ 个训练样本

模型: 如何根据给定的 $x_i$ 做出预测 $\hat y_i$,通常有线性模型:$\hat y_i = \sum_j w_j x_{ij} $,常见的有线性回归模型和 $logistic$ 回归,这里的预测 $\hat y_i$ 可以有不同的解释,我们可以用它来作为回归目标的输出,或者进行 $sigmoid$ 变换得到概率,或者作为排序的指标等

参数:指我们需要学习的东西,在线性模型中,参数指我们的系数 $w$

Read more »

EM算法的理解

考虑这样一个场景,我们需要调查学校里男生和女生的身高分布,假设我们在校园中随机抽取了 $100$ 个男生和 $100$ 个女生,随后让男生和女生分开站,分别统计男生和女生的身高,假设身高的分布是服从高斯分布的,那么通过最大化似然函数,我们可以得到对应高斯分布的均值和方差。
如果我们没有把男生和女生分开,那么这 $200$ 个人混在一起,从中随机抽取一个人,我们甚至不知道他是男生还是女生,换句话说,我们不知道这个样本是属于哪个分布的,这是就无法通过上述方法估计男女生的身高分布的均值和方差,此时我们只有估计出了分布的参数,才能知道某个样本是属于哪个分布的。

Read more »

概率图模型是用图结构来表达随机变量依赖关系的概率模型,用结点表示一个或一组随机变量,用边来表示随机变量之间的概率依赖关系。

信封问题

桌上有两个信封,其中一个信封装有一个红球(价值 $100$ 美元)和一个黑球,另外一个信封装有两个黑球。

你随机选了一个信封并从中随机取出一个球,发现是黑球。
这时你被告知可以有一次换信封重新取球的机会,你会选择换还是不换?

Read more »

机器学习算法的有效性和计算复杂度是敏感于数据的特征表达和维度,数据的降维表示方法,主要包括特征选择和特征提取两种方法。

  • 特征抽取:在已有的特征上,采用特征变换的方法,生成新的特征集合。
  • 特征选择:使用某些方法,从当前特征集合中选择出特征子集。

特征选择

特征选择的处理过程:

Read more »

信息论从另外一个角度解释了许多机器学习的问题

  • 是不确定性的度量,类别不均匀程度的度量
  • 最大熵是一种状态的平衡分布,可看作一种自然法则
  • 互信息是随机变量相关性的度量

信息熵与最大熵

信息量是信息多少的度量:

$$ I(x_k) = \log \frac 1 {p_k} = - \log p_k $$

其中,$X = {x_k,| k = 0, \pm1,…,\pm N},\;p_k=P(X=x_k),\; 0\lt p_k \lt 1,\; \sum_{k=-N}^N p_k = 1 $

信息量性质:概率越小的事件,信息量越大

Read more »

支持向量机乃至线性分类器都起源于 $logistic$ 回归, $logistic$ 回归目的是从特征学习出一个 $0/1$ 分类模型,而这个模型是将特性的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷。因此,使用 $logistic$ 函数(或称作 $sigmoid$ 函数)将自变量映射到 $0/1$ 上,映射后的值被认为是属于 $y=1$ 的概率。

Read more »