top of page
Search
HAIV

TheoreticalML

理论机器学习


我们探索几个本质问题

1. 使学习成为可学习/不可学习的学习问题的内在属性是什么?

2. 需要多少个样本才能学习一个特定的概念?

3. 为什么简单的假设比复杂的假设更好?

4. 如何定义一个合理且可实现的在线学习目标?


统计学习模型的元素包括

1.输入:域X、标号集Y,样本集 S = {(x1, y1), . . . ,(xn, yn)} ⊆ X × Y .

S是从独立同分布的样本中得到。

2.输出:假设 h : X → Y

3.数据生成:f : X → Y

4.性能指标:例如 err(h) = Px∼D [h(x) != f(x)] = Ex∼D[|h(x) − f(x)|]


几个概念

1.经验风险 (Empirical Risk) 和过拟合(Over-fitting)

2.样本复杂度(Sample complexity, 拥有良好泛化能力所需的样本数)和泛化能力(Generalizability).

3.大概近似正确(probably approximately correct):下一篇讲。


一个定理

含义:给定标记域的数据(独立同分布),如果样本足够多,那么最小化经验风险算法将对未知数据表现良好。要想得到关于所需样本数目的有意义的理论保证,我们需要知道假设类别(hypothesis class)的规模和其他自然参数。


意义

1.域D和假设类别H是不受限制的。

2.样本复杂度与假设类别的规模成对数关系。


不足:

1.H的选取太讲究:基于可实现性假设。

2.这个定理假设数据是干净的,并且没有对噪音数据的处理。

3.H必须是有限的。

4.样本需要是独立同分布的。

5.这个定理解释了样本复杂度,但没有解释计算复杂度。

6.这个定理假设样本是批量来的(批学习),没有对样本一个一个来的情况(在线学习)的处理。

98 views0 comments

Recent Posts

See All

Random Feature Fourier and Double descend

Prof. Zhenyu Liao from School of Electronic Information visited HAIV Lab and gave a talk on the double descend effect of training loss...

Random Features

On April 2, 2021, Dr. Fanghui Liu visited HUST and gave a talk at HAIV Lab on random feature Fourier for kernel approximation. He is...

MetaLearn

コメント


bottom of page