17.5 在线学习

参考视频: 17 - 5 - Online Learning (13 min).mkv

在这个视频中,讨论一种新的大规模的机器学习机制,叫做在线学习机制。在线学习机 制让我们可以模型化问题。

今天,许多大型网站或者许多大型网络公司,使用不同版本的在线学习机制算法,从大 批的涌入又离开网站的用户身上进行学习。特别要提及的是,如果你有一个由连续的用户流 引发的连续的数据流,进入你的网站,你能做的是使用一个在线学习机制,从数据流中学习 用户的偏好,然后使用这些信息来优化一些关于网站的决策。

假定你有一个提供运输服务的公司,用户们来向你询问把包裹从 A 地运到 B 地的服务, 同时假定你有一个网站,让用户们可多次登陆,然后他们告诉你,他们想从哪里寄出包裹, 以及包裹要寄到哪里去,也就是出发地与目的地,然后你的网站开出运输包裹的的服务价格。

比如,我会收取$50 来运输你的包裹,我会收取$20 之类的,然后根据你开给用户的这个价 格,用户有时会接受这个运输服务,那么这就是个正样本,有时他们会走掉,然后他们拒绝 购买你的运输服务,所以,让我们假定我们想要一个学习算法来帮助我们,优化我们想给用 户开出的价格。

一个算法来从中学习的时候来模型化问题在线学习算法指的是对数据流而非离线的静 态数据集的学习。许多在线网站都有持续不断的用户流,对于每一个用户,网站希望能在不 将数据存储到数据库中便顺利地进行算法学习。

假使我们正在经营一家物流公司,每当一个用户询问从地点 A 至地点 B 的快递费用时, 我们给用户一个报价,该用户可能选择接受(y=1)或不接受(y=0)。

现在,我们希望构建一个模型,来预测用户接受报价使用我们的物流服务的可能性。因 此报价 是我们的一个特征,其他特征为距离,起始地点,目标地点以及特定的用户数据。 模型的输出是 p(y=1)。

在线学习的算法与随机梯度下降算法有些类似,我们对单一的实例进行学习,而非对一

个提前定义的训练集进行循环。

一旦对一个数据的学习完成了,我们便可以丢弃该数据,不需要再存储它了。这种方式 的好处在于,我们的算法可以很好的适应用户的倾向性,算法可以针对用户的当前行为不断 地更新模型以适应该用户。

每次交互事件并不只产生一个数据集,例如,我们一次给用户提供 3 个物流选项,用户

选择 2 项,我们实际上可以获得 3 个新的训练实例,因而我们的算法可以一次从 3 个实例中 学习并更新模型。

这些问题中的任何一个都可以被归类到标准的,拥有一个固定的样本集的机器学习问题 中。或许,你可以运行一个你自己的网站,尝试运行几天,然后保存一个数据集,一个固定 的数据集,然后对其运行一个学习算法。但是这些是实际的问题,在这些问题里,你会看到 大公司会获取如此多的数据,真的没有必要来保存一个固定的数据集,取而代之的是你可以 使用一个在线学习算法来连续的学习,从这些用户不断产生的数据中来学习。这就是在线学 习机制,然后就像我们所看到的,我们所使用的这个算法与随机梯度下降算法非常类似,唯 一的区别的是,我们不会使用一个固定的数据集,我们会做的是获取一个用户样本,从那个 样本中学习,然后丢弃那个样本并继续下去,而且如果你对某一种应用有一个连续的数据流, 这样的算法可能会非常值得考虑。当然,在线学习的一个优点就是,如果你有一个变化的用 户群,又或者你在尝试预测的事情,在缓慢变化,就像你的用户的品味在缓慢变化,这个在 线学习算法,可以慢慢地调试你所学习到的假设,将其调节更新到最新的用户行为。