违规提示

请您遵循相关法律法规,避免再次出现类似问题

如有任何疑问,请联系support@tmtpost.com

关闭
第五课:如何从特征角度提高VC维?
陈雨强 / 人工智能在工业界应用的必经之路
第五课:如何从特征角度提高VC维?

第五课:如何从特征角度提高VC维?

小欣:这节课,陈雨强老师会为我们讲解如何从特征角度提高VC维。

陈雨强:沿着特征这条路优化的特点就是模型一定要做成分布式的。这个工程上的挑战是非常大的。在这条路上比较典型的成功公司,比如谷歌使用了上千亿的特征、百度也使用了上千亿的特征,这些公司都是是从最细的角度来描述这些数据。

上千亿的特征是个什么概念呢?如果我们每个特征只用一个Float来表示也需要上T的内存,这是单机非常难以存储下来的。这个地方还只是讲到了模型存储的空间,如果考虑到数据存储的空间和其他的一些额外开销的话,我们必须要设计一个模型分布式的系统而不是一个单机的系统。针对这样的难点,学术界里面比如KDD、WWW等顶会上都有很多的文章在研究如何高效的并行、如何保证快速收敛,有很多的异步模式被提出来比如说ASP、BSP同步异步算法。

我们用到的模型主要都是逻辑回归模型,所以说线性模型的理论其实是非常成熟的。模型本身的一些改进和优化并没有像上面那个第三象限里面那么多,所以说它的更新、改进主要会集中在所谓的特征提取或者特征工程这样的领域。

我先解释一下为什么会有这么多特征。我们对所有观察到的微观变量进行建模,以搜索广告为例:每一个user的ID、每一个query、每一个广告都会有一个独立的特征。同时为了个性化,user+广告ID、user+query、query+广告ID,我们有上亿的user、上亿的广告、上亿的query,这样的组合会产生爆炸性的特征量。所以我们可以产生非常多的特征,这些特征是我们建模的基础变量。

这样的一个思路会比较奇怪,为什么我们把所有ID类特征作为基础的建模变量?那是不是说如果我们把用户作为一个变量,只要来了一个新的用户我们就不能对这个用户进行广告点击率的预估呢?并不是这个样子的。这里面就涉及到另外一个概念就是特征的层次化。即使我们没有见过这个新用户,我们会有这个用户的设备信息、地域信息还可能有性别等特征,这些特征也能帮助我们去判断这个用户的点击率。

还以时序动态协同过滤为例,我们看看如何沿着特征这条路来解决这个问题。首先一点是我们不再对这样的问题有低秩假设。比如一个矩阵,还是原来ABCD四个人、WXYZ四个物品,我们把这样一个矩阵直接拉平变成一个往后one hot encoding的方式,这样我们把一个二维的矩阵变成一个一维组合特征的方式来表示。这样的方式来说,就不需要再有更多的低值假设,那b_ui这样一项其实就可以通过我们的数据进行拟合。

第二点,可以通过不同维度的时间组合来建模时间维度的非线性跳变。作者也在论文写到,他发现有些电影的打分并不是线性的,有时会出现一些不可解释不可描述的跳变,这些跳变其实很难通过某种固定的方式进行建模。所以他提出了下面好几种建模的方式,比如说把时间进行分统,跟每个物品Item进行组合,跟每个用户进行组合,包括分统了以后进行分段组合。

这种方式都是不再对具体的时序特点进行建模,而是把他变成一个参数统一的由数据进行拟合。这个地方你也可以看出来,当我们的研究人员不能给出比较好的模型假设又不知道如何去应对突变的时候,我们可以更多的去依赖于数据,用潜在的参数建模可能性通过数据学到这些参数应该对应的权重,然后进行建模。

小欣:下节课,陈雨强老师会为我们讲解机器学习是否存在万能的模型。

【版权归钛媒体所有,未经许可不得转载】

分享课程:
大家都在学
72问 有声书系列 / 中国经济2021
精品小课 揭秘黄金投资:2022年以来上涨表现最好的资产之一
精品小课 阿里人力资源体系课

Oh! no

您是否确认要删除该条评论吗?

全部课程 ( 6 )
倒序播放

00:00
/
00:00
X1.0

注册邮箱未验证

我们已向下方邮箱发送了验证邮件,请查收并按提示验证您的邮箱。

如果您没有收到邮件,请留意垃圾邮件箱。

更换邮箱

您当前使用的邮箱可能无法接收验证邮件,建议您更换邮箱

账号合并

经检测,你是“钛媒体”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。