Skip to content

Latest commit

 

History

History
44 lines (24 loc) · 4.08 KB

层次分类体系的必要性-多模态讲解系列.md

File metadata and controls

44 lines (24 loc) · 4.08 KB

层次分类体系的必要性-多模态讲解系列(1)

对文章的详细解读:爱奇艺短视频分类技术解析 https://www.infoq.cn/article/f49e-Gb1xQxh8DttFDgb

这个文章首先上来就给了一个例子出来:

这只是一个视频的抽帧,也就是一个图片。算法结果:游戏 - 题材 - 角色扮演,与人工结果一致。

这句话其实挺重要的。如果我们不看这个图片,只是看这个文本,其实很容易会被认为是属于影视这个类别。但是我们在注意图片这个画质,其实影视一般不会是这种画质。(当然,算法给出属于游戏这个类别,很大概率是基于整个视频,我这里只讲这个图片并不全面,大家理解就可以)

这里其实就点出来了多模态的一个作用。多模态使用不同类型的数据(文本+图片+视频抽帧),对信息进行一个补充或者说融合,从而获取视频更加全面的语义表达。

其实这个很容易理解。我之前说过一个更加容易理解的例子。比如我们有一个博文,博文的文本内容是“这个苹果真的是太好了”。如果我们做一个单独的文本算法,我们会对此打上“科技”或者“美食”的标签。 这个时候,如果有图片,图片内容是“真正的苹果的图片”,那么此博文的类别标签就是“美食”。如果图片内容是“苹果手机的相关内容图片”,那么这个博文很大概率就是会打上是“科技”的标签。

我上面这个例子,其实更加的容易去理解多模态的含义。

然后说回来,我们看它这个结果的描述:游戏 - 题材 - 角色扮演。 有没有发现一个特点,它不是单单给出了“游戏”这个标签,还给出了在游戏下面,题材属于“角色扮演”这个子标签。 业内一般把这个叫做,一级标签/二级标签/三级标签/...

简单来说,短视频分类体系是一种层次结构,在标签下不停的去细分子类。

我们可以想一下这样做的好处是什么?举个简单例子,比如你最近准备考公务员,那么对你的一个短期兴趣对应的标签就是“教育”(我自己定的,可能不同公司不同分法)这个一级标签。想一下, 这个标签有没有精准的表达你的需求?并没有,如果按照“教育”这个标签的内容推荐给你,比如除了公务员的内容,还会大量推给你“计算机培训”这种东西,你很大概率是不感兴趣的。 所以我们需要对兴趣进行划分。

如果深入想这个问题,还存在一个问题。

为什么不直接构建子标签,还需要一级标签?也就是为什么构建标签体系的时候不直接一步到位,还需要一层层的细分?

这个问题其实有很多原因?比如有历史遗留问题,在一些公司初创的时候,是没有这么多分类的,只能先划分大类。不过在这里,我给一个更加的简单的解释。就拿爱奇艺举例子吧,在头部顶栏,一般会有不同类型,比如电影,综艺,电视剧等等的划分。 这些就是一级标签。如果不进行一级划分,大家可以想一下,怎么把那么多的细分领域让大家知道?屏幕大小是固定的,细分领域那么多,怎么确保让细节领域被看到?有的app一级领域也很好多,所以顶部栏目可以滑动,或者可以点击一个按钮叫做更多。 所以基于一个曝光的考虑,一级标签是有必要存在的。

其实还有一个原因我想说一下。在之前这个文章中提到的,在意图分类的框架中,我们一般是先做

如果新增一个类别,我们重新训练模型会非常的费力。一级标签基本是固定不动的,所以我们使用一个分类模型就可以了。所以在对一个视频进行分类的时候,使用这种层次分类架构,其实是减少了计算量的。

然后,重点来了!!!

这个层次分类架构,大家有没有想到层序softmax类似的感觉。理论上肯定是不等价的,但是从感觉上来说,我自己觉得真的很类似,大家可以思考一下。