基于隐含语义分析的抖音短视频语义检测方法

赵楠范书国甄琢孟丹

摘要：随着短视频关注度的不断提高，抖音短视频已经成为当前时代热点。针对于短视频、短文本，向量空间模型（VSM）表示方法存在高维度、同义多义问题，导致难以准确度量文本相似度，该文提出了一种基于隐含语义分析的聚类方法，利用LSA将训练数据聚类成隐含语义主题，通过奇异值分解，将词向量和文档向量投射到一个低维空间，用层次聚类算法确定初始中心，然后聚类得到结果。结论表明，短视频中的核心语义内容被成功保留下来，运用矩阵降维方法降低了计算量，冗余的相关性干扰得以解决，改变了视频语义检测的整体效果。

关键词：隐含语义层次聚类奇异值分解矩阵降维

中图分类号：TP391.4 文献标识码：A 文章编号：1672-3791（2020）02（a）-0009-02

随着互联网用户数量的不断增长，网络短视频的数量也在与日俱增。因此，迫切地需要在数以万计的短视频中实现高速有效的检索。视频数据内容包含复杂的含义，视频数据之间也存在着内在联系。在视频图像中，图片特征与特征之间、视频片段与片段之间，视频语义与语义之间都存在着关联关系。通过这些关联关系，语义检测的计算成本可以得到减少，提高搜索的质量。视频语义之间的相关性有很重要的作用，视频语义内容之间会出现同义和多义等问题，这就是由于对视频语义的相关性忽略而引起的，会导致一系列缺陷。现在对视频语义相关性的关注度和重视度不足，为此，需要深入学习和研究视频语义相关性方面的知识和课题，让相关性发挥重要作用，同时解决一系列不利的问题。该文通过LSA（隐含语义分析）方法的理论指导，改进和丰富了抖音短视频内容检测中视频的主要数据特点，建立了根据视频语义内容创造的视频文档矩阵，说明了短视频的视频结构和相关性分析内容。

1 视频隐含语义关联性分析方法

1.1 LSA基本思想

LSA的基本思想是认为词汇和词汇之间存在着一定的关联关系，文档和文档之间也存在着一定的关联关系，它们之间存在一种隐含式的文本语义结构，奇异值分解由词语统计频统向量构成的文档集合矩阵进行，再经过降维处理得到的语义结构，解决了因为视频语义相关性而引起的同义和多义等问题，而它的核心语义信息都成功保存下来，对为未来检测相似语义的目标文件，查询文件之间的相似程度有着重要作用。视频目标和视频对象的典型特征之间的相关性关系可以用来反映该短视频的具体语义内容，视频典型特征和相关性关系通过聚类会得到不同类别的信息，与视频的语义内容密不可分。相对于视频语义数据来说，没有明显的文本、文档内容，也没有广阔的语言内容空间，直接复制LSA的处理方法是不能实现的。所以，该文针对这个问题提出了解决视频语义建模的一个办法：将短视频分成许多帧，短视频中的每一帧图像都可以对应短文本中的每一个文件、文档，从而建立视频文档集合矩阵。对视频语义内容中的典型特征进行细分，分类后的每一部分可以对应文件文档以一个基础词汇，建立起视频特征词典。通过这两点，再对短视频进行进一步的扩展，当扩展数据库的容量时，可以将中等大小的短视频文件映射到文件文档向量。

1.2 视频特征字典的建立

当开始创建视频特征词典的时候，应该对过去曾经用过的典型特征，通过K-means算法生成H个聚类，H个聚类应该对应H维的向量。我们也可以将视频特征词典的规模大小程度用H来表示。原因是K-means算法的基本属性就是如此，它可以对聚类结果的规模大小加以调整控制，因此，可以合理地使用这个特点，可以根据实际情况不断地调整特征词典的规模大小。可以根据实际需求创建一系列视频特征字典，用来应对不同层面的、不同类别的典型特征，接下来既可以单独运行，也可以联合起来对这类特征词典进行合理应用，从而满足不同层面上的需求。

1.3 视频文档集合矩阵的建立

当开始创建视频文档集合矩阵的时候，如果将短视频分割成一系列帧，每帧图像分别对应着文件文档的每一个文件，因为短视频文件中的帧数庞大，就会导致文档集合矩阵范围庞大，会极大地降低计算的速率。所以，再进行建立视频文档集合矩阵操作前，需要对短视频实行预处理操作，将关键帧从短视频文件中分离出来，用关键帧充当文档的基础单元，目的是为了减少矩阵的范围，从而增加可行性。短视频被分割成一系列片段，形成一系列关键帧，每一个关键帧都拥有该片段最重要的内容，这一系列关键帧组合成这个视频片段。细分到每一个关键帧，还要继续将它割裂成不同片段，为了方便进行隐含语义分析操作，每个片段都应该占用相同区域大小。接下来，视频特征词典将要作为前提条件，提取出每个分割片段的典型特征，综合到一起，进行频率数字统计，然后综合所有片段的统计结果，形成一个对应这个关键帧的视频文档，从而也可以得出短视频的视频文档矩阵。

这种操作方法主要是通过分割关键帧来实现的，再用K-means算法进行辅助，最终综合统计关键帧的视频文档，可以极大地体现出典型特征在视频语义分析中的重要作用，可以方便突出视频的结构特点，了解视频的数据内容。

2 基于隐含语义分析的抖音短视频语义检测方法

该文对抖音短视频进行隐含语义分析建模，选取热度较高的短视频，选取其短文本，进行奇异值分解，检索出该段文本的隐含语义信息。然后通过聚类算法来检索抖音短视频。为了解决向量空间模型对于词项匹配不足的问题，该文采用隐含语义分析建模的方法，首先，选取热度较高的短视频，对它进行奇异值分解，将文件文档对应到隐含于一空间，对其隐含语义信息进行挖掘。

抖音短视频的获取我们采用网络爬虫技术对短视频进行抓取。采用Fiddler进行手机抖音APP的抓包，安装Fiddler后，进行数据的配置。在手机无线连接代理中填写电脑的IP地址和Fiddler代理的端口，安装证书，就可以进行抖音短视频的抓包，然后可以对爬取的用户信息数据进行预处理，并存入数据库。通过爬虫获取的数据不可以直接接收进行操作使用，需要加工处理，逐步实现数据清洗操作，减少数据中存在着错误或异常（偏离期望值）的数据。抖音短视频的用户通常是清理活跃数较低的垃圾用户来达成数据预处理操作的，以便为接下来的聚類算法打好基础。

首先对短文本数据进行初次聚类，应用Single-pass算法，每一条视频文本都是唯一的，它也对应着唯一的特征向量，每个文本之间的特征向量需要进行相似度的计算，得出关联关系较高的就会被归类到一个簇里。这次聚类是对短视频文件进行初次聚类，得到同一个簇。接下来就是第二次聚类，第二次聚类的目的是要将簇进行合并，最终才能得到话题集。

3 结语

该文提出的基于隐含语义分析的语义检测方法，在现实的视频语义检测应用中，需要继续保留视频文本结构中的典型语义特征，信息冗余带来的困扰得以解除，视频语义的检测内容得到了提高，适合当前的网络短视频环境。采用了二级聚类算法，在一定程度上提高了发现效率和准确率，但包含的信息还有待完善。下一步重点：评估发布的视频内容的权威性，细分用户角色，发现语义主题检测的准确率。

参考文献

[1] 马雯雯，魏文晗，邓一贵.基于隐含语义分析的微博话题发现方法[J].计算机工程与应用，2014，50（1）：96-100.

[2] 王晓岩.微博客热点话题发现与跟踪技术及系统[D].中国科学院大学，2013.

[3] 孙曰昕.面向微博的热点话题发现与追踪研究[D].西北师范大学，2014.

[4] 陈志雄，朱向庄.基于内容评价与超链分析的主题爬虫策略[J].轻工科技，2011，27（3）：66-67.

[5] 何跃，帅马恋，冯韵.中文微博热点话题挖掘[J].统计与信息论坛，2014，29（6）：86-90.

[6] 郑斐然，苗夺谦，张志飞，等.一种中文微博新闻话题检测的方法[J].计算机科学，2012，39（1）：138-141.

[7] He H，Chen B，Xu W，et a1.Short text feature extraction and clustering for web topic mining[A].Third Internationl Conference on Semantics，Knowledge and Gird（SKG 2007）[C].2007.

基于隐含语义分析的抖音短视频语义检测方法

科技资讯相关栏目本月热门文章