回到主页

理解社交媒体 - B站文本的新词发现

​此系列文章的目的是向社交媒体相关从业者解释数据分析的基本原理。尽量用通俗的语言阐述,不出现公式。

为什么要做新词发现

B站上的小众词汇尤其多,这些词很可能是兴趣圈内的热词。比如美妆博主们常用的热词“保姆级”、“伪素颜”,如果词库中缺少相应的词组,在做关键词分析的时候,很容易被算法识别为“保姆”和“素颜”,其含义相去甚远。

要发现“伪素颜”这样的关键词,就需要我们持续从最新的文本资料中自动总结出新词,不断完善我们的词库,从而更好地对文本信息进行分类筛选。

词汇的圈层属性

词汇是语义的基本单元。而所谓“语义的基本单元”,是随着上下文环境而变化的。

比如“雷品吐槽”、“好物分享”这样的词在社交媒体的语境中就更倾向于是一个完整的词而不是拆分成两个词,因为它们表示的是一种特定的内容类型,也经常被博主们在标题中使用。

同样是一个网站,由于用户圈层区分很大,词汇体系会有所不同。

B站上这种现象尤其明显,即使是多年的老用户,换一个频道也许就看不太懂这里的人都在说些什么。比如游戏区常见的“日常乳法”、“精罗落泪”这样的词,在时尚区可能就是完全不知所云。

在全局中词频很低的词汇,在小圈子中可能很重要。比如“眼线液笔”、“黄黑皮”这样的关键词,在美妆领域经常出现,但在其它领域几乎不出现,如果放在全局来看很可能由于词频过低而无法被认为是一个完整的词。

我们要将文本数据按照不同圈层区分对待。这样才能反应真实的词频信息。如果不加以区分,就好比用游戏网站的词库来分析财经网站的内容,增大信息的混淆。

新词发现的算法

词汇作为文本的“基本单元”,有“内紧外松”的特性,也就是对内要经常一起出现,对外要能跟其它词灵活组合。

我们划分人的组织结构也是遵循一样的原则,一个团队内部要紧密配合不能各干各的,团队之间要能够灵活协作。这个也跟编程中各个模块要讲究“高内聚、低耦合”是一个道理。

凡是我们要定义一个单元、一个模块的时候,都可以用是否“内紧外松”来作为衡量标准。

具体怎样量化呢?我们主要看两个指标:“点间互信息”和“左右邻信息熵”。

“点间互信息”是衡量一个词汇内部凝聚程度的指标。指的是“字的组合一起出现的概率”除以“它们分别各自出现的概率的乘积”。

举例来说,如果“完美”和“日记”如果高频率地一起出现,远高于这两个词在没有任何关系的情况下分别随机出现并且正好挨在一起的概率,那么我们就认为“完美日记”是一个完整的词。如果“眼线”和“笔”一起出现的概率高于各自出现的概率的乘积,我们就更倾向于认为“眼线笔”是一个单独的词。

“左右邻信息熵”是衡量一个词是否能在文本中与其它词灵活配合的指标。左右邻指的是它左边的词和右边的词,信息熵指的就是这些词的丰富程度(也可以认为是混乱程度)。如果信息熵高,就说明一个词可以灵活用在各种上下文中。

还拿完美日记举例子,如果我们发现“日记”这个词左边几乎总是出现“完美”,而不出现其它词,就说明“日记”这个词的左邻信息熵很低,我们就倾向于认为它无法构成一个单独的词,而是与“完美”合并成“完美日记”。

实际的算法中都会结合这两种指标来给每一个候选词打一个综合分,并且结合词频等其它指标做筛选,最终得到新词词表。

新词的构成,取决于给算法什么样的文本数据。文本量越大,行业划分越细,算法的效果就越好。

新词发现案例

行业:美妆

语料来源:B站视频标题

热门词汇:'测评', '护肤', '开箱', '粉底液', '平价', '购物分享', '学生党', '推荐', '面膜', '种草', '系列', '干货', '复古', '遮瑕', '李佳琦’

行业:美妆

语料来源:B站视频描述

热门词汇:'粉底液', '口红', '腮红', '眼影盘', '唇釉', '系列', '完美日记', '适合', '种草', '高光', '日常', '自己', '雅诗兰黛', '欧莱雅', ‘平价'

行业:美食

语料来源:B站视频标题

热门词汇:'巧克力', '芝士', '草莓', '挑战', '蛋糕', '麦当劳', '汉堡', '海鲜', '肯德基', '咖喱', '简单', '外卖', 'vlog', '土豆', ‘冰淇淋'

行业:美食

语料来源:B站视频描述

热门词汇:'系列', '芝士', '挑战', '美食', '比较', '豆腐', '土豆', '炸鸡’, '螺蛳粉', '肯德基', '制作', '火锅', '胡萝卜', '草莓', ‘巧克力’

总结

社交媒体的各个圈层中有很多独特的词汇,通用的词库难以将其正确识别。

需要根据各个圈层独特的内容来提取关键词,形成专用的动态生长的词库,这样才能将信息准确归类,减少混淆,这也是内容热点趋势分析的基础。

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的上线了提供技术支持