回到主页

理解社交媒体 - B站文本分词实践

​此系列文章的目的是向社交媒体相关从业者解释数据分析的基本原理。尽量用通俗的语言阐述,不出现公式。

 

项目背景

 

B站的用户群体偏年轻化,并且各个兴趣群体都有其特有的词汇,比如鬼畜区的“奥利给”、游戏区的“老番茄”、音乐区的“洛天依”,在传统的文本分析中很可能被漏掉或者错误识别。

要理解新媒体的内容,就要掌握新媒体的语汇,其中最基本的就是分词。

 

什么是分词

 

分词的意思就是将一句话拆解成一组词。

中文的语言特性使得同样一句话可以有不同的分词方法,从而传达完全不同的意思。

 

比如对于这个标题:“完美日记动物盘来啰!”

正确的分词结果是:“完美日记”+“动物盘”+“来喽”。这样就从一句话中拆分出了“完美日记”这个美妆品牌词和“动物盘”这个产品词,后续我们就可以围绕着这些关键词做汇总分析。

如果分词结果是:“完美”+“日记”+“动物”+“盘”+“来喽”,那么就很有可能将这个视频与“日记”,“动物”这些非美妆类的概念关联在一起,造成混淆。

 

现在做社交媒体都讲究精细化运营,每个细分领域的内容都要详细分类,这就对分词的质量提出了更高的要求。

 

按词匹配与按字匹配

 

分析文本的基本单元是词而不是字。如果只以是否包含某些关键字来作为检索标准的话,会造成很多误判。这也是目前市面上很多数据分析产品所没有做好的事情。

 

如果我们要分析生活类博主,并且用“日记”这个关键词来过滤的话,并不希望把“完美日记”相关的美妆视频也包括进来。

如果我们以词为单元来看待文本,那么“完美日记”和“日记”就是不同的两个词,相互不包含,基于这样的关键词系统,才能将博主和视频正确分类。

 

分词的基本原理

 

分词算法有两个基础的思路:基于词库匹配和基于词频统计。

 

基于词库匹配

可以理解为把一句话的所有可能的拆分方法都列举出来,然后看哪些组合能够最大程度地已有的词库相匹配,并且尽量匹配长的词,而不是将词拆碎。

还是拿“完美日记动物盘来啰!”这句话举例子。如果我们的词库中有“完美日记”这个词,分词算法就会将“完美日记”这个品牌词整个识别出来,如果词库中没有,就会使用常用词“完美”和“日记”。

这种方法的好处是简单直接,但对词库的质量提出了很高的要求。

 

基于词频统计

词是字的稳定组合。如果几个字经常在一起出现,那么他们就很可能是一个词。

如果我们的文本数据中,“动物”和“盘”一起出现的概率要远高于各自出现概率的乘积(也就是纯随机地出现在一起的概率),那么我们就认为“动物盘”是一个词。

这种方法不依赖词典,有发现新词的能力,但需要大量的文本资料作为训练数据。

 

实际使用的分词算法,都是将两者结合起来,同时需要提供词库和大量的文本资料才能起到更好地效果。

 

词库的建立

 

商品词库

商品词库的最佳来源就是电商网站,由于多数在社交媒体上推广的商品都会在电商平台上架,并且电商平台对商品会进行分类,这些结构化的信息就是高质量的词库来源。也可以借助电商数据分析机构发布的研报,这些研报通常会发布每个领域热门的品牌和商品名称,可以用来建立词库。

 

人名词库

“老番茄”是知名游戏up主的名字,与“番茄”没有关系。如果要在文本内容中识别出这些up主,就需要有充足的up主名单。这个可以从B站自己发布的各区知名up主榜单上获得。

 

标签词库

每个视频都有其制作者自己定义的一组标签,这些标签能够很好地涵盖各种专有名词。比如“VLOG”、“鬼畜调教”、“中二”这些特色词汇都会在标签中出现。

 

新词词库

我们无法列举全小众词汇,更无法提前预知新词的出现,比如新的剧集的名字、产品的名字,这个就需要从最新的文本语料中自动总结出来。有很多新词发现算法,它们主要是利用了词语对内“凝聚性”强,对外“灵活性”强的特点。这方面内容会在后续的文章中说明。

 

分词案例

 

目标文本:'guccichanel祖玛珑的平替’

分词结果:’gucci, chanel, 祖玛珑, 的, 平替’

三个品牌名连续出现,需要足够全的品牌词表,才能将不同的牌子正确分开。“平替”这个词,常规词库中很难出现,需要从美妆行业相关的语料中总结出来。

 

目标文本:'夏日甜柚气泡妆 完美日记光影星河九色眼影盘'

分词结果:’夏日, 甜柚, 气泡, 妆, 完美日记, 光影, 星河, 九色眼影盘'

“气泡妆”是一种妆容,如果词库足够丰富的话,就可以将这个词正确合并。类似地,“光影星河”是一个系列的名字,由于出现得没有“九色眼影盘”多,也没有合并,这时候就容易与“光影”这个摄影类高频词产生混淆。

 

总结

 

文本分析的基本单元是词汇。分词需要高质量的词库,还需要从大量的语料中总结出新词。词库越全,分词的结果越能够反映一段文本中完整的意义单元的构成情况。高质量的分词是将文本内容正确分类的基础。

 

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的上线了提供技术支持