hga030皇冠welcome hga030皇冠welcome hga030皇冠welcome

NLP技术在微博Feed流中的应用

❶ 困难和存在的问题

❷ 标签系统

❸ 素材库

❹多任务、多模式探索

❺大规模预训练模型技术

——困难与存在的问题——

❶博文内容多为简短

模型预测的微博_光波预测88微博最新_微博热点话题检测与趋势预测研究

第一个问题是微博的内容比较短(一般不超过100字),比如右图提到了文字“下午茶”,但图片的内容却不是美食“下午茶”茶”,考虑到整个微博的文字和图片内容,应该归类为美容频道而不是美食频道。此外,对短文本使用 LDA/PLSA 等主题模型也不是很有效。

❷ 任意语言表达

微博热点话题检测与趋势预测研究_模型预测的微博_光波预测88微博最新

第二个问题是文本的随机化和口语化,语法结构不精确,给内容分析带来很大挑战。

❸ 无法准确获取用户搜索行为序列

模型预测的微博_光波预测88微博最新_微博热点话题检测与趋势预测研究

微博热点话题检测与趋势预测研究_模型预测的微博_光波预测88微博最新

第三个问题,比如微博搜索结果页面,因为文字很短,大部分结果在页面上都能看到全文,不需要点击进入内容(除了第二个) ,需要点击展开全文),而从停留行为来看,由于一页显示多篇博文模型预测的微博,无法准确定位用户感兴趣的微博。

❹ 无法准确获取用户喂食行为序列

微博热点话题检测与趋势预测研究_模型预测的微博_光波预测88微博最新

这个问题类似于搜索结果页面。用户停留在动态页面,无法准确区分用户感兴趣的微博。我们对高点击博客文章的分析发现,许多高点击博客文章包含多张图片。由于一条微博可以包含多张图片,一些点击率高的博文因为用户想查看图片内容而被点击进入微博的文字页面,但这样的点击并不代表用户对该博文感兴趣.

综上所述,在当前微博场景中,很难获得非常准确的用户行为序列(用户行为序列包括展示页面、点击、停留、转发、评论、点赞、收藏等),导致使用LDA/PLSA主题和用户行为序列方法的建模效果不是很好。接下来,我们将与您分享我们的解决方案和想法。

——标签系统——

标签体系主要包括:博文标签、用户兴趣(肖像)标签、博主标签。今天主要介绍博文标签和用户兴趣(人像)标签。

❶ 发布标签

博文标签主要分为:主次标签、实体标签、关键词标签。

① 主次标签

模型预测的微博_微博热点话题检测与趋势预测研究_光波预测88微博最新

一级标签:对应频道,如金融、法律、IT行业、军事、历史、食品等标签。

二级标签:一级标签“金融”,包括二级标签:投资、众筹、货币、股票、保险、债券、基金、贷款、美股等。

微博热点话题检测与趋势预测研究_模型预测的微博_光波预测88微博最新

主副标签的使用:主标签对应少量的副标签和垂直通道。带有这部分标签的博文会分发到对应的频道,对应的博文会在该频道展示。其次,主次标签也可以用于画像构建和推荐中的召回和排序,但作为标签,粒度太粗,不能很好地描述用户兴趣。例如,一些用户只对英语感兴趣。如果向他推荐大量与教育相关的博文,用户体验会很差。

主次标签分类系统:

模型预测的微博_光波预测88微博最新_微博热点话题检测与趋势预测研究

目前分类系统采用fasttext+bert组合方案,因为bert效果好,fasttext性能好。我们有如下方案:对关注度高(星)和质量高的博文使用bert,其他博文先通过fasttext,如果标签分数高于阈值(95分),则不再使用bert加工; 如果最高分只有70分,那么再次使用bert进行预测。Bert 是一个多层编码器,最近的研究表明,Bert 中不同的嵌入层捕获了不同的句子知识。例如,低级嵌入捕获词汇特征,中级嵌入捕获句法特征,高级嵌入捕获语义特征。因此,我们优化了bert的结构,

② 实体标签

在我们的场景中,实体标签也称为三级标签。实体标签的来源有:人工采集、微博热搜查询和模型识别。如下图所示,可以看到主次标签和实体标签之间的关系。

光波预测88微博最新_微博热点话题检测与趋势预测研究_模型预测的微博

实体识别模型:

模型预测的微博_微博热点话题检测与趋势预测研究_光波预测88微博最新

模型如图结构所示。首先通过bert层输出每个序列标注对应的每个词的概率分布,然后通过crf层输出最终标注结果。这些序列注释的训练数据是手动注释的。

③关键词标签

关键词有两种来源:名词短语和用户查询。这是由于博文文本较短(90% 以上都在 100 个字符以内),使用传统的主题模型效果不佳。

一个。名词短语提取

模型预测的微博_微博热点话题检测与趋势预测研究_光波预测88微博最新

首先,让我们从从名词短语中提取关键字开始。我们可以从一个句子中获得有关依赖句法的信息。

微博热点话题检测与趋势预测研究_模型预测的微博_光波预测88微博最新

如上图所示,Stanford NLP、哈工大LTP、HanLP等工具包可以获取句子的依存句法,并可以根据fencing、competition等多个解析器解析出的依存句法提取名词短语。首先在 stanford NLP fencing 中,competition 是一个名词短语,并且在一个块(chunker)下,同样的其他依赖句法工具也是 fencing,competition 是一个名词短语,并且都是相同的块(chunker)。这样,多个句法分析工具的输出结果是一致的,我们认为击剑比赛可以作为一个标签。

模型预测的微博_微博热点话题检测与趋势预测研究_光波预测88微博最新

其次,也可以从不同的分词结果中提取和验证名词短语。您可以通过以下方式获得多个不同的分词结果:

❶ 同一个分词器的分词粒度不同。❷ 相同分词器的结果 nbest(其他可能) ❸ 不同分词器

使用不同的分词结果可以用来检查名词短语提取的正确性。我们将在下面详细说明提取规则。

光波预测88微博最新_模型预测的微博_微博热点话题检测与趋势预测研究

我们有以下提取关键字词组的规则:

❶ 多个句法解析器中的名词短语,在同一个分词器下,例如“击剑比赛”,三个工具的输出是同一个分词器。

❷长度大于等于三个词的名词,长度小于L的名词短语不宜过长(实际不宜超过6个)。

❸ 名词短语边界与分词结果兼容,否则名词短语和名词短语所在同一个chunker中的短语不能作为候选。比如我们使用Stanford NLP依赖语法结果来兼容一个分词结果,依赖语法结果:Shannon/at/information theory/in/put/information/entropy definition/as/since/information/of/expect,tokenizer结果:Shannon /in/information-theory/in/put/information-entropy/definition/for/self-information/the/expectation。

可以得出以下结论:

微博热点话题检测与趋势预测研究_模型预测的微博_光波预测88微博最新

❹使用多个分词结果进行检查,提高关键词准确率

模型预测的微博_微博热点话题检测与趋势预测研究_光波预测88微博最新

最后,我们可以根据上面提到的实体识别和名词短语规则,将博文中的词提取为候选关键词。

湾。用户查询提取

用户查询作为关键字的条件:

❶ 查询一定要高频率

❷ 需要限制长度,不要太长

❸ 另外,查询会有边界错误。噪声过滤可以通过左右信息熵和紧密度以新词发现的方式进行。

C。匹配算法:

微博热点话题检测与趋势预测研究_模型预测的微博_光波预测88微博最新

首先,我们可以使用高效的匹配算法,Trie tree/Hash table,Double array trie(dat),AC自动机(AC匹配效率是三者中最高的),通过这些匹配可以在博文上匹配500w+的字典算法。然后我们使用分词工具对文章进行分词,检查分词的结果边界是否与匹配算法的结果兼容,并输出最终的兼容结果。

光波预测88微博最新_微博热点话题检测与趋势预测研究_模型预测的微博

这个方法其实和上面提到的提取名词短语的思路类似,比如:关键词是“historical records”,文本是“historical records”。使用匹配算法时,会匹配“history”中的“history”,但是使用分词工具时,将history/record分开,将历史记录分开,“history”和“history”是链接,并且没有单独的块,同时“记录”也与“记录”链接,因此可以判断它不兼容。

微博热点话题检测与趋势预测研究_光波预测88微博最新_模型预测的微博

有同学会问,如果在分词用户词典中加入关键词/实体词典,匹配问题和消歧问题会同时解决吗?其实这很难做到模型预测的微博,因为一般的分词词典的词汇量在30万到50万左右。分词的过程本身就是消除句子歧义的过程。在分词过程中,经常用到词频、词性等信息。关键词/实体词500W+,远超分词词典的词数。如果将它们放入分词用户词典中,这些词将保证不会在匹配后的分词结果中被剪切(不同的策略不同),这会影响分词的效果。

d。相关性

模型预测的微博_微博热点话题检测与趋势预测研究_光波预测88微博最新

使用匹配算法和分词验证兼容性得到上述关键词。其中,天龙八部、心小傲江湖等都是与电影相关的词,但与博文中的主题(主题是旅游)不一致,因为需要映射关键词,涉及到用户画像来统计用户兴趣,这些词不能代表用户的偏好。

模型预测的微博_光波预测88微博最新_微博热点话题检测与趋势预测研究

标签与博文的相关性计算过程为:获取文本向量->向量相似度计算->设置阈值过滤标签。其中,我们使用bert获取文本向量,博文和标签(关键词)以单词的形式输入到bert模型中,对模型最后一层的每个单词进行平均,效果最好(不同的文本相似度计算任务向量选择方法不同,有些任务取cls最后一层的向量以获得更好的结果)。我们用来计算相似度的bert模型是基于博文的分类微调结果的模型。

除了标签,还挖掘同义词、同义词、上下文词,这里不再赘述。

④ 博文嵌入标签

光波预测88微博最新_模型预测的微博_微博热点话题检测与趋势预测研究

嵌入标签是通过对用户的点击序列建模来获得的。模型如图,特征为f0:用户id,f1:用户自身属性,f2:用户点击列表,f3:博文id,f4:博文自身属性,label为是否点击博文. 如上所述,用户的行为序列并不能很准确的得到,所以embedding的效果不好。

以上是一些基于博文的标注方式。让我们讨论基于用户方面的标记。

❷ 用户兴趣标签

微博热点话题检测与趋势预测研究_光波预测88微博最新_模型预测的微博

①首先是基于模型嵌入的用户兴趣标签:如上所述,这种方法不是很有效。