本文共 680 字,大约阅读时间需要 2 分钟。
在语言模型中,重复词语的处理方式有以下两种主要方法:
多项式模型(词袋模型)
每次词语出现时,直接计数一次,重复词语被视为独立事件。这种方法简单直观,但无法充分利用词语的频率信息。伯努利模型(词集模型)
将所有重复词语都视为只出现一次,计算时忽略其出现次数。这种方法适合需要估计词语概率的场景,但可能导致信息丢失。在计算句子概率时,训练时不考虑词语重复次数,但在判断时需要考虑词语的实际出现次数。
对数处理
由于乘法运算时间复杂,建议先计算所有可能结果,然后查表获取最终结果。转换权重
对于二分类问题,直接比较每个词向量的相对概率。联合概率链规则基于马尔科夫假设,逐步计算词语的联合概率。
二元语法(大概率模型)
P(x₁, x₂, ..., xₙ) = P(x₁)P(x₂|x₁)P(x₃|x₂)...P(xₙ|xₙ₋₁)三元语法(三大概率模型)
P(x₁, x₂, x₃, ..., xₙ) = P(x₁)P(x₂|x₁)P(x₃|x₁,x₂)...P(xₙ|xₙ₋₂,xₙ₋₁)经验上,三元语法效果更好。
词性标注
通过词语概率和位置权重,准确识别词语的语法性质。垃圾邮件识别
依据关键词的出现频率和位置,加权计算邮件的垃圾程度。中文分词
基于词袋模型和位置权重,实现高效的中文句子分词。根据词语的位置赋予不同权重:
通过调整权重系数,提升模型对语义的敏感度。
转载地址:http://tgefk.baihongyu.com/