博客
关于我
朴素贝叶斯(naive Bayes) 二
阅读量:797 次
发布时间:2023-04-03

本文共 680 字,大约阅读时间需要 2 分钟。

重复词语处理与N-gram语言模型应用

重复词语处理

在语言模型中,重复词语的处理方式有以下两种主要方法:

  • 多项式模型(词袋模型)

    每次词语出现时,直接计数一次,重复词语被视为独立事件。这种方法简单直观,但无法充分利用词语的频率信息。

  • 伯努利模型(词集模型)

    将所有重复词语都视为只出现一次,计算时忽略其出现次数。这种方法适合需要估计词语概率的场景,但可能导致信息丢失。

  • 在计算句子概率时,训练时不考虑词语重复次数,但在判断时需要考虑词语的实际出现次数。


    工程应用注意事项

  • 对数处理

    由于乘法运算时间复杂,建议先计算所有可能结果,然后查表获取最终结果。

  • 转换权重

    对于二分类问题,直接比较每个词向量的相对概率。


  • 联合概率链规则

    联合概率链规则基于马尔科夫假设,逐步计算词语的联合概率。

  • 二元语法(大概率模型)

    P(x₁, x₂, ..., xₙ) = P(x₁)P(x₂|x₁)P(x₃|x₂)...P(xₙ|xₙ₋₁)

  • 三元语法(三大概率模型)

    P(x₁, x₂, x₃, ..., xₙ) = P(x₁)P(x₂|x₁)P(x₃|x₁,x₂)...P(xₙ|xₙ₋₂,xₙ₋₁)

  • 经验上,三元语法效果更好。


    应用场景

  • 词性标注

    通过词语概率和位置权重,准确识别词语的语法性质。

  • 垃圾邮件识别

    依据关键词的出现频率和位置,加权计算邮件的垃圾程度。

  • 中文分词

    基于词袋模型和位置权重,实现高效的中文句子分词。


  • 位置权重

    根据词语的位置赋予不同权重:

    • 标题中的词语权重更高
    • 段首句中的词语权重次之
    • 正文中的词语权重最低

    通过调整权重系数,提升模型对语义的敏感度。

    转载地址:http://tgefk.baihongyu.com/

    你可能感兴趣的文章
    Openlayers高级交互(19/20): 地图上点击某处,列表中显示对应位置
    查看>>
    Openlayers高级交互(8/20):选取feature,平移feature
    查看>>
    openlayers:圆孔相机根据卫星经度、纬度、高度、半径比例推算绘制地面的拍摄的区域
    查看>>
    OpenLDAP(2.4.3x)服务器搭建及配置说明
    查看>>
    OpenLDAP编译安装及配置
    查看>>
    OpenMCU(一):STM32F407 FreeRTOS移植
    查看>>
    OpenMCU(三):STM32F103 FreeRTOS移植
    查看>>
    OpenMCU(二):GD32E23xx FreeRTOS移植
    查看>>
    OpenMetadata 命令执行漏洞复现(CVE-2024-28255)
    查看>>
    OpenMMLab | S4模型详解:应对长序列建模的有效方法
    查看>>
    OpenMMLab | 【全网首发】Llama 3 微调项目实践与教程(XTuner 版)
    查看>>
    OpenMMLab | 面向多样应用需求,书生·浦语2.5开源超轻量、高性能多种参数版本
    查看>>
    OpenMV入门教程(非常详细)从零基础入门到精通,看完这一篇就够了
    查看>>
    OpenObserve云原生可观测平台本地Docker部署与远程访问实战教程
    查看>>
    OpenPPL PPQ量化(4):计算图的切分和调度 源码剖析
    查看>>
    OpenPPL PPQ量化(5):执行引擎 源码剖析
    查看>>
    openpyxl 模块的使用
    查看>>
    OpenResty(nginx扩展)实现防cc攻击
    查看>>
    Openresty框架入门详解
    查看>>
    OpenResty(1):openresty介绍
    查看>>