找回密码
 立即注册
首页 业界区 业界 破局AI问答专有名词检索迷局:分词期神器强势登场! ...

破局AI问答专有名词检索迷局:分词期神器强势登场!

映各 2025-9-24 17:49:08
有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把“小米手机”分成了“小米”和“手机”两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。
1、定义自定义字典
  1. cat /opt/my_dic.txt
  2. 小米手机 1000 n
  3. 苹果手机 1000 n
复制代码
字典组成:{词语}空格{词频}空格{词性}
  1. 示例:
  2. 小米手机 1000 n
  3. 小米手机:自定义词语
  4. 1000      :词频,越大优先级越高
  5. n            :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)
复制代码
2、将自定义字典文件拷贝到容器中
  1. docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/
复制代码
3、split_model.py 引入自定义字典

1.png
  1. jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')
复制代码
4、测试验证

分段情况:
2.png

检索结果
3.png


来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册