登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
签到
每天签到奖励2-10圆
导读
排行榜
TG频道
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
VIP申请
VIP网盘
网盘
联系我们
发帖说明
每日签到
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
破局AI问答专有名词检索迷局:分词期神器强势登场! ...
破局AI问答专有名词检索迷局:分词期神器强势登场!
[ 复制链接 ]
映各
2025-9-24 17:49:08
有客户深度使用全文检索模式检索分段,反馈一些专有名词无法被检索到(例如把“小米手机”分成了“小米”和“手机”两个词,对检索结果造成较大干扰),而 MaxKB 的分词器采用流行的 jieba 库,确认了一个临时解决方案。
1、定义自定义字典
cat /opt/my_dic.txt
小米手机 1000 n
苹果手机 1000 n
复制代码
字典组成:{词语}空格{词频}空格{词性}
示例:
小米手机 1000 n
小米手机:自定义词语
1000 :词频,越大优先级越高
n :词性。名词 (n)、专有名词 (nz)、动词 (v)、形容词 (a)、副词 (d)
复制代码
2、将自定义字典文件拷贝到容器中
docker cp /opt/my_dic.txt maxkb:/opt/maxkb/app/apps/common/util/
复制代码
3、split_model.py 引入自定义字典
jieba.load_userdict('/opt/maxkb/app/apps/common/util/my_dic.txt')
复制代码
4、测试验证
分段情况:
检索结果
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
破局
AI
问答
专有名词
检索
相关帖子
AI智能体的技术架构与解决方案
Runner H AI:从2.2亿美元融资到爆款产品,这个法国AI独角兽凭什么火出圈?
52个AI工具
用AI编程开发AA记账小程序——我的AA小账簿
【一步步开发AI运动APP】十二、自定义扩展新运动项目2
AI 智能体 RAG 入门教程
一文读懂AI Agent:为什么说它是大模型的下一站?
多cms养站系统【AI原创】程序
一键 orchestrate 多 AI 模型,代码开发协作新革命!
给你安利一款带有AI功能的数据库管理工具
vip免费申请,1年只需15美金$
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
AI智能体的技术架构与解决方案
0
562
郦惠
2025-10-07
业界
Runner H AI:从2.2亿美元融资到爆款产品,这个法国AI独角兽凭什么火出圈?
1
371
屠焘
2025-10-07
科技
52个AI工具
0
859
唐嘉懿
2025-10-08
安全
用AI编程开发AA记账小程序——我的AA小账簿
1
336
沦嘻亟
2025-10-08
安全
【一步步开发AI运动APP】十二、自定义扩展新运动项目2
0
405
毁抨句
2025-10-09
业界
AI 智能体 RAG 入门教程
0
749
全叶农
2025-10-09
科技
一文读懂AI Agent:为什么说它是大模型的下一站?
0
556
米嘉怡
2025-10-09
程序
多cms养站系统【AI原创】程序
0
12
新程序
2025-10-10
业界
一键 orchestrate 多 AI 模型,代码开发协作新革命!
0
1004
米榜饴
2025-10-10
安全
给你安利一款带有AI功能的数据库管理工具
0
311
羊舌正清
2025-10-10
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
映各
2025-9-24 17:49:08
关注
0
粉丝关注
25
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994888
dage888
999994
3934307807
993690
4
富账慕
10007
5
柴古香
9992
6
匝抽
9986
7
筒濂
9983
8
孙淼淼
9992
9
凌彦慧
9985
10
崔瑜然
9984
查看更多