吕颐然 发表于 2025-10-27 20:30:01

10秒开发一个基于字的3-gram的拼音输入法:魔改sunpinyin

apt source libsunpinyin3v5 下载到当前目录下。
src/sunpinyin-dictgen是个有shebang的Makefile:
#!/usr/bin/make -f
W3M = wget -q -O -
DL_LIST = https://sourceforge.net/projects/open-gram/files/
DL_HOST = https://jaist.dl.sourceforge.net
DL_ROOT = ${DL_HOST}/open-gram
DICT_PAT = 'dict\.utf8-\+.tar.bz2'
SLM_PAT = 'lm_sc\.3gm\.arpa-\+.tar.bz2'
DICT_AR = $(shell ${W3M} ${DL_LIST} | grep -o ${DICT_PAT} | sort -u | tail -n 1)光腚make为了求变量DICT_AR的值也要联网,虽然比Android Studio快得多,我还是不喜欢。
此版本下载dict.utf8就够了。
写个小烂Python程序可从dict.utf8提取单字,得到如下文件:
<unknown> 0
<unknown_cn> 2
9
<stok> 10
<Digit> 20
<Simbol> 21
<NONEWORD_ALLWORD> 69
, 70
。 71
; 72
? 73
! 74
: 75
“ 76
” 77
、 78
… 79
㐀 100 qiu
...
袏 26753 zuo
阼 26754 zuoView Code注意调整ID连续。while 1: input(),用ids
$ ids2ngram -n 3 -s /dev/shm/swap -o 3gram -p 1024000 ids # 用内存盘
$ slmbuild -l -n 3 -o all.slm -w 26700 -c 0,3,2 -d GT,8,0.9995 -d ABS -d ABS -b 10,11,12 -e 9 3gram
照抄光腚slmbuild的Example改了下文件名。
$ slmthread all.slm lm_sc.t3g
这步是必须的,因为它要浮点转整数等,online部分不接受all.slm,虽然不crash,但候选字的顺序都乱了。
Compressing pr values...13530 float values ==> 13530 values
Compressing bow values...17422 float values ==> 16384 values
Threading the new model...slmthread: src/slm/thread/slmthread.cpp:383: int main(int, char**): Assertion `bowit != bow_map.end()' failed.
已放弃
不到最后关头,绝不轻言放弃。改程序。:-)
// assert(bowit != bow_map.end());if (bowit == bow_map.end()) { cerr

唐茗 发表于 2025-10-31 13:31:27

这个有用。

届表 发表于 2025-11-10 05:35:19

很好很强大我过来先占个楼 待编辑

稞冀 发表于 2025-12-5 23:19:38

喜欢鼓捣这些软件,现在用得少,谢谢分享!

梳踟希 发表于 2025-12-6 12:00:11

感谢分享,下载保存了,貌似很强大

琦谓 发表于 2025-12-15 18:07:47

不错,里面软件多更新就更好了

呼延含玉 发表于 2025-12-21 22:29:25

感谢,下载保存了

崔瑜然 发表于 2026-1-3 23:19:49

谢谢楼主提供!

腥狩频 发表于 2026-1-18 03:49:06

懂技术并乐意极积无私分享的人越来越少。珍惜

损注 发表于 2026-1-19 10:31:07

用心讨论,共获提升!

阎一禾 发表于 2026-1-21 10:57:35

收藏一下   不知道什么时候能用到

虾氲叱 发表于 2026-1-21 12:14:24

谢谢楼主提供!

姬宜欣 发表于 2026-1-24 09:20:04

分享、互助 让互联网精神温暖你我

艋佰傧 发表于 2026-1-26 10:05:59

鼓励转贴优秀软件安全工具和文档!

蚬蕞遂 发表于 2026-1-26 11:52:52

感谢分享,下载保存了,貌似很强大

归筠溪 发表于 2026-1-27 04:52:25

这个好,看起来很实用

左优扬 发表于 2026-1-29 04:03:14

感谢,下载保存了

敖雨燕 发表于 2026-1-29 21:01:23

yyds。多谢分享

蜴间囝 发表于 2026-1-30 19:22:17

感谢分享,学习下。

撙仿 发表于 2026-2-1 02:41:36

不错,里面软件多更新就更好了
页: [1] 2
查看完整版本: 10秒开发一个基于字的3-gram的拼音输入法:魔改sunpinyin