找回密码
 立即注册
首页 业界区 安全 10秒开发一个基于字的3-gram的拼音输入法:魔改sunpinyi ...

10秒开发一个基于字的3-gram的拼音输入法:魔改sunpinyin

吕颐然 前天 20:30
apt source libsunpinyin3v5 下载到当前目录下。
src/sunpinyin-dictgen是个有shebang的Makefile:
  1. #!/usr/bin/make -f
  2. W3M = wget -q -O -
  3. DL_LIST = https://sourceforge.net/projects/open-gram/files/
  4. DL_HOST = https://jaist.dl.sourceforge.net
  5. DL_ROOT = ${DL_HOST}/open-gram
  6. DICT_PAT = 'dict\.utf8-[0-9]\+.tar.bz2'
  7. SLM_PAT = 'lm_sc\.3gm\.arpa-[0-9]\+.tar.bz2'
  8. DICT_AR = $(shell ${W3M} ${DL_LIST} | grep -o ${DICT_PAT} | sort -u | tail -n 1)
复制代码
光腚make为了求变量DICT_AR的值也要联网,虽然比Android Studio快得多,我还是不喜欢。
此版本下载dict.utf8就够了。
写个小烂Python程序可从dict.utf8提取单字,得到如下文件:
1.gif
2.gif
  1. <unknown> 0
  2. <unknown_cn> 2
  3. 9
  4. <stok> 10
  5. <Digit> 20
  6. <Simbol> 21
  7. <NONEWORD_ALLWORD> 69
  8. , 70
  9. 。 71
  10. ; 72
  11. ? 73
  12. ! 74
  13. : 75
  14. “ 76
  15. ” 77
  16. 、 78
  17. … 79
  18. 㐀 100 qiu
  19. ...
  20. 袏 26753 zuo
  21. 阼 26754 zuo
复制代码
View Code注意调整ID连续。while 1: input(),用ids
$ ids2ngram -n 3 -s /dev/shm/swap -o 3gram -p 1024000 ids # 用内存盘
$ slmbuild -l -n 3 -o all.slm -w 26700 -c 0,3,2 -d GT,8,0.9995 -d ABS -d ABS -b 10,11,12 -e 9 3gram
照抄光腚slmbuild的Example改了下文件名。
$ slmthread all.slm lm_sc.t3g
这步是必须的,因为它要浮点转整数等,online部分不接受all.slm,虽然不crash,但候选字的顺序都乱了。
Compressing pr values...13530 float values ==> 13530 values
Compressing bow values...17422 float values ==> 16384 values
Threading the new model...slmthread: src/slm/thread/slmthread.cpp:383: int main(int, char**): Assertion `bowit != bow_map.end()' failed.
已放弃
不到最后关头,绝不轻言放弃。改程序。:-)
[code]// assert(bowit != bow_map.end());if (bowit == bow_map.end()) { cerr

相关推荐

您需要登录后才可以回帖 登录 | 立即注册