人人能看懂的智能拼音输入法源码及数据，不到300行C++

浦乐 · 2025-11-11 17:00:17

全部文件的行数
720 gb2312.utf8
16463 hz-py.utf8
2894733 slm.arpa # 文本文件格式的语言模型
15 h.h
125 ime.cpp
109 pinyin.cpp
44 seg.cpp
17 Makefile
63 mk-bin.py

复制代码

〔百度网盘下载 .7z 17M〕提取码: 243u
语料：别人的词典
语言模型工具：KenSLM
模型：GB2312汉字的2-gram; 未做prune
存储：SQLite. 严正声明：本人会写二分搜索和用Python排序。 :-)

SQLite生成的数据库111M，如果把索引开全，139M，速度还不快
我在KenSLM 里幻想了一通各种优化

NT何意？No Threshold; Nuclear/No Threat; New Technology，都与我不再有关。
-lsqlite3 -lreadline即可，这两个都是系统默认安装的。
seg *.txt 分字（把字用空格隔开）。输出到stdout，可 >，可 | 给KenSLM，它抱怨不能mmap，使用慢速 read.
mk-bin.py 把 hz-py.utf8 和 slm.arpa 转成 slm.bin
ime用slm.bin，输入行可编辑（用了readline)。源码摘抄：

int main () {
for (string s; (s = input()).size(); _slm.predict(s));
return 0;
}
void SLM::predict (const string& s) {
_m.resize(0);
for (const auto& py : break_pystr(s.c_str())) _m.emplace_back(get_column(py));
if (!_m.size()) return;
for (const auto& v : _m) if (!v.size()) return;
viterbi(), print();
}
void SLM::viterbi () 第70~第92行
struct SLM {
vector<vector<Token>> _m; // matrix (lattice)
vector<int> _path;
vector<Token> get_column(const string& py);
double bigram(int x, int y, int y2);
void viterbi();
void print();
void predict(const string& s);
};
struct Token { // 抄全了
Token (const uint8_t* s) { memcpy(hz, s, 4); } // *(int*)... ARM上字节对齐问题...
bool operator< (const Token& that) const { return prob > that.prob; }
char hz[4]; // UTF-8
double prob, bop; // 1-gram; backoff probability/penalty
double max;
int from;
};

复制代码

〔如何在Windows下开发输入法：Mini How-to〕

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

穆望 · 2025-12-1 02:25:04

分享、互助让互联网精神温暖你我

劳暄美 · 2026-1-14 20:04:23

热心回复！

诈知 · 2026-1-15 06:56:41

前排留名，哈哈哈

亢安芙 · 2026-1-19 11:43:44

新版吗？好像是停更了吧。

扫恢怯 · 2026-1-22 10:43:09

分享、互助让互联网精神温暖你我

即息极 · 2026-1-23 00:32:10

感谢，下载保存了

赵淳美 · 2026-1-23 07:10:42

分享、互助让互联网精神温暖你我

度阡舅 · 2026-1-25 09:19:47

感谢分享，下载保存了，貌似很强大

梨恐 · 2026-1-25 12:01:54

谢谢楼主提供！

殷罗绮 · 2026-1-26 17:23:17

用心讨论，共获提升！

廖彗云 · 2026-2-3 11:12:57

鼓励转贴优秀软件安全工具和文档！

黎瑞芝 · 2026-2-5 09:57:14

谢谢分享，辛苦了

处匈跑 · 2026-2-6 13:00:06

感谢，下载保存了

挫莉虻 · 2026-2-8 02:31:26

感谢分享，下载保存了，貌似很强大

溜椎干 · 2026-2-8 11:41:38

这个好，看起来很实用

汝雨竹 · 2026-2-8 23:28:17

喜欢鼓捣这些软件，现在用得少，谢谢分享！

湛恶 · 2026-2-9 18:12:40

谢谢分享，试用一下

埤兆 · 2026-2-11 00:31:27

yyds。多谢分享

勺缓曜 · 2026-2-12 12:14:20

过来提前占个楼

账号		自动登录	找回密码
密码			立即注册

人人能看懂的智能拼音输入法源码及数据，不到300行C++

相关帖子

回复

浏览过的版块

签约作者

人人能看懂的智能拼音输入法源码及数据，不到300行C++

相关帖子

相关推荐

回复

浏览过的版块

签约作者