`
luolonghao
  • 浏览: 118227 次
  • 性别: Icon_minigender_1
  • 来自: Shanghai
社区版块
存档分类
最新评论

新的词库结构

 
阅读更多
目前词库设计的不太合理,查询时IO读取字节太多。打算采用分页法重新设计词库,还有为了方便通过P2P共享词库,每个词典就一个文件。

文件名:
--
转换前
源文件: your-dict.dict
转换后
词库文件: your-dict.xdd

结构:
--
源文件: 和现在一样
词库文件:
[dict-name:name\0]
[index2:size(4byte)]
[index2:data]
[index1:size(4byte)]
[index1:data]
[index0:size(4byte)]
[index0:data]
[dict:size(4byte)]
[dict:data]

分享到:
评论

相关推荐

    极速五笔输入法词库测试程序说明

    4、本词库采用B树作为存储结构,便于进行数据插入和删除,易于使用和维护。 5、支持主词库和扩展词库,并具有进一步扩充功能,如可方便设置词库优先级,以及是否显示指定的词库。 最多支持关系达250多种。 6、可...

    简繁转换最新.js

    在正楷诞生后的历史不同时期,汉字的结构形态变化很小,并被历代官方以字书的形式加以确定,而民间则陆续出现不同程度的简化写法。简化字总表其实是对历代出现的简化字的一个拣选和汇总。但由于汉字简化工作受到行政...

    论文研究-基于权值算法的中文情感分析系统研究与实现.pdf

    首先利用中文分词算法对句式结构进行分割, 然后依据词性对词库进行扩展, 词库对句式中干扰词汇进行过滤, 最后利用全新的权值计算算法对语句情感进行准确分析。经有效测试结果表明, 情感分析准确率较高, 并广泛适用于...

    红图新媒体教你如何学习新媒体

    画面简洁,结构清晰。点击每个节点会出现详细说明,目前有效的查看范围是2016年12月到今天。 2、365热点日历  这是365编辑器下的日历工具。内置“大片上映排期”“冷门纪念日”“我的记事”等15个标签选项,用户...

    Python中文分词库Yaha.zip

    相比已存在的结巴分词,去掉了很消耗内存的Trie树结构,以及新词发现能力并不强的HMM模型(未来此模型可能当成一个备选插件加入到此模块)。 目前状态 以上提到的核心部分以及基础功能都已得到实现。不过一些细节...

    Lucene中文分词组件 JE-Analysis 1.5.1

    //删除词库中的全部词语(注意:非常危险的操作,在没有加载新的词库前所有的分词都将失效) MMAnalyzer.clear(); //词库中是否包含该词 MMAnalyzer.contains(String word); //从词库中移除该词 ...

    QQ拼音2.2.555

    5、新增拆字输入,遇生僻字按结构拆分输入拼音(如:晟,输入richeng) 6、新增整句定位修改,“ctrl 音节首字母”可快速定位音节 7、新增右键菜单皮肤预览 8、优化核心词库、候选词排序算法。 下载地址: ...

    基于权值算法的中文情感分析系统研究与实现 (2012年)

    首先利用中文分词算法对句式结构进行分割, 然后依据词性对词库进行扩展, 词库对句式中干扰词汇进行过滤, 最后利用全新的权值计算算法对语句情感进行准确分析。经有效测试结果表明, 情感分析准确率较高, 并广泛适用于...

    现代汉语词典(安卓,android)手机软件

    重构软件代码结构,提升了软件质量; V3.0 升级说明: 1.增加新华字典,能模糊查询字/词,内容全面适合所有学习中文的朋友; 2.修改成故事详细不正确问题; 3.下载更新请在wifi下升级更新,安装包集成多个词典比较大. ...

    ppt文件格式转换器

    词库每日更新,随时打出最新词汇,聊天永不落伍。建议使用RealOne Player的朋友赶快升级到新版本。SmartPC是一款集结了系统修复、磁盘清理以及系统优化于一身的软件。StormQ Messenger是由暴风雨工作室开发的专门...

    百度知道PHP 伪静态伪原创实时更新小偷 v2.0.zip

    更改程序智能化,可以自定义 百度知道 内部结构,偷所需要的目录。 更改十分简单,只需要替换该百度知道栏目的ID号即可,请观看图1.jpg 增加泛滥子域名设置,叫您的网站快速收录,建站一个月google已收录30万页.见图2....

    VC++五笔拼音输入法

    输入之星作为一个开放性的输入平台,依托启程极速引擎2代的支持,输入之星实现了最大的词库兼容、最快的搜索速度、最小的系统资源占用。不仅如此,她还开创性地将字符录入与英文单词记忆有机结合在一起,使一边打字...

    淘客鼠淘宝客站群管理系统 v2.0.zip

    2、放弃1.0系列架构,全新的代码结构; 3、新增产品说明页,提高访客用户体验; 4、文章页和产品页实现伪静态(选择性,可以开启/关闭); 5、整合实现免费主页功能实现独立域名绑定功能; 6、优化文章页CSS,...

    baikeac20121128

    制作词典时,把设定图片目录down(下载的图片)、down2(本地上传的图片)、downn(多图片)拷贝到一个文件夹下,如image,在使用MdxBuilder制作词库时,将Data路径指向上面存放数据的目录image,如果设置了新的图片...

    基于决策树的敏感词变形体识别算法研究及应用

    首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形...

    java开源包2

    可以将列表数据缓存到redis中,其他kv结构数据继续缓存到memcached 6. 支持redis的主从集群,可以做读写分离。缓存读取自redis的slave节点,写入到redis的master节点。 Java对象的SQL接口 JoSQL JoSQL...

    SOPI垂直搜索引擎系统 V2.2

    系统结构的合理分离有利于分布式架构,适应未来大量的搜索工作,可以轻易在多服务器环境中进行应用。 各子系统相互独立,任一子系统的停止运行不影响其他系统,有效保证稳定性; 先进的文章及图片指纹技术,超低...

    matlab最简单的代码-Resume:个人简历

    S该项目旨在为用户提供更好的的查询建议,根据输入词在词库中进行查询,提供给用户最相似的结果。 T创建词典和索引文件,搭建线程池与并发服务器框架,采用最小编辑距离算法计算候选词与查询词的相似度,添加缓存...

    方维购物分享系统3.0(最好用版)

    6. 详细页可显示 淘宝、拍拍 等商品所在站点的评论(暂定:需设置正则获取相关评论,后期页面结构调整会失效不能获取评论信息);(SEO) 7. 增加根据商品分类禁止发布商品; 8. 增加SMTP邮件列表,用于循环发送邮件,...

    PHP+MYSQL方维购物分享系统3.0(无域名限制)

    6. 详细页可显示 淘宝、拍拍 等商品所在站点的评论(暂定:需设置正则获取相关评论,后期页面结构调整会失效不能获取评论信息);(SEO) 7. 增加根据商品分类禁止发布商品; 8. 增加SMTP邮件列表,用于循环发送邮件,...

Global site tag (gtag.js) - Google Analytics