中文分词算法 有哪些比较好用的中文词频统计和分析的工具?

[更新]
·
·
分类:行业
1391 阅读

中文分词算法

有哪些比较好用的中文词频统计和分析的工具?

有哪些比较好用的中文词频统计和分析的工具?

推荐7款词频统计免费的工具,个有千秋地方。
第一款:微词云地址:
分析文本量:在20w~100w之间
自定义词典:不支持
分词精准度:比较准
筛词功能:提供词性筛选词,单词数量筛选词
词频统计数据下载:支持
生成词云效果图:支持(词云图多样化),可以显单词1000以内
词性可视化图:不支持
如图所示
PS:微词云的优点很多,可以满足大部分的需求,可以支持十几万以上的大文本分词;做可视化词云图片非常好看,操作体验很不错
第二款:清博词频统计地址:
分析文本量:在5w以内
自定义词典:不支持
分词精准度:比较准
筛词功能:不支持
词频统计数据下载:支持
生成词云效果图:支持(固定词云图),只显示前100个单词
词性可视化图:支持
第三款:易词云地址:
分析文本量:在5w以内
自定义词典:不支持
分词精准度:比较准
筛词功能:提供词性筛选词,单词数量筛选词
词频统计数据下载:不支持
生成词云效果图:支持(词云图多样化),可以显单词1000以内
词性可视化图:不支持
第四款:图悦地址:
分析文本量:10w
自定义词典:不支持
分词精准度:比较准
筛词功能:不支持
词频统计数据下载:支持
生成词云效果图:支持(可选词云图),只显示前45个单词
词性可视化图:(词云图可选),但词云图显示太少
词性可视化图:不支持
PS:大文本分词是图悦的优势,但可视化很差,需要另外找词云工具做可视化图
第五款:优词云地址:
分析文本量:在3000k以内(少)
自定义词典:不支持
分词精准度:一般
筛词功能:不支持
词频统计数据下载:支持
生成词云效果图:可选词云图,可以显不重复单词300
词性可视化图:不支持
第六款:7890站长工具地址:
分析文本量:在10w
自定义词典:不支持
分词精准度:一般
筛词功能:不支持
词频统计数据下载:不支持
生成词云效果图:不支持
词性可视化图:不支持
第七款:中文词频统计工具地址:
分析文本量:在10w
自定义词典:不支持
分词精准度:一般
筛词功能:不支持
词频统计数据下载:不支持
生成词云效果图:不支持
词性可视化图:不支持
总结
综上所述:词频统计工具哪家强,已经得出来结论了,微词云是首先,不管是从分词文本数、还是筛词功能以及词云可视化图角度来说都比较优秀,其次是清博、易词云

mysql全文索引如何支持中文?

全文检索在MySQL里面很早就支持了,只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符,而对于中文来讲,显然用空格就不合适,需要针对中文语义进行分词。
这不,从MySQL5.7开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。
在使用中文检索分词插件ngram之前,先得在MySQL配置文件里面设置他的分词大小,比如,[mysqld]ngram_token_size2这里把分词大小设置为2。要记住,分词的SIZE越大,索引的体积就越大,所以要根据自身情况来设置合适的大小。示例表结构:
CREATE TABLE articles (id INTUNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,titleVARCHAR(200),body TEXT,FULLTEXT (title,body) WITH PARSER ngram) ENGINEInnoDBCHARACTER SET utf8mb4;示例数据,有6行记录。mysql select * from articlesG**************************
*1. row ***************************id: 1title: 数据库管理body: 在本教程中我将向你展示如何管理数据库***************************2. row ***************************id: 2title: 数据库应用开发body: 学习开发数据库应用程序***************************3. row ***************************id: 3title: MySQL完全手册body: 学习MySQL的一切***************************4. row ***************************id: 4title: 数据库与事务处理body: 系统的学习数据库的事务概论***************************5. row ***************************id: 5title: NoSQL精髓body: 学习了解各种非结构化数据库***************************6. row ***************************id: 6title: SQL 语言详解body: 详细了解如果使用各种SQL6 rows inset (0.00 sec)显式指定全文检索表源mysql SETGLOBAL innodb_ft_aux_tablenew_feature/articles;Query OK, 0 rows affected (0.00 sec)通过系统表,就可以查看到底是怎么划分articles里的数据。
mysql SELECT *FROM information__FT_INDEX_CACHE LIMIT 20,10; ------ -------------- ------------- ----------- -------- ---------- | WORD | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID| POSITION | ------ -------------- ------------- ----------- -------- ---------- | 中我 | 2 | 2 | 1 | 2 | 28 || 习m | 4 | 4 | 1 | 4 | 21 || 习了 | 6 | 6 | 1 | 6 | 16 || 习开 | 3 | 3 | 1 | 3 | 25 || 习数 | 5 | 5 | 1 | 5 | 37 || 了解 | 6 | 7 | 2 | 6 | 19 || 了解 | 6 | 7 | 2 | 7 | 23 || 事务 | 5 | 5 | 1 | 5 | 12 || 事务 | 5 | 5 | 1 | 5 | 40 || 何管 | 2 | 2 | 1 | 2 | 52 | ------ -------------- ------------- ----------- -------- ---------- 10 rows in set (0.00 sec)这里可以看到,把分词长度设置为2,所有的数据都只有两个一组。上面数据还包含了行的位置,ID等等信息。
接下来,我来进行一系列检索示范,使用方法和原来英文检索一致。1. 自然语言模式下检索:A,得到符合条件的个数,mysqlSELECT COUNT(*) FROM articles- WHERE MATCH (title,body) AGAINST (数据库 IN NATURALLANGUAGE MODE); ---------- | COUNT(*) | ---------- | 4 | ---------- 1 row in set (0.05 sec)B,得到匹配的比率,mysqlSELECT id, MATCH (title,body) AGAINST (数据库 IN NATURAL LANGUAGE MODE)AS score FROM articles; ---- ---------------------- | id| score | ---- ---------------------- | 1 | 0.12403252720832825 || 2 | 0.12403252720832825 || 3 | 0 || 4 | 0.12403252720832825 || 5 | 0.062016263604164124 || 6 | 0 | ---- ---------------------- 6rows in set (0.00 sec)2. 布尔模式下搜索,这个就相对于自然模式搜索来的复杂些:A,匹配既有管理又有数据库的记录,mysql SELECT * FROM articles WHERE MATCH (title,body)- AGAINST ( 数据库 管理 IN BOOLEAN MODE); ---- ------------ -------------------------------------- | id| title | body | ---- ------------ -------------------------------------- | 1 | 数据库管理 | 在本教程中我将向你展示如何管理数据库| ---- ------------ -------------------------------------- 1 rowin set (0.00 sec)B,匹配有数据库,但是没有管理的记录,mysql SELECT * FROM articles WHERE MATCH (title,body)- AGAINST ( 数据库 -管理 IN BOOLEAN MODE); ---- ------------------ ---------------------------- | id| title | body | ---- ------------------ ---------------------------- | 2 | 数据库应用开发 | 学习开发数据库应用程序 || 4 | 数据库与事务处理 | 系统的学习数据库的事务概论 || 5 | NoSQL 精髓 | 学习了解各种非结构化数据库 | ---- ------------------ ---------------------------- 3rows in set (0.00 sec)C,匹配MySQL,但是把数据库的相关性降低,mysql SELECT * FROM articles WHERE MATCH (title,body)- AGAINST (数据库 MySQL INBOOLEAN MODE); ---- --------------- ----------------- | id| title | body | ---- --------------- ----------------- | 3 | MySQL完全手册 |学习MySQL的一切 | ---- --------------- ----------------- 1 rowin set (0.00 sec)3,查询扩展模式,比如要搜索数据库,那么MySQL,oracle,DB2也都将会被搜索到,mysql SELECT * FROM articles- WHERE MATCH (title,body)- AGAINST (数据库 WITH QUERY EXPANSION); ---- ------------------ -------------------------------------- | id| title | body | ---- ------------------ -------------------------------------- | 1 | 数据库管理 | 在本教程中我将向你展示如何管理数据库| 4 | 数据库与事务处理 | 系统的学习数据库的事务概论| 2 | 数据库应用开发 | 学习开发数据库应用程序 || 5 | NoSQL 精髓 | 学习了解各种非结构化数据库 || 6 | SQL 语言详解 | 详细了解如果使用各种SQL|| 3 | MySQL完全手册 | 学习MySQL的一切 | ---- ------------------ -------------------------------------- 6rows in set (0.01 sec)当然,我这里只是功能演示,更多的性能测试,大家有兴趣可以进行详细测试。由于N-grm是中文检索常用的分词算法,已经在互联网大量使用,这次集成到mysql中,想必效果上不会有太大的问题。