MySQL 中文分词数据库

中文分词算法有哪些比较好用的中文词频统计和分析的工具？

[更新]

日期：2023-06-11 16:50:26

分类：行业

1391 阅读

中文分词算法

有哪些比较好用的中文词频统计和分析的工具？

有哪些比较好用的中文词频统计和分析的工具？

推荐7款词频统计免费的工具，个有千秋地方。
第一款：微词云地址：
分析文本量：在20w～100w之间
自定义词典：不支持
分词精准度：比较准
筛词功能：提供词性筛选词，单词数量筛选词
词频统计数据下载：支持
生成词云效果图：支持（词云图多样化），可以显单词1000以内
词性可视化图：不支持
如图所示
PS：微词云的优点很多，可以满足大部分的需求，可以支持十几万以上的大文本分词；做可视化词云图片非常好看，操作体验很不错
第二款：清博词频统计地址：
分析文本量：在5w以内
自定义词典：不支持
分词精准度：比较准
筛词功能：不支持
词频统计数据下载：支持
生成词云效果图：支持（固定词云图），只显示前100个单词
词性可视化图：支持
第三款：易词云地址：
分析文本量：在5w以内
自定义词典：不支持
分词精准度：比较准
筛词功能：提供词性筛选词，单词数量筛选词
词频统计数据下载：不支持
生成词云效果图：支持（词云图多样化），可以显单词1000以内
词性可视化图：不支持
第四款：图悦地址：
分析文本量：10w
自定义词典：不支持
分词精准度：比较准
筛词功能：不支持
词频统计数据下载：支持
生成词云效果图：支持（可选词云图），只显示前45个单词
词性可视化图：（词云图可选），但词云图显示太少
词性可视化图：不支持
PS：大文本分词是图悦的优势，但可视化很差，需要另外找词云工具做可视化图
第五款：优词云地址：
分析文本量：在3000k以内(少)
自定义词典：不支持
分词精准度：一般
筛词功能：不支持
词频统计数据下载：支持
生成词云效果图：可选词云图，可以显不重复单词300
词性可视化图：不支持
第六款：7890站长工具地址：
分析文本量：在10w
自定义词典：不支持
分词精准度：一般
筛词功能：不支持
词频统计数据下载：不支持
生成词云效果图：不支持
词性可视化图：不支持
第七款：中文词频统计工具地址：
分析文本量：在10w
自定义词典：不支持
分词精准度：一般
筛词功能：不支持
词频统计数据下载：不支持
生成词云效果图：不支持
词性可视化图：不支持
总结
综上所述：词频统计工具哪家强，已经得出来结论了，微词云是首先，不管是从分词文本数、还是筛词功能以及词云可视化图角度来说都比较优秀，其次是清博、易词云

mysql全文索引如何支持中文？

全文检索在MySQL里面很早就支持了，只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符，而对于中文来讲，显然用空格就不合适，需要针对中文语义进行分词。
这不，从MySQL5.7开始，MySQL内置了ngram全文检索插件，用来支持中文分词，并且对MyISAM和InnoDB引擎有效。
在使用中文检索分词插件ngram之前，先得在MySQL配置文件里面设置他的分词大小，比如，[mysqld]ngram_token_size2这里把分词大小设置为2。要记住，分词的SIZE越大，索引的体积就越大，所以要根据自身情况来设置合适的大小。示例表结构：
CREATE TABLE articles (id INTUNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,titleVARCHAR(200),body TEXT,FULLTEXT (title,body) WITH PARSER ngram) ENGINEInnoDBCHARACTER SET utf8mb4;示例数据，有6行记录。mysql select * from articlesG**************************
*1. row ***************************id: 1title: 数据库管理body: 在本教程中我将向你展示如何管理数据库***************************2. row ***************************id: 2title: 数据库应用开发body: 学习开发数据库应用程序***************************3. row ***************************id: 3title: MySQL完全手册body: 学习MySQL的一切***************************4. row ***************************id: 4title: 数据库与事务处理body: 系统的学习数据库的事务概论***************************5. row ***************************id: 5title: NoSQL精髓body: 学习了解各种非结构化数据库***************************6. row ***************************id: 6title: SQL 语言详解body: 详细了解如果使用各种SQL6 rows inset (0.00 sec)显式指定全文检索表源mysql SETGLOBAL innodb_ft_aux_tablenew_feature/articles;Query OK, 0 rows affected (0.00 sec)通过系统表，就可以查看到底是怎么划分articles里的数据。
mysql SELECT *FROM information__FT_INDEX_CACHE LIMIT 20,10; ------ -------------- ------------- ----------- -------- ---------- | WORD | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID| POSITION | ------ -------------- ------------- ----------- -------- ---------- | 中我 | 2 | 2 | 1 | 2 | 28 || 习m | 4 | 4 | 1 | 4 | 21 || 习了 | 6 | 6 | 1 | 6 | 16 || 习开 | 3 | 3 | 1 | 3 | 25 || 习数 | 5 | 5 | 1 | 5 | 37 || 了解 | 6 | 7 | 2 | 6 | 19 || 了解 | 6 | 7 | 2 | 7 | 23 || 事务 | 5 | 5 | 1 | 5 | 12 || 事务 | 5 | 5 | 1 | 5 | 40 || 何管 | 2 | 2 | 1 | 2 | 52 | ------ -------------- ------------- ----------- -------- ---------- 10 rows in set (0.00 sec)这里可以看到，把分词长度设置为2，所有的数据都只有两个一组。上面数据还包含了行的位置，ID等等信息。
接下来，我来进行一系列检索示范，使用方法和原来英文检索一致。1. 自然语言模式下检索：A，得到符合条件的个数，mysqlSELECT COUNT(*) FROM articles- WHERE MATCH (title,body) AGAINST (数据库 IN NATURALLANGUAGE MODE); ---------- | COUNT(*) | ---------- | 4 | ---------- 1 row in set (0.05 sec)B，得到匹配的比率，mysqlSELECT id, MATCH (title,body) AGAINST (数据库 IN NATURAL LANGUAGE MODE)AS score FROM articles; ---- ---------------------- | id| score | ---- ---------------------- | 1 | 0.12403252720832825 || 2 | 0.12403252720832825 || 3 | 0 || 4 | 0.12403252720832825 || 5 | 0.062016263604164124 || 6 | 0 | ---- ---------------------- 6rows in set (0.00 sec)2. 布尔模式下搜索，这个就相对于自然模式搜索来的复杂些：A，匹配既有管理又有数据库的记录，mysql SELECT * FROM articles WHERE MATCH (title,body)- AGAINST ( 数据库管理 IN BOOLEAN MODE); ---- ------------ -------------------------------------- | id| title | body | ---- ------------ -------------------------------------- | 1 | 数据库管理 | 在本教程中我将向你展示如何管理数据库| ---- ------------ -------------------------------------- 1 rowin set (0.00 sec)B，匹配有数据库，但是没有管理的记录，mysql SELECT * FROM articles WHERE MATCH (title,body)- AGAINST ( 数据库 -管理 IN BOOLEAN MODE); ---- ------------------ ---------------------------- | id| title | body | ---- ------------------ ---------------------------- | 2 | 数据库应用开发 | 学习开发数据库应用程序 || 4 | 数据库与事务处理 | 系统的学习数据库的事务概论 || 5 | NoSQL 精髓 | 学习了解各种非结构化数据库 | ---- ------------------ ---------------------------- 3rows in set (0.00 sec)C，匹配MySQL，但是把数据库的相关性降低，mysql SELECT * FROM articles WHERE MATCH (title,body)- AGAINST (数据库 MySQL INBOOLEAN MODE); ---- --------------- ----------------- | id| title | body | ---- --------------- ----------------- | 3 | MySQL完全手册 |学习MySQL的一切 | ---- --------------- ----------------- 1 rowin set (0.00 sec)3，查询扩展模式，比如要搜索数据库，那么MySQL，oracle，DB2也都将会被搜索到，mysql SELECT * FROM articles- WHERE MATCH (title,body)- AGAINST (数据库 WITH QUERY EXPANSION); ---- ------------------ -------------------------------------- | id| title | body | ---- ------------------ -------------------------------------- | 1 | 数据库管理 | 在本教程中我将向你展示如何管理数据库| 4 | 数据库与事务处理 | 系统的学习数据库的事务概论| 2 | 数据库应用开发 | 学习开发数据库应用程序 || 5 | NoSQL 精髓 | 学习了解各种非结构化数据库 || 6 | SQL 语言详解 | 详细了解如果使用各种SQL|| 3 | MySQL完全手册 | 学习MySQL的一切 | ---- ------------------ -------------------------------------- 6rows in set (0.01 sec)当然，我这里只是功能演示，更多的性能测试，大家有兴趣可以进行详细测试。由于N-grm是中文检索常用的分词算法，已经在互联网大量使用，这次集成到mysql中，想必效果上不会有太大的问题。

中文分词算法 有哪些比较好用的中文词频统计和分析的工具？

有哪些比较好用的中文词频统计和分析的工具？

mysql全文索引如何支持中文？

中文分词算法有哪些比较好用的中文词频统计和分析的工具？