906

0

Mysql Ngram

mysql ngram 全文解析器

ngram 全文解析器

内置的 MySQL 全文解析器使用单词之间的空白作为分隔符来确定单词的开始和结束位置,这是使用不使用单词分隔符的表意语言时的限制。为了解决这个限制,MySQL 提供了一个支持中文、日文和韩文 (CJK) 的 ngram 全文解析器。支持 ngram 全文解析器与InnoDB和 一起使用MyISAM

nngram 是来自给定文本序列 的连续 字符序列。ngram 解析器将文本序列标记为连续的 n字符序列。例如,您可以将“ abcd ”标记为 n使用 ngram 全文解析器的不同值。

n=1: 'a', 'b', 'c', 'd'
n=2: 'ab', 'bc', 'cd'
n=3: 'abc', 'bcd'
n=4: 'abcd'

ngram 全文解析器是一个内置的服务器插件。与其他内置服务器插件一样,它会在服务器启动时自动加载。

第 12.10 节,“全文搜索功能” 中描述的全文搜索语法 适用于 ngram 解析器插件。本节描述了解析行为的差异。与全文相关的配置选项,除了最小和最大字长选项 ( innodb_ft_min_token_size, innodb_ft_max_token_size, ft_min_word_len, ft_max_word_len) 也适用。

配置 ngram 令牌大小

ngram 解析器的默认 ngram 标记大小为 2 (bigram)。例如,标记大小为 2 时,ngram 解析器将字符串“ abc def ”解析为四个标记: “ ab ”、“ bc ”、“ de ”和 “ ef ”。

ngram 令牌大小可使用 ngram_token_size配置选项进行配置,最小值为 1,最大值为 10。

通常,ngram_token_size设置为您要搜索的最大标记的大小。如果您只打算搜索单个字符,请设置 ngram_token_size为 1。较小的标记大小会产生较小的全文搜索索引,并且搜索速度会更快。如果您需要搜索包含多个字符的单词,请进行 ngram_token_size相应设置。比如“ Happy Birthday ”简体中文 是 “快乐” , “birthday”是 “生日”, “happy”翻译为“快乐”。要搜索诸如此类的两个字符的单词,请将ngram_token_size 值设置为 2 或更高。

作为只读变量, ngram_token_size只能设置为启动字符串的一部分或配置文件:

  • 启动字符串:
    mysqld --ngram_token_size=2
  • 配置文件:
    [mysqld]
    ngram_token_size=2

笔记

FULLTEXT对于使用 ngram 解析器 的索引,将忽略以下最小和最大字长配置选项: innodb_ft_min_token_sizeinnodb_ft_max_token_sizeft_min_word_lenft_max_word_len.

创建使用 ngram 解析器的 FULLTEXT 索引

要创建 FULLTEXT使用 ngram 解析器的索引,请使用 WITH PARSER ngramCREATE TABLEALTER TABLE指定 CREATE INDEX

下面的示例演示了创建带有 ngram FULLTEXT索引的表、插入示例数据(简体中文文本)以及查看 INFORMATION_SCHEMA.INNODB_FT_INDEX_CACHE 表中的标记化数据。

mysql> USE test;

mysql> CREATE TABLE articles (
      id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
      title VARCHAR(200),
      body TEXT,
      FULLTEXT (title,body) WITH PARSER ngram
    ) ENGINE=InnoDB CHARACTER SET utf8mb4;

mysql> SET NAMES utf8mb4;

INSERT INTO articles (title,body) VALUES
    ('数据库管理','在本教程中我将向你展示如何管理数据库'),
    ('数据库应用开发','学习开发数据库应用程序');

mysql> SET GLOBAL innodb_ft_aux_table="test/articles";

mysql> SELECT * FROM INFORMATION_SCHEMA.INNODB_FT_INDEX_CACHE ORDER BY doc_id, position;

要将 FULLTEXT索引添加到现有表,您可以使用ALTER TABLECREATE INDEX。例如:

CREATE TABLE articles ( id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY, title VARCHAR(200), body TEXT ) ENGINE=InnoDB CHARACTER SET utf8mb4; ALTER TABLE articles ADD FULLTEXT INDEX ft_index (title,body) WITH PARSER ngram; # Or: CREATE FULLTEXT INDEX ft_index ON articles (title,body) WITH PARSER ngram;

ngram 解析器空间处理

ngram 解析器在解析时会消除空格。例如:

  • “ ab cd ”被解析为“ ab ”、 “ cd ”
  • “ a bc ”被解析为“ bc ”

ngram 解析器停用词处理

内置的 MySQL 全文解析器将单词与停用词列表中的条目进行比较。如果一个词等于停用词列表中的一个条目,则该词将从索引中排除。对于 ngram 解析器,停用词处理的执行方式不同。ngram 解析器不排除与停用词列表中的条目相等的标记,而是排除 包含停用词的标记。例如,假设 ngram_token_size=2,包含“ a,b ”的文档被解析为“ a, ” 和“ ,b ”。如果逗号(“ , ”)被定义为停用词,则“ a, ”和“ ,b ”从索引中排除,因为它们包含逗号。

默认情况下,ngram 解析器使用默认停用词列表,其中包含英语停用词列表。对于适用于中文、日文或韩文的停用词列表,您必须创建自己的。有关创建停用词列表的信息,请参阅 第 12.10.4 节,“全文停用词”

长度大于 ngram_token_size被忽略的停用词。

ngram 解析器术语搜索

对于自然语言模式搜索,搜索词被转换为 ngram 词的并集。例如,字符串“ abc ”(假设 ngram_token_size=2)被转换为“ ab bc ”。给定两个文档,一个包含“ ab ”,另一个包含 “ abc ”,搜索词“ ab bc ”匹配两个文档。

对于布尔模式搜索,搜索词被转换为 ngram 短语搜索。例如,字符串'abc'(假设 ngram_token_size=2)被转换为' “ ab bc ” '。给定两个文档,一个包含'ab',另一个包含'abc',搜索短语' “ ab bc ” '只匹配包含'abc'的文档。

ngram 解析器通配符搜索

由于 FULLTEXTngram 索引仅包含 ngram,并且不包含有关术语开头的信息,因此通配符搜索可能会返回意外结果。以下行为适用于使用 ngram FULLTEXT搜索索引的通配符搜索:

  • 如果通配符搜索的前缀词短于 ngram 标记大小,则查询将返回包含以前缀词开头的 ngram 标记的所有索引行。例如,假设 ngram_token_size=2搜索“ a* ”会返回所有以“ a ”开头的行 。
  • 如果通配符搜索的前缀项长于 ngram 标记大小,则前缀项将转换为 ngram 短语并忽略通配符运算符。例如,假设 ngram_token_size=2“ abc * ”通配符搜索被转换为 “ ab bc ”。

ngram 解析器短语搜索

短语搜索被转换为 ngram 短语搜索。例如,搜索短语“ abc ”转换为 “ ab bc ”,返回包含 “ abc ”和“ ab bc ”的文档。

搜索短语“ abc def ”被转换为 “ ab bc de ef ”,它返回包含 “ abc def ”和“ ab bc de ef ”的文档。不返回 包含“ abcdef ”的文档。