全文检索软件公开
更新:2007-10-01
對映章節:
来自日本PostgreSQLユーザ会 mailing-list的消息,发送者石井达夫先生。
內容:
全文检索软件已经公开,是在“独立行政法人情報処理推進機構(IPA)”的2006年度“自治体における
它是个完全基于BSD许可证的自由软件,可以自由使用。
1、用户定义函数normalize
- 删除换行code
- 字符集JIS X 0208的字母数字转换为ASCII
- JIS X 0201向JIS X 0208的转换(这段我看不懂,他们的编码,简单说就是这样)
- ASCII大写转换为小写
通过这个规则可以消除掉误差
实例如下:
test=# SELECT normalize('01234567890123abcあいうえおABC');
normalize
--------------------------------
01234567890123abcあいうえおabc
(1 row)
test=# SELECT normalize('ガギグゲゴ');
normalize
------------
ガギグゲゴ
(1 row)
------------------------------
01234567890123abcあいうえおabc
(1 row)
test=# SELECT normalize('ガギグゲゴ');
normalize
------------
ガギグゲゴ
(1 row)
2、用户定义函数wakachi
使用mecab(http://mecab.sourceforge.jp/)解析输入的字符串,变成用空格分割单词的形式,这就是所说的“わかち書き”(以空格分隔单词的意思)。
实例如下:
test=# SELECT wakachi('wakachiはPostgreSQLのユーザ定義C関数です');
wakachi
--------------------------------------------------
wakachi は PostgreSQL の ユーザ 定義 C 関数 です
------------------------------
wakachi は PostgreSQL の ユーザ 定義 C 関数 です
3、此外
- functions
这两个函数与TSearch2结合进行全文检索的例子(mail 只是这样说,可能是指这个软件自带范例)
- utf8_and_euc_jp_jis
日文编码相关如何如何,不翻译了
题外话:
感慨一下,日本人为自己很下功夫,当然也必须承认,背后财团的支持也是不可少的。
我们没有财力支持,他们可以把这个作为自己的职业,而我们不能。
沒有留言:
張貼留言