2007-10-01

全文检索软件公开

更新:2007-10-01
對映章節:
来自日本PostgreSQLユーザ会 mailing-list的消息,发送者石井达夫先生。

內容:
全文检索软件已经公开,是在“独立行政法人情報処理推進機構(IPA)”的2006年度“自治体における

オープンソースソフトウェア活用に向けての導入実証” project中开发的。

它是个完全基于BSD许可证的自由软件,可以自由使用。

1、用户定义函数normalize
输入的正文以一定的规则“正规化”,具有以下功能:
- 删除换行code
- 字符集JIS X 0208的字母数字转换为ASCII
- JIS X 0201向JIS X 0208的转换(这段我看不懂,他们的编码,简单说就是这样)
- ASCII大写转换为小写
通过这个规则可以消除掉误差

实例如下:
test=# SELECT normalize('01234567890123abcあいうえおABC');
normalize
--------------------------------
01234567890123abcあいうえおabc
(1 row)

test=# SELECT normalize('ガギグゲゴ');
normalize
------------
ガギグゲゴ
(1 row)

2、用户定义函数wakachi
使用mecab(http://mecab.sourceforge.jp/)解析输入的字符串,变成用空格分割单词的形式,这就是所说的“わかち書き”(以空格分隔单词的意思)。
实例如下:
test=# SELECT wakachi('wakachiはPostgreSQLのユーザ定義C関数です');
wakachi
--------------------------------------------------
wakachi は PostgreSQL の ユーザ 定義 C 関数 です

3、此外
- functions
这两个函数与TSearch2结合进行全文检索的例子(mail 只是这样说,可能是指这个软件自带范例)
- utf8_and_euc_jp_jis
日文编码相关如何如何,不翻译了

题外话:
感慨一下,日本人为自己很下功夫,当然也必须承认,背后财团的支持也是不可少的。
我们没有财力支持,他们可以把这个作为自己的职业,而我们不能。

沒有留言:

PostgreSQL & Google-Analytics Running...

::Planet PostgreSQL::

PostgreSQL Information Page

PostgreSQL日記(日本 石井達夫先生Blog)

PostgreSQL News

黑喵的家 - 資料庫相關

Google 網上論壇
PostgreSQL 8 DBA 專業指南中文版
書籍內容討論與更多下載區(造訪此群組)
目錄下載: PostgreSQL_8 _DBA_Index_zh_TW.pdf (更新:2007-05-18)

全球訪客分佈圖(Google)

全球訪客分佈圖(Google)