歡迎您光臨本站 註冊首頁

Friso 1.6.4 發布 - ANSI C開發的中文分詞器

←手機掃碼閱讀     admin @ 2020-03-19 , reply:0

Friso 是使用 c 語言開發的一款開源的高性能中文分詞器,使用流行的mmseg演算法實現。完全基於模塊化設計和實現,可以很方便的植入其他程序中, 例如:MySQL,PHP,並且提供了php5, php7, ocaml, lua的插件實現。源碼無需修改就能在各種平台下編譯使用,載入完 20 萬的詞條,內存佔用穩定為 14.5M。

關於本次更新:

Friso 最近的一次更新是2017年,之後除了bug修復,也沒有再增加新的功能特性,同是17年Friso被嵌入了RediSearch作為對中文分詞的支持,也發現有些開發者將Friso嵌入了Mysql數據中,近期郵件收到了很多的反饋,決定給Friso增加一些新的功能特性目標是讓其更適合搜索。

與RediSearch的更緊密結合可以參考我給RediSearch提交的tokenizer的改造建議:https://github.com/RediSearch/RediSearch/issues/1084

Friso 1.6.4更新如下:

1、README完善了針對最新版本的詳細的文檔,各平台的編譯,測試,配置,詞庫的管理等。
2、PHP5和PHP7擴展實現的優化。
3、增加根目錄的Makefile和make testing的支持,便於對Friso內部的全部的test程序進行編譯和調試:


 ➜  friso git:(master) make testing
 cd src && make testing
 make[1]: Entering directory '/data0/code/c/friso/src'
 Try to make all the testing executable files ... 
 gcc -O2 -Wall -fPIC friso_array.c tst-array.c -o array-testing
 gcc -O2 -Wall -fPIC friso_hash.c tst-hash.c -o hash-testing
 gcc -O2 -Wall -fPIC friso_link.c tst-link.c -o link-testing
 gcc -O2 -Wall -fPIC friso_string.c tst-split.c -o split-testing
 gcc -O2 -Wall -fPIC friso_string.c tst-split.c -o split-testing
 gcc -O2 -Wall -fPIC friso_string.c friso_UTF8.c tst-string.c -o string-testing
 gcc -O2 -Wall -fPIC friso.c friso_lexicon.c friso_string.c friso_array.c friso_hash.c friso_link.c friso_ctype.c friso_UTF8.c friso_GBK.c tst-lex.c -lm -o lex-testing
 make[1]: Leaving directory '/data0/code/c/friso/src'

4,導出API的少量修改,具體參考README的Friso C API使用demo。

下載地址:

Gitee: https://gitee.com/lionsoul/friso/tree/v1.6.4-release
Github: https://github.com/lionsoul2014/friso/releases/tag/v1.6.4-release


[admin ]

來源:OsChina
連結:https://www.oschina.net/news/114173/friso-1-6-4-released
Friso 1.6.4 發布 - ANSI C開發的中文分詞器已經有200次圍觀

http://coctec.com/news/all/show-post-227707.html