Chinese text segmentation (10%)
Chinese text segmentation 中文分詞
jieba 結巴
pip install jiebaimport jieba自訂使用者字典
注:其中user_dict.txt的內容如下:
結巴分詞詞性對照表(按詞性英文首字母排序)
形容詞(1個一類,4個二類)
區別詞(1個一類,2個二類)
連詞(1個一類,1個二類)
副詞(1個一類)
嘆詞(1個一類)
方位詞(1個一類)
字首(1個一類)
字尾(1個一類)
數詞(1個一類,1個二類)
名詞 (1個一類,7個二類,5個三類)
擬聲詞(1個一類)
介詞(1個一類,2個二類)
量詞(1個一類,2個二類)
代詞(1個一類,4個二類,6個三類)
處所詞(1個一類)
時間詞(1個一類,1個二類)
助詞(1個一類,15個二類)
動詞(1個一類,9個二類)
標點符號(1個一類,16個二類)
字串(1個一類,2個二類)
語氣詞(1個一類)
狀態詞(1個一類)
識別新詞
Reference
Last updated