Chinese text segmentation (10%)

Chinese text segmentation 中文分詞

jieba 結巴

https://github.com/fxsjy/jieba

Installation

pip install jieba

Usage

import jieba

自訂使用者字典

注:其中user_dict.txt的內容如下:

歐陽建國 5

創新辦 5 i

歡聚時代 5

雲端計算 5

使用者字典每行一個詞,格式為:

詞語 詞頻 詞性

其中詞頻是一個數字,詞性為自定義的詞性,要注意的是詞頻數字和空格都要是半形的。

結巴分詞詞性對照表(按詞性英文首字母排序)

形容詞(1個一類,4個二類)

a 形容詞

ad 副形詞

an 名形詞

ag 形容詞性語素

al 形容詞性慣用語

區別詞(1個一類,2個二類)

b 區別詞

bl 區別詞性慣用語

連詞(1個一類,1個二類)

c 連詞

cc 並列連詞

副詞(1個一類)

d 副詞

嘆詞(1個一類)

e 嘆詞

方位詞(1個一類)

f 方位詞

字首(1個一類)

h 字首

字尾(1個一類)

k 字尾

數詞(1個一類,1個二類)

m 數詞

mq 數量詞

名詞 (1個一類,7個二類,5個三類)

名詞分為以下子類:

n 名詞

nr 人名

nr1 漢語姓氏

nr2 漢語名字

nrj 日語人名

nrf 音譯人名

ns 地名

nsf 音譯地名

nt 機構團體名

nz 其它專名

nl 名詞性慣用語

ng 名詞性語素

擬聲詞(1個一類)

o 擬聲詞

介詞(1個一類,2個二類)

p 介詞

pba 介詞“把”

pbei 介詞“被”

量詞(1個一類,2個二類)

q 量詞

qv 動量詞

qt 時量詞

代詞(1個一類,4個二類,6個三類)

r 代詞

rr 人稱代詞

rz 指示代詞

rzt 時間指示代詞

rzs 處所指示代詞

rzv 謂詞性指示代詞

ry 疑問代詞

ryt 時間疑問代詞

rys 處所疑問代詞

ryv 謂詞性疑問代詞

rg 代詞性語素

處所詞(1個一類)

s 處所詞

時間詞(1個一類,1個二類)

t 時間詞

tg 時間詞性語素

助詞(1個一類,15個二類)

u 助詞

uzhe 著

ule 了 嘍

uguo 過

ude1 的 底

ude2 地

ude3 得

usuo 所

udeng 等 等等 云云

uyy 一樣 一般 似的 般

udh 的話

uls 來講 來說 而言 說來

uzhi 之

ulian 連 (“連小學生都會”)

動詞(1個一類,9個二類)

v 動詞

vd 副動詞

vn 名動詞

vshi 動詞“是”

vyou 動詞“有”

vf 趨向動詞

vx 形式動詞

vi 不及物動詞(內動詞)

vl 動詞性慣用語

vg 動詞性語素

標點符號(1個一類,16個二類)

w 標點符號

wkz 左括號,全形:( 〔 [ { 《 【 〖 〈 半形:( [ { <

wky 右括號,全形:) 〕 ] } 》 】 〗 〉 半形: ) ] { >

wyz 左引號,全形:“ ‘ 『

wyy 右引號,全形:” ’ 』

wj 句號,全形:。

ww 問號,全形:? 半形:?

wt 歎號,全形:! 半形:!

wd 逗號,全形:, 半形:,

wf 分號,全形:; 半形: ;

wn 頓號,全形:、

wm 冒號,全形:: 半形: :

ws 省略號,全形:…… …

wp 破折號,全形:—— -- ——- 半形:--- ----

wb 百分號千分號,全形:% ‰ 半形:%

wh 單位符號,全形:¥ $ £ ° ℃ 半形:$

字串(1個一類,2個二類)

x 字串

xx 非語素字

xu 網址URL

語氣詞(1個一類)

y 語氣詞(delete yg)

狀態詞(1個一類)

z 狀態詞

Super-powers are granted randomly so please submit an issue if you're not happy with yours.

識別新詞

Reference

Last updated