Chinese text segmentation (10%)
Chinese text segmentation 中文分詞
Last updated
Chinese text segmentation 中文分詞
Last updated
Installation
Usage
歐陽建國 5
創新辦 5 i
歡聚時代 5
雲端計算 5
使用者字典每行一個詞,格式為:
詞語 詞頻 詞性
其中詞頻是一個數字,詞性為自定義的詞性,要注意的是詞頻數字和空格都要是半形的。
a 形容詞
ad 副形詞
an 名形詞
ag 形容詞性語素
al 形容詞性慣用語
b 區別詞
bl 區別詞性慣用語
c 連詞
cc 並列連詞
d 副詞
e 嘆詞
f 方位詞
h 字首
k 字尾
m 數詞
mq 數量詞
名詞分為以下子類:
n 名詞
nr 人名
nr1 漢語姓氏
nr2 漢語名字
nrj 日語人名
nrf 音譯人名
ns 地名
nsf 音譯地名
nt 機構團體名
nz 其它專名
nl 名詞性慣用語
ng 名詞性語素
o 擬聲詞
p 介詞
pba 介詞“把”
pbei 介詞“被”
q 量詞
qv 動量詞
qt 時量詞
r 代詞
rr 人稱代詞
rz 指示代詞
rzt 時間指示代詞
rzs 處所指示代詞
rzv 謂詞性指示代詞
ry 疑問代詞
ryt 時間疑問代詞
rys 處所疑問代詞
ryv 謂詞性疑問代詞
rg 代詞性語素
s 處所詞
t 時間詞
tg 時間詞性語素
u 助詞
uzhe 著
ule 了 嘍
uguo 過
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一樣 一般 似的 般
udh 的話
uls 來講 來說 而言 說來
uzhi 之
ulian 連 (“連小學生都會”)
v 動詞
vd 副動詞
vn 名動詞
vshi 動詞“是”
vyou 動詞“有”
vf 趨向動詞
vx 形式動詞
vi 不及物動詞(內動詞)
vl 動詞性慣用語
vg 動詞性語素
w 標點符號
wkz 左括號,全形:( 〔 [ { 《 【 〖 〈 半形:( [ { <
wky 右括號,全形:) 〕 ] } 》 】 〗 〉 半形: ) ] { >
wyz 左引號,全形:“ ‘ 『
wyy 右引號,全形:” ’ 』
wj 句號,全形:。
ww 問號,全形:? 半形:?
wt 歎號,全形:! 半形:!
wd 逗號,全形:, 半形:,
wf 分號,全形:; 半形: ;
wn 頓號,全形:、
wm 冒號,全形:: 半形: :
ws 省略號,全形:…… …
wp 破折號,全形:—— -- ——- 半形:--- ----
wb 百分號千分號,全形:% ‰ 半形:%
wh 單位符號,全形:¥ $ £ ° ℃ 半形:$
x 字串
xx 非語素字
xu 網址URL
y 語氣詞(delete yg)
z 狀態詞