# Chinese text segmentation (10%)

## jieba 結巴

<https://github.com/fxsjy/jieba>

Installation

```bash
pip install jieba
```

Usage

```python
import jieba
```

### 自訂使用者字典

#### 注：其中user\_dict.txt的內容如下：

歐陽建國 5

創新辦 5 i

歡聚時代 5

雲端計算 5

使用者字典每行一個詞，格式為：

詞語 詞頻 詞性

其中詞頻是一個數字，詞性為自定義的詞性，要注意的是詞頻數字和空格都要是半形的。

### 結巴分詞詞性對照表（按詞性英文首字母排序）

#### 形容詞(1個一類，4個二類) <a href="#xing-rong-ci-1-ge-yi-lei-4-ge-er-lei" id="xing-rong-ci-1-ge-yi-lei-4-ge-er-lei"></a>

a 形容詞

ad 副形詞

an 名形詞

ag 形容詞性語素

al 形容詞性慣用語

#### 區別詞(1個一類，2個二類) <a href="#qu-bie-ci-1-ge-yi-lei-2-ge-er-lei" id="qu-bie-ci-1-ge-yi-lei-2-ge-er-lei"></a>

b 區別詞

bl 區別詞性慣用語

#### 連詞(1個一類，1個二類) <a href="#lian-ci-1-ge-yi-lei-1-ge-er-lei" id="lian-ci-1-ge-yi-lei-1-ge-er-lei"></a>

c 連詞

cc 並列連詞

#### 副詞(1個一類) <a href="#fu-ci-1-ge-yi-lei" id="fu-ci-1-ge-yi-lei"></a>

d 副詞

#### 嘆詞(1個一類) <a href="#tan-ci-1-ge-yi-lei" id="tan-ci-1-ge-yi-lei"></a>

e 嘆詞

#### 方位詞(1個一類) <a href="#fang-wei-ci-1-ge-yi-lei" id="fang-wei-ci-1-ge-yi-lei"></a>

f 方位詞

#### 字首(1個一類) <a href="#zi-shou-1-ge-yi-lei" id="zi-shou-1-ge-yi-lei"></a>

h 字首

#### 字尾(1個一類) <a href="#zi-wei-1-ge-yi-lei" id="zi-wei-1-ge-yi-lei"></a>

k 字尾

#### 數詞(1個一類，1個二類) <a href="#shu-ci-1-ge-yi-lei-1-ge-er-lei" id="shu-ci-1-ge-yi-lei-1-ge-er-lei"></a>

m 數詞

mq 數量詞

#### 名詞 (1個一類，7個二類，5個三類) <a href="#ming-ci-1-ge-yi-lei-7-ge-er-lei-5-ge-san-lei" id="ming-ci-1-ge-yi-lei-7-ge-er-lei-5-ge-san-lei"></a>

名詞分為以下子類：

n 名詞

nr 人名

nr1 漢語姓氏

nr2 漢語名字

nrj 日語人名

nrf 音譯人名

ns 地名

nsf 音譯地名

nt 機構團體名

nz 其它專名

nl 名詞性慣用語

ng 名詞性語素

#### 擬聲詞(1個一類) <a href="#ni-sheng-ci-1-ge-yi-lei" id="ni-sheng-ci-1-ge-yi-lei"></a>

o 擬聲詞

#### 介詞(1個一類，2個二類) <a href="#jie-ci-1-ge-yi-lei-2-ge-er-lei" id="jie-ci-1-ge-yi-lei-2-ge-er-lei"></a>

p 介詞

pba 介詞“把”

pbei 介詞“被”

#### 量詞(1個一類，2個二類) <a href="#liang-ci-1-ge-yi-lei-2-ge-er-lei" id="liang-ci-1-ge-yi-lei-2-ge-er-lei"></a>

q 量詞

qv 動量詞

qt 時量詞

#### 代詞(1個一類，4個二類，6個三類) <a href="#dai-ci-1-ge-yi-lei-4-ge-er-lei-6-ge-san-lei" id="dai-ci-1-ge-yi-lei-4-ge-er-lei-6-ge-san-lei"></a>

r 代詞

rr 人稱代詞

rz 指示代詞

rzt 時間指示代詞

rzs 處所指示代詞

rzv 謂詞性指示代詞

ry 疑問代詞

ryt 時間疑問代詞

rys 處所疑問代詞

ryv 謂詞性疑問代詞

rg 代詞性語素

#### 處所詞(1個一類) <a href="#chu-suo-ci-1-ge-yi-lei" id="chu-suo-ci-1-ge-yi-lei"></a>

s 處所詞

#### 時間詞(1個一類，1個二類) <a href="#shi-jian-ci-1-ge-yi-lei-1-ge-er-lei" id="shi-jian-ci-1-ge-yi-lei-1-ge-er-lei"></a>

t 時間詞

tg 時間詞性語素

#### 助詞(1個一類，15個二類) <a href="#zhu-ci-1-ge-yi-lei-15-ge-er-lei" id="zhu-ci-1-ge-yi-lei-15-ge-er-lei"></a>

u 助詞

uzhe 著

ule 了 嘍

uguo 過

ude1 的 底

ude2 地

ude3 得

usuo 所

udeng 等 等等 云云

uyy 一樣 一般 似的 般

udh 的話

uls 來講 來說 而言 說來

uzhi 之

ulian 連 （“連小學生都會”）

#### 動詞(1個一類，9個二類) <a href="#dong-ci-1-ge-yi-lei-9-ge-er-lei" id="dong-ci-1-ge-yi-lei-9-ge-er-lei"></a>

v 動詞

vd 副動詞

vn 名動詞

vshi 動詞“是”

vyou 動詞“有”

vf 趨向動詞

vx 形式動詞

vi 不及物動詞（內動詞）

vl 動詞性慣用語

vg 動詞性語素

#### 標點符號(1個一類，16個二類) <a href="#biao-dian-fu-hao-1-ge-yi-lei-16-ge-er-lei" id="biao-dian-fu-hao-1-ge-yi-lei-16-ge-er-lei"></a>

w 標點符號

wkz 左括號，全形：（ 〔 ［ ｛ 《 【 〖 〈 半形：( \[ { <

wky 右括號，全形：） 〕 ］ ｝ 》 】 〗 〉 半形： ) ] { >

wyz 左引號，全形：“ ‘ 『

wyy 右引號，全形：” ’ 』

wj 句號，全形：。

ww 問號，全形：？ 半形：?

wt 歎號，全形：！ 半形：!

wd 逗號，全形：， 半形：,

wf 分號，全形：； 半形： ;

wn 頓號，全形：、

wm 冒號，全形：： 半形： :

ws 省略號，全形：…… …

wp 破折號，全形：—— －－ ——－ 半形：--- ----

wb 百分號千分號，全形：％ ‰ 半形：%

wh 單位符號，全形：￥ ＄ ￡ ° ℃ 半形：$

#### 字串(1個一類，2個二類) <a href="#zi-chuan-1-ge-yi-lei-2-ge-er-lei" id="zi-chuan-1-ge-yi-lei-2-ge-er-lei"></a>

x 字串

xx 非語素字

xu 網址URL

#### 語氣詞(1個一類) <a href="#yu-qi-ci-1-ge-yi-lei" id="yu-qi-ci-1-ge-yi-lei"></a>

y 語氣詞(delete yg)

#### 狀態詞(1個一類) <a href="#zhuang-tai-ci-1-ge-yi-lei" id="zhuang-tai-ci-1-ge-yi-lei"></a>

z 狀態詞

{% hint style="info" %}
&#x20;Super-powers are granted randomly so please submit an issue if you're not happy with yours.
{% endhint %}

## 識別新詞

{% embed url="<https://www.ctolib.com/topics-116667.html>" %}

{% embed url="<https://github.com/Moonshile/ChineseWordSegmentation>" %}

## Reference

{% embed url="<http://blog.fukuball.com/ru-he-shi-yong-jieba-jie-ba-zhong-wen-fen-ci-cheng-shi/>" %}

{% embed url="<https://github.com/fxsjy/jieba>" %}

{% embed url="<https://speakerdeck.com/fukuball/head-first-chinese-text-segmentation>" %}
