Natural Language Processing (NLP) (10%)

自然語言處理（英語：Natural Language Processing，縮寫作 NLP）是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言；自然語言處理包括多方面和步驟，基本有認知、理解、生成等部分。

Development Life Cycle (開發生命周期)
Chinese text segmentation (分詞)
Part-of-speech tagging (詞性標示)
Named Entity Recognition (NER) (實體識別)
Parsing (句法分析)
Text-proofing (文字校對)
Text Classification (文本分類)
Information retrieval (信息檢索)
Information extraction (信息抽取)
Text summarization (文本摘要)
Question answering (問答系統)
Natural language generation (自然語言生成)
Sentiment analysis (情感分析)
Speech recognition (語音識別)
Text to speech (文本朗讀)
Speech synthesis (語音合成)
Paper (論文)

Development Life Cycle

NLP 開發生命周期

理解問題

收集數據/語料

數據/語料分折

Data pre-processing (數據預處理)

特徵工程

決定使用的計算技術 (Rules base, machine learning ...)

應用計算技術

測試和評估系統結果

優化調整參數

持續此過程直到得到滿意的結果

Chinese Text Segmentation

jieba (結巴分詞)

Part-of-speech tagging (詞性標示)

Named Entity Recognition (NER) (實體識別)

Reference

技术成就梦想51CTO-中国领先的IT技术网站

於 Conda run Stanford Corenlp

使用 Stanford Corenlp (中文)+PyMedium

Text Classification (文本分類)

Sentence Similarity (句子相似度計算)

REF

自然语言处理中句子相似度计算的几种方法 - 掘金

https://github.com/AIPractice/SentenceDistance

Numpy Array Similarity

相似度计算_wepon的专栏-CSDN博客_相异度计算

Code

#相似度计算,inA、inB都是行向量

import numpy as np
from numpy import linalg as la
 
#欧式距离
def euclidSimilar(inA,inB):
    return 1.0/(1.0+la.norm(inA-inB))
#皮尔逊相关系数
def pearsonSimilar(inA,inB):
    if len(inA)<3:
        return 1.0
    return 0.5+0.5*np.corrcoef(inA,inB,rowvar=0)[0][1]
#余弦相似度
def cosSimilar(inA,inB):
    inA=np.mat(inA)
    inB=np.mat(inB)
    num=float(inA*inB.T)
    denom=la.norm(inA)*la.norm(inB)
    return 0.5+0.5*(num/denom)

Test

>>> inA=array([1,2,3])
>>> inB=array([2,4,6])
>>> euclidSimilar(inA,inB)
0.21089672205953397
>>> pearsonSimilar(inA,inB)
1.0
>>> cosSimilar(inA,inB)
1.0