課程描述INTRODUCTION
自然語言處理(簡稱 NLP)是計(jì)算機(jī)科學(xué)和人工智能研究的一個(gè)重要方向,研究計(jì)算機(jī)和理解和運(yùn)用人類語言進(jìn)行交互的問題,它是集語言學(xué)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、大數(shù)據(jù)于一體的綜合學(xué)科。 本課程主要介紹了NLP中的常用知識(shí)點(diǎn):分詞、詞法分析、句法分析、向量化方法、經(jīng)典的NLP機(jī)器學(xué)習(xí)算法,還重點(diǎn)介紹了NLP中最近兩年來基于大規(guī)模語料預(yù)訓(xùn)練的詞嵌入模型及應(yīng)用。同時(shí)本課程偏重于實(shí)戰(zhàn),不僅系統(tǒng)地介紹了 NLP的知識(shí)點(diǎn),還講解如何實(shí)際應(yīng)用和開發(fā),每章節(jié)都有相應(yīng)的實(shí)戰(zhàn)代碼。
日程安排SCHEDULE
課程大綱Syllabus
NLP實(shí)戰(zhàn)
第一天:傳統(tǒng)的NLP
一、NLP基礎(chǔ)知識(shí)
1、自然語言處理簡介
2、中文NLP的主要任務(wù)
3、常見的NLP系統(tǒng)
4、NLP的研究機(jī)構(gòu)與資源
二、中文分詞
1、基于字符串匹配的分詞
2、統(tǒng)計(jì)分詞法與分詞中的消歧
3、命名實(shí)體識(shí)別
4、常用分詞工具:JIEBA
三、文本的相似性
1、VSM
2、TF-IDF
3、初步情感分析
四、隱馬爾科夫模型
1、形式化定義
2、三個(gè)問題
3、評(píng)估問題與向前向后算法
4、解碼問題:維特比算法
5、學(xué)習(xí)問題:Baum-Welch算法
五、條件隨機(jī)場
1、*熵原理
2、無向圖模型
3、*團(tuán)上的勢函數(shù)
4、工具:CRF++
第二天:從傳統(tǒng)到現(xiàn)代
一、從LSA到LDA
1、LSA與SVD分解
2、pLSA
3、LDA
二、神經(jīng)網(wǎng)絡(luò)語言模型
1、維數(shù)的詛咒
2、n-gram語言模型
3、NNLM的具體實(shí)現(xiàn)
4、改進(jìn)的思路
三、word2vec
1、one-hot與Distributed
2、CBOW
3、skip-gram
4、Hierachical Softmax
5、Negative Sampling
四、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
1、RNN的基礎(chǔ)架構(gòu)
2、RNN的示例
3、LSTM
4、GRU
第三天:預(yù)訓(xùn)練模型之一(變形金剛、芝麻街、獨(dú)角獸及其他)
一、GloVe
1、與word2vec的區(qū)別
2、統(tǒng)計(jì)共現(xiàn)矩陣
3、用GloVe訓(xùn)練詞向量
二、Transformer
1、所有你需要的僅僅是“注意力”
2、Transformer中的block
3、自注意力與多頭注意力
4、位置編碼(為什么可以拋棄RNN)
三、三大特征抽取器的比較
1、CNN、RNN與Transformer的比較
2、融合各種模型
四、Elmo
1、雙向語言模型
2、工作原理
3、Elmo的應(yīng)用場景
五、GPT
1、“一定會(huì)有人用它干壞事”
2、GPT的內(nèi)部架構(gòu)
3、Transformer的演示
4、自注意力機(jī)制的改進(jìn)
5、GPT的應(yīng)用場景
第四天:預(yù)訓(xùn)練模型之二(站上BERT的肩頭)
一、BERT的前世今生
1、之前介紹的模型回顧
2、現(xiàn)代NLP的*應(yīng)用場景
3、條條大路通BERT
二、BERT詳解
1、原理與方法
2、BERT的應(yīng)用場景
3、BERT源碼簡介
三、站在BERT肩膀上的新秀們
1、ERNIE
2、XLnet
NLP實(shí)戰(zhàn)
轉(zhuǎn)載:http://xvaqeci.cn/gkk_detail/244789.html
已開課時(shí)間Have start time
- 葉梓