西南财经大学金融科技国际联合实验室《利用Python学习NLP》系列课件针对0基础的NLP(Natural Language Processing)学习者,通过代码实践,详细的注释与示意图讲解,让初学者一步步从最基础的文本处理开始,进阶到当前主流的预训练BERT、GPT等,并在实践中完成情感分析,语义理解,文本生成等经典NLP任务,掌握使用对应模型来解决现实中各类问题的能力。
本课件使用python进行编写,面向实践应用,尽量调用主流的库例如Pytorch
和transformer
,为了加强理解和应用,同时针对难点重点详解对应的源代码。
课件中使用的示例问题与数据选自实际应用中金融相关的算法比赛,论文代码复现等场景。
1. Chapter 1 NLP简介 - NLP简介.ipynb
此章节将介绍自然语言文本的内涵和当前的主要任务,例如文本分类、情绪分析、命名实体识别 (NER)、文本摘要、文本生成。并直接调用简单的代码直观实现当前的一些NLP任务。
- 1-1. 自然语言的性质
- 1-2. 自然语言处理的流程
- 1-3. 自然语言处理的主要任务
2. Chapter 2 文本的基本处理 - 文本的基本处理.ipynb
此章节将使用中文例子利用代码实现基本的文本字符串处理,文本清洗,简单的正则表达式,切词分词,词频统计,词云图等操作,掌握python处理文本的基本方法。
- 2-1. 基本的文本字符串处理方法
- 2-2. 文本清洗与正则表达式
- 2-3. 中文切词分词方法
- 2-4. 词频统计
- 2-5. 绘制词云图
3. Chapter 3 经典文本向量化方法 - 经典文本向量化方法.ipynb
此章节介绍文本向量化的基本概念并利用代码实现经典的文本向量化表示方法:one-hot,tfidf,基于语料库的词典方法。
- 3-1. one-hot
- 3-2. TF-IDF
- 3-3. 基于语料库的词典方法
4. Chapter 4 词嵌入与word2vec - 词嵌入与word2vec.ipynb
此章节介绍将单词映射到向量表示的内涵并利用使用经典word2vec例子完成代码学习,降维并作图。
- 4-1. 词嵌入的概念与简单实现
- 4-2. 利用python实现word2vec方法
- 4-3. 利用PCA方法对词嵌入向量降至二维并可视化
5. Chapter 5 文本数据增强 - 文本数据增强.ipynb
此章节介绍词汇替换,反译,噪声数据等文本增强技术的概念并利用中文实例使用代码掌握实现方法。
- 5-1. 文本截断
- 5-2. 文本数据扩充
- 5-3. 噪声技术(EDA)
6. Chapter 6 循环神经网络(RNN LSTM) - 循环神经网络.ipynb
此章节将详细介绍经典的循环神经网络RNN与LSTM,并利用详细拆解的python代码实现其功能与架构,最后通过循环神经网络进行NLP任务示例。
- 6-1. RNN
- 6-2. LSTM
- 6-3. 利用循环神经网络实现文本生成
7. Chapter 7 注意力机制与Transformer - 注意力机制与Transformer.ipynb
此章节通过代码学习当前NLP领域主流的注意力机制与Transformer模型,并利用Transformer模型完成虚假文本评论识别任务。
- 7-1. 注意力机制(Attention)
- 7-2. transformer结构
- 7-3. 利用transformer结构实现文本分类任务(虚假评论识别)
此章节介绍经典NLP预训练模型BERT,并利用代码实现基于BERT模型的新闻文本多标签分类任务,掌握从网络上调用各种经典的预训练模型进行微调并完成下游任务的基本流程。
此章节介绍经典NLP生成模型GPT,并利用代码实现基于GPT框架的新闻摘要生成任务,掌握生成式模型的基本原理与技术细节。
(待补充)
(待补充)
(待补充)
(待补充)
- Word2Vec - Distributed Representations of Words and Phrases and their Compositionality(2013)
- 数据增强(噪声技术) - EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
- textRNN - Finding Structure in Time(1990)
- textLSTM - LONG SHORT-TERM MEMORY(1997)
- Transformer - Attention Is All You Need(2017)
- BERT - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(2018)
(待补充)
感谢西南财经大学金融科技国际联合实验室的各位老师对本课件项目的帮助与支持。读者有任何问题反馈或是答疑交流,欢迎发送至邮箱[email protected]