自然语言处理是机器学习当前最神秘,最红火,最具难度,也最让引人关注的分支。在搜索引擎,语音识别,情感分析,大批量文档处理,机器翻译,自动应答等各个领域有着前程无可限量的应用。可以试想一台能理解自然语言,并且和人类能用语言纯熟交流的机器,那还能叫机器么?文本挖掘(Text Mining)是数据挖掘以及自然语言处理技术衍生的一个分支,挖掘对象通常是非结构化的文本数据,常见的文本挖掘对象包括网页所产生的BBS留言、博客、微博、新闻跟贴与转贴等。此外,拥有大型呼叫中心或邮件系统的企业,call center或mail积攒下来的大量语言记录也可以通过文本挖掘获得众多具有商业价值的知识。我们用计算机去处理文字,语音,理解语言,这些本来是高等生物人类才能做的事情,使到系统能产生“机器也具有人类同样的智慧”的震惊效果,无需置疑肯定会给顾客和观众留下极其深刻的印象。
Python作为一门主流的编程语言,在自然语言的处理中也是有非常多的应用。那么就让我们一起来学习怎么使用Python进行自然语言处理吧!
第一部份:自然语言分析利器——Python入门
第二部份:自然语言分析工具包——NLTK入门。编程实战:NLTK包的安装与常用方法介绍
第三部份:语料库的获取与词频分析。编程实战:词条频率分布图的绘制
第四部份:原始文本资料的读取与处理。编程实战:使用正则表达式实现英文分词
第五部份:中文分词的算法与实现。编程实战:结巴分词器的使用
第六部份:词条分类与词条属性。编程实战:中英文词性标注
第七部份:文本挖掘之文本分类器。编程实战:新闻类别分类
第八部份:文本挖掘之文本聚类。编程实战:百度词条聚类分析
第九部份:文本信息提取。编程实战:结构化数据提取系统
第十部份:句子语法分析。编程实战:自动语法树构建系统
第十一部份:让计算机读懂我们——文本语义分析实现。编程实现:智能问答系统
第十二部份:语言数据管理。编程实践:语料库的设计与创建 |