sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程)
相同爱好者请加
QQ:231469242
seo 关键词
自然语言,NLP,nltk,python,tokenization,normalization,linguistics,semantic
单词:
NLP:natural language processing 自然语言处理
tokenization 切分,分组意思。包括句子切分,词语切分
normalization 标准化(去除标点,大小写统一 )
nltk:natural language toolkit (Python)自然语言工具包
corpora 语料库,body of text正文
lexicon: words and their means 文字和字义
pickle
python的pickle模块实现了基本的数据序列和反序列化。
pickle file
lemmatize 还原词根
named entity 命名的实体
abbreviation:缩略词
——指单词或片语缩短后的形式,主要用于在书面语中替代完整形式,如用 Mass. 替代 Massachusetts(马萨诸塞州), 用 USA 替代 United States of Ameirica(美利坚合众国), 用 RMB 替代 Renminbi(人民币)
.
contraction:缩约词/收缩词
——指通过省略或结合一个较长短语中的某些音素而形成的词,如 从 will not 收缩而来的 won't ,从 of the clock 收缩而来的 o'clock,诗歌中从 them 收缩而来的‘em
punctuation 标点
stopwords 停止词
treebank:树状图
In linguistics, a treebank is a parsed text corpus that annotates syntactic or semantic sentence structure.
在语言学中,树状图是解析的文本语料库,其注释句法或语义句子结构。
基础
python 正则表达式
Python oop
Natural language processing is concerned with the interaction between natural language and the computer.
自然语言处理就是关于自然语言和计算机的交互。
It is one of the major components of AI and computational linguistics.
他是人工智能的主要组成部分和计算的语言学。
运行以下代码时,出现错误,具体信息看提示
在ipython输入nltk.download(),然后弹出需要下载的界面
安装好后,测试代码
# -*- coding: utf-8 -*- """ Created on Sun Nov 13 09:14:13 2016 @author: daxiong """ import nltk #处理少量句子 from nltk.tokenize import sent_tokenize #处理大量句子 tokenizer=nltk.data.load('tokenizers/punkt/english.pickle') text=" Welcome readers. I hope you find it interesting. Please do reply." list_text=tokenizer.tokenize(text) ''' sent_tokenize(text) '''
测试成功