【4】构建基于scikit-learn的文本挖掘学习系统
发布时间:2021-02-23 13:31:46 所属栏目:大数据 来源:网络整理
导读:转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html 配置开发环境 构建基于scikit-learn的文本挖掘学习系统 1. 下载和安装 python - 2.7 .8 for win32 2. 下载和安装 numpy - 1.9 .0 -win32 -superpack -python2 .7 3. 下载和安装 scipy - 0.14 .0
转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html 配置开发环境构建基于scikit-learn的文本挖掘学习系统 1. 下载和安装 python-2.7.8 for win32 2. 下载和安装 numpy-1.9.0-win32-superpack-python2.7 3. 下载和安装 scipy-0.14.0-win32-superpack-python2.7 4. 下载和安装 matplotlib-1.1.0.win32-py2.7 5. 下载和安装 结巴分词:jieba-master,解压后运行 python setup.py install(参考网站: https://github.com/fxsjy/jieba) 6. 下载和安装 scikit-learn-0.15.2.win32-py2.7 7. 解压scikit-learn-master,从example目录获取例子文件 运行Demo 程序
scikit-learn安装成功!
#encoding=utf-8 import sys import jieba reload(sys) sys.setdefaultencoding('utf-8') seg_list = jieba.cut("我来到北京清华大学",cut_all=True) print "Full Mode:","/ ".join(seg_list) # 全模式 seg_list = jieba.cut("我来到北京清华大学",cut_all=False) print "Default Mode:","/ ".join(seg_list) # 精确模式 seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式 print ",".join(seg_list) seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式 print ",".join(seg_list) 结果: Building Trie...,from C:Python27libsite-packagesjiebadict.txt loading model from cache c:usersjackycafappdatalocaltempjieba.cache loading model cost 2.55099987984 seconds. Trie has been built succesfully. Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学 Default Mode: 我/ 来到/ 北京/ 清华大学 他,来到,了,网易,杭研,大厦 小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,,,后,在,日本,京都,大学,日本京都大学,深造 点评上面流程是直接转载NLP论坛里面的帖子,内容一看就是新手写的,python文本处理工具很多,比如NLTK,目前已经集成了中文的Stanford分词。上面的配置是最简单的自己的处理文本的环境 python文本处理工具可以参考我之前的帖子 (编辑:92站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |