博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计及词云制作
阅读量:4550 次
发布时间:2019-06-08

本文共 721 字,大约阅读时间需要 2 分钟。

1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)

      希望曾老师能讲下Python的主要运用领域以及未来就业的方向。

2.中文分词

  1. 下载一中文长篇小说,并转换成UTF-8编码。
  2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
  3. **排除一些无意义词、合并同一词。
  4. **使用wordcloud库绘制一个词云。                                                                                                      
  5. import jiebabook=open('尸语者2.txt','w')book.write(''')book = "尸语者2.txt"txt = open(book,"r",encoding='utf-8').read()ex = {'法医','师父','尸体','尸语者'}words = jieba.lcut(txt)counts = {}for word in words:    if len(word) == 1:        continue    else:        counts[word] = counts.get(word,0)+1for word in ex:    del(counts[word])    items = list(counts.items())items.sort(key = lambda x:x[1], reverse = True)for i in range(10):    word , count = items[i]    print ("{:<10}{:>5}".format(word,count))

     

转载于:https://www.cnblogs.com/hxhlo/p/7591053.html

你可能感兴趣的文章
SpringBoot整合Hibernate
查看>>
PPT1 例2
查看>>
。。。。。
查看>>
extern外部方法使用C#简单例子
查看>>
血液循环结构
查看>>
SQL Server统计数据库中表个数、视图个数、存储过程个数
查看>>
设计模式:观察者模式
查看>>
JVM体系结构之六:堆Heap之1
查看>>
TCP之二:TCP的三次握手与四次分手
查看>>
es的返回数据结构
查看>>
[ActionScript 3.0] as3处理xml的功能和遍历节点
查看>>
linux学习(6)-redhat安装xwindow环境
查看>>
6.28 加法作业
查看>>
CentOS6+nginx+uwsgi+mysql+django1.6.6+python2.6.6
查看>>
【bzoj2829】信用卡凸包 凸包
查看>>
oracle 游标
查看>>
关于拍照那些小事——五一苏行记(三)
查看>>
jquery简单的表单验证充值数量
查看>>
大叔手记(1):使用Visual Studio的查找与替换替代默认的系统搜索
查看>>
Android手机监控软件设计实现
查看>>