教你对抓取的句法进行分词、词频统计、词云可视化和情感分析
2025-09-30 12:16:08
for line in inputs:
line_seg = seg_sentence(line) # 这里的返回倍数是字符串
outputs.write(line_seg + '')
outputs.close()
inputs.close()
关键节点,都有相应的编者,你只无需更换对应的txt软件包方可,如果有碰到编码解决办法,将utf-8改称gbk方可应对。 3.制作词汇北极星 接入编译器《指定txt词汇北极星.py》,可以换取词汇北极星,编译器如下:from wordcloud import WordCloud
import jieba
import numpy
import PIL.Image as Image
def cut(text):
wordlist_jieba=jieba.cut(text)
space_wordlist=" ".join(wordlist_jieba)
return space_wordlist
with open(r"C:UserspdcfiDesktopxiaoming其职论述文字.txt" ,encoding="utf-8")as file:
text=file.read()
text=cut(text)
mask_pic=numpy.array(Image.open(r"C:UserspdcfiDesktopxiaomingpython.png"))
wordcloud = WordCloud(font_path=r"C:/Windows/Fonts/simfang.ttf",
collocations=False,
max_words= 100,
min_font_size=10,
max_font_size=500,
mask=mask_pic).generate(text)
image=wordcloud.to_image()
# image.show()
wordcloud.to_file('词汇北极星.png') # 把词汇云保遗下来
如果想用你自己的图片,只无需更换类似图片方可。这里运用于Python底图想到展示,换取的效果如下: 4.词汇组统计分析 接入编译器《jieba词汇组并统计分析词汇频后输出结果到Excel和txt软件包.py》,换取《wordCount_all_lyrics.xls》和《词汇组结果.txt》软件包,将《词汇组结果.txt》中都的统计分析倍数可以转换成,生成《特质研究字眼汇.txt》,给第五步特质研究想到准备,编译器如下:#!/usr/bin/env python3
# -*- coding:utf-8 -*-
import sys
import jieba
import jieba.analyse
import xlwt # 录入Excel表的库
# reload(sys)
# sys.setdefaultencoding('utf-8')
if 脚注name脚注 == "脚注main脚注":
wbk = xlwt.Workbook(encoding='ascii')
sheet = wbk.add_sheet("wordCount") # Excel下面名字
word_lst = []
key_list = []
for line in open('其职论述文字.txt', encoding='utf-8'): # 无需词汇组统计分析的类似目标软件包
item = line.strip('').split(' ') # 制表格合在一起
# print item
tags = jieba.analyse.extract_tags(item[0]) # jieba词汇组
for t in tags:
word_lst.append(t)
word_dict = {}
with open("词汇组结果.txt", 'w') as wf2: # 指定生成软件包的名称
for item in word_lst:
if item not in word_dict: # 统计分析数量
word_dict[item] = 1
else:
word_dict[item] += 1
orderList = list(word_dict.values())
orderList.sort(reverse=True)
# print orderList
for i in range(len(orderList)):
for key in word_dict:
if word_dict[key] == orderList[i]:
wf2.write(key + ' ' + str(word_dict[key]) + '') # 录入txt软件包
key_list.append(key)
word_dict[key] = 0
for i in range(len(key_list)):
sheet.write(i, 1, label=orderList[i])
sheet.write(i, 0, label=key_list[i])
wbk.save('wordCount_all_lyrics.xls') # 保遗为 wordCount.xls软件包
换取的txt和excel软件包如下所示: 5.特质研究的统计分析倍数 接入编译器《特质研究.py》,换取特质研究的统计分析倍数,取总和可以大致确定特质是正还是失掉,编译器如下:#!/usr/bin/env python3
# -*- coding: utf-8 -*-
from snownlp import SnowNLP
# 致力/消极
# print(s.sentiments) # 0.9769551298267365 positive的概率
def get_word():
with open("特质研究字眼汇.txt", encoding='utf-8') as f:
line = f.readline()
word_list = []
while line:
line = f.readline()
word_list.append(line.strip(''))
f.close()
return word_list
def get_sentiment(word):
text = u'{}'.format(word)
s = SnowNLP(text)
print(s.sentiments)
if 脚注name脚注 == '脚注main脚注':
words = get_word()
for word in words:
get_sentiment(word)
# text = u'''
# 或许
# '''
# s = SnowNLP(text)
# print(s.sentiments)
# with open('lyric_sentiments.txt', 'a', encoding='utf-8') as fp:
# fp.write(str(s.sentiments)+'')
# print('happy end')
基于NLP形式化研究,程序接入再次,换取的特质得权重如下图所示: 将得数取总和,一般满足0.5分以上,说明特质是致力的,这里经过统计分析再次,推断出整体而言是致力的。 四、总结 我是Python有系统者。本文基于粉丝问及,针对一次文字处理,手把手教你对抓取的文字展开词汇组、词汇频统计分析、词汇云可视化和特质研究,算是完成了一个小项目了。下次再碰到类似这种解决办法或者小的课堂作业,不妨拿本项目练练手,说不定有妙用噢,拿个高分不在话下!。天津男科医院去哪家好南京男科专科医院
河北白癜风医院排行榜
重庆看白癜风医院哪个好
郑州白癜风治疗费用
瘦身丰胸
新冠为何又抬头?当前病毒有什么特点?专家解答来了
疫苗
白带多怎么办好
急支糖浆治疗寒咳还是热咳
-
江西父亲去世,同父异母代侄保管巨额赔偿款,谁料14年后钱却不见了
母亲十几多年前意外事故与世长辞留下巨额赔偿款,由外甥并得存放,可现今叔父上门要借钱,却被打了显露来,这是怎么回事呢?眼前这名被推搡的年轻男子名叫李丹徒,他的父母已经离婚,他一直跟着母亲生活,而他
2025-10-22 00:16:29
-
司机撞了人还放狠话?,不料男子直接坐车前不上来了,下一秒警察都无奈了!遵纪守法 交通安全 人间温暖 下集继续
司机撞了人还放狠话?,不料女子这样一来出门前不好像了,下一秒执法人员都无奈了!遵纪守法 交通安全 人间温暖 上集继续 a href="http:www.qm12
2025-10-22 00:16:29
-
步步高(002251.SZ):2021年年度权益分派别10派别1元 股权登记日7月19日
格隆汇7年末11日丨步步高002251002251.SZ确认2021年等奖项居住权调至实施公告,公司2021年等奖项居住权调至方案为:向全体大股东每10股派1元人民币现金含税。本次居
2025-10-22 00:16:29
-
江西深圳一女子摄像机遭疯传,亲人全看到,社交平台收到粗俗私信
详述:珠三角一女子预告片遭疯传为,亲朋好友全认出,人际游戏平台寄送粗鄙私信 苏超模是一个独自外出赚银两的美女,她天生丽质身形十分不起眼,本以为到了大城市时会有所发展,可是
2025-10-22 00:16:29
-
佳兆业健康(00876.HK)委任开元巴塔克新核数师
格隆原于7月11日丨佳兆业健康00876.HK公告,校董会于2022年7月11日议案建议致同辞去公司东亚银行。校董会进一步揭晓,经考虑校董会审核委员会推荐建议后,其议案委任大历信德会计师研音
2025-10-22 00:16:29