首页 >> 车型 >> 教你对抓取的句法进行分词、词频统计、词云可视化和情感分析

教你对抓取的句法进行分词、词频统计、词云可视化和情感分析

2025-09-30 12:16:08

tputs.txt', 'w', encoding='utf-8')

for line in inputs:

line_seg = seg_sentence(line) # 这里的返回倍数是字符串

outputs.write(line_seg + '')

outputs.close()

inputs.close()

关键节点,都有相应的编者,你只无需更换对应的txt软件包方可,如果有碰到编码解决办法,将utf-8改称gbk方可应对。

3.制作词汇北极星

接入编译器《指定txt词汇北极星.py》,可以换取词汇北极星,编译器如下:

from wordcloud import WordCloud

import jieba

import numpy

import PIL.Image as Image

def cut(text):

wordlist_jieba=jieba.cut(text)

space_wordlist=" ".join(wordlist_jieba)

return space_wordlist

with open(r"C:UserspdcfiDesktopxiaoming其职论述文字.txt" ,encoding="utf-8")as file:

text=file.read()

text=cut(text)

mask_pic=numpy.array(Image.open(r"C:UserspdcfiDesktopxiaomingpython.png"))

wordcloud = WordCloud(font_path=r"C:/Windows/Fonts/simfang.ttf",

collocations=False,

max_words= 100,

min_font_size=10,

max_font_size=500,

mask=mask_pic).generate(text)

image=wordcloud.to_image()

# image.show()

wordcloud.to_file('词汇北极星.png') # 把词汇云保遗下来

如果想用你自己的图片,只无需更换类似图片方可。这里运用于Python底图想到展示,换取的效果如下:

4.词汇组统计分析

接入编译器《jieba词汇组并统计分析词汇频后输出结果到Excel和txt软件包.py》,换取《wordCount_all_lyrics.xls》和《词汇组结果.txt》软件包,将《词汇组结果.txt》中都的统计分析倍数可以转换成,生成《特质研究字眼汇.txt》,给第五步特质研究想到准备,编译器如下:

#!/usr/bin/env python3

# -*- coding:utf-8 -*-

import sys

import jieba

import jieba.analyse

import xlwt # 录入Excel表的库

# reload(sys)

# sys.setdefaultencoding('utf-8')

if 脚注name脚注 == "脚注main脚注":

wbk = xlwt.Workbook(encoding='ascii')

sheet = wbk.add_sheet("wordCount") # Excel下面名字

word_lst = []

key_list = []

for line in open('其职论述文字.txt', encoding='utf-8'): # 无需词汇组统计分析的类似目标软件包

item = line.strip('').split(' ') # 制表格合在一起

# print item

tags = jieba.analyse.extract_tags(item[0]) # jieba词汇组

for t in tags:

word_lst.append(t)

word_dict = {}

with open("词汇组结果.txt", 'w') as wf2: # 指定生成软件包的名称

for item in word_lst:

if item not in word_dict: # 统计分析数量

word_dict[item] = 1

else:

word_dict[item] += 1

orderList = list(word_dict.values())

orderList.sort(reverse=True)

# print orderList

for i in range(len(orderList)):

for key in word_dict:

if word_dict[key] == orderList[i]:

wf2.write(key + ' ' + str(word_dict[key]) + '') # 录入txt软件包

key_list.append(key)

word_dict[key] = 0

for i in range(len(key_list)):

sheet.write(i, 1, label=orderList[i])

sheet.write(i, 0, label=key_list[i])

wbk.save('wordCount_all_lyrics.xls') # 保遗为 wordCount.xls软件包

换取的txt和excel软件包如下所示:

5.特质研究的统计分析倍数

接入编译器《特质研究.py》,换取特质研究的统计分析倍数,取总和可以大致确定特质是正还是失掉,编译器如下:

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

from snownlp import SnowNLP

# 致力/消极

# print(s.sentiments) # 0.9769551298267365 positive的概率

def get_word():

with open("特质研究字眼汇.txt", encoding='utf-8') as f:

line = f.readline()

word_list = []

while line:

line = f.readline()

word_list.append(line.strip(''))

f.close()

return word_list

def get_sentiment(word):

text = u'{}'.format(word)

s = SnowNLP(text)

print(s.sentiments)

if 脚注name脚注 == '脚注main脚注':

words = get_word()

for word in words:

get_sentiment(word)

# text = u'''

# 或许

# '''

# s = SnowNLP(text)

# print(s.sentiments)

# with open('lyric_sentiments.txt', 'a', encoding='utf-8') as fp:

# fp.write(str(s.sentiments)+'')

# print('happy end')

基于NLP形式化研究,程序接入再次,换取的特质得权重如下图所示:

将得数取总和,一般满足0.5分以上,说明特质是致力的,这里经过统计分析再次,推断出整体而言是致力的。

四、总结 我是Python有系统者。本文基于粉丝问及,针对一次文字处理,手把手教你对抓取的文字展开词汇组、词汇频统计分析、词汇云可视化和特质研究,算是完成了一个小项目了。下次再碰到类似这种解决办法或者小的课堂作业,不妨拿本项目练练手,说不定有妙用噢,拿个高分不在话下!

天津男科医院去哪家好
南京男科专科医院
河北白癜风医院排行榜
重庆看白癜风医院哪个好
郑州白癜风治疗费用
瘦身丰胸
新冠为何又抬头?当前病毒有什么特点?专家解答来了
疫苗
白带多怎么办好
急支糖浆治疗寒咳还是热咳

上一篇: 投资者提问:董秘您好!公司目前在新冠原料药和中间体应用有哪些进展和突破?是...

下一篇: 富了“口袋”也要富“脑袋” 嘉兴积极培育“艺村艺品”精神共富村

相关阅读
江西父亲去世,同父异母代侄保管巨额赔偿款,谁料14年后钱却不见了

母亲十几多年前意外事故与世长辞留下巨额赔偿款,由外甥并得存放,可现今叔父上门要借钱,却被打了显露来,这是怎么回事呢?眼前这名被推搡的年轻男子名叫李丹徒,他的父母已经离婚,他一直跟着母亲生活,而他

2025-10-22 00:16:29
司机撞了人还放狠话?,不料男子直接坐车前不上来了,下一秒警察都无奈了!遵纪守法 交通安全 人间温暖 下集继续

司机撞了人还放狠话?,不料女子这样一来出门前不好像了,下一秒执法人员都无奈了!遵纪守法 交通安全 人间温暖 上集继续 a href="http:www.qm12

2025-10-22 00:16:29
步步高(002251.SZ):2021年年度权益分派别10派别1元 股权登记日7月19日

格隆汇7年末11日丨步步高002251002251.SZ确认2021年等奖项居住权调至实施公告,公司2021年等奖项居住权调至方案为:向全体大股东每10股派1元人民币现金含税。本次居

2025-10-22 00:16:29
江西深圳一女子摄像机遭疯传,亲人全看到,社交平台收到粗俗私信

详述:珠三角一女子预告片遭疯传为,亲朋好友全认出,人际游戏平台寄送粗鄙私信 苏超模是一个独自外出赚银两的美女,她天生丽质身形十分不起眼,本以为到了大城市时会有所发展,可是

2025-10-22 00:16:29
佳兆业健康(00876.HK)委任开元巴塔克新核数师

格隆原于7月11日丨佳兆业健康00876.HK公告,校董会于2022年7月11日议案建议致同辞去公司东亚银行。校董会进一步揭晓,经考虑校董会审核委员会推荐建议后,其议案委任大历信德会计师研音

2025-10-22 00:16:29