教你对抓取的句法进行分词、词频统计、词云可视化和情感分析

2025-09-30 12:16:08

tputs.txt', 'w', encoding='utf-8')

for line in inputs:

line_seg = seg_sentence(line) # 这里的返回倍数是字符串

outputs.write(line_seg + '')

outputs.close()

inputs.close()

关键节点，都有相应的编者，你只无需更换对应的txt软件包方可，如果有碰到编码解决办法，将utf-8改称gbk方可应对。

3.制作词汇北极星

接入编译器《指定txt词汇北极星.py》，可以换取词汇北极星，编译器如下：

from wordcloud import WordCloud

import jieba

import numpy

import PIL.Image as Image

def cut(text):

wordlist_jieba=jieba.cut(text)

space_wordlist=" ".join(wordlist_jieba)

return space_wordlist

with open(r"C:UserspdcfiDesktopxiaoming其职论述文字.txt" ,encoding="utf-8")as file:

text=file.read()

text=cut(text)

mask_pic=numpy.array(Image.open(r"C:UserspdcfiDesktopxiaomingpython.png"))

wordcloud = WordCloud(font_path=r"C:/Windows/Fonts/simfang.ttf",

collocations=False,

max_words= 100,

min_font_size=10,

max_font_size=500,

mask=mask_pic).generate(text)

image=wordcloud.to_image()

# image.show()

wordcloud.to_file('词汇北极星.png') # 把词汇云保遗下来

如果想用你自己的图片，只无需更换类似图片方可。这里运用于Python底图想到展示，换取的效果如下：

4.词汇组统计分析

接入编译器《jieba词汇组并统计分析词汇频后输出结果到Excel和txt软件包.py》，换取《wordCount_all_lyrics.xls》和《词汇组结果.txt》软件包，将《词汇组结果.txt》中都的统计分析倍数可以转换成，生成《特质研究字眼汇.txt》，给第五步特质研究想到准备，编译器如下：

#!/usr/bin/env python3

# -*- coding:utf-8 -*-

import sys

import jieba

import jieba.analyse

import xlwt # 录入Excel表的库

# reload(sys)

# sys.setdefaultencoding('utf-8')

if 脚注name脚注 == "脚注main脚注":

wbk = xlwt.Workbook(encoding='ascii')

sheet = wbk.add_sheet("wordCount") # Excel下面名字

word_lst = []

key_list = []

for line in open('其职论述文字.txt', encoding='utf-8'): # 无需词汇组统计分析的类似目标软件包

item = line.strip('').split(' ') # 制表格合在一起

# print item

tags = jieba.analyse.extract_tags(item[0]) # jieba词汇组

for t in tags:

word_lst.append(t)

word_dict = {}

with open("词汇组结果.txt", 'w') as wf2: # 指定生成软件包的名称

for item in word_lst:

if item not in word_dict: # 统计分析数量

word_dict[item] = 1

else:

word_dict[item] += 1

orderList = list(word_dict.values())

orderList.sort(reverse=True)

# print orderList

for i in range(len(orderList)):

for key in word_dict:

if word_dict[key] == orderList[i]:

wf2.write(key + ' ' + str(word_dict[key]) + '') # 录入txt软件包

key_list.append(key)

word_dict[key] = 0

for i in range(len(key_list)):

sheet.write(i, 1, label=orderList[i])

sheet.write(i, 0, label=key_list[i])

wbk.save('wordCount_all_lyrics.xls') # 保遗为 wordCount.xls软件包

换取的txt和excel软件包如下所示：

5.特质研究的统计分析倍数

接入编译器《特质研究.py》，换取特质研究的统计分析倍数，取总和可以大致确定特质是正还是失掉，编译器如下：

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

from snownlp import SnowNLP

# 致力/消极

# print(s.sentiments) # 0.9769551298267365 positive的概率

def get_word():

with open("特质研究字眼汇.txt", encoding='utf-8') as f:

line = f.readline()

word_list = []

while line:

line = f.readline()

word_list.append(line.strip(''))

f.close()

return word_list

def get_sentiment(word):

text = u'{}'.format(word)

s = SnowNLP(text)

print(s.sentiments)

if 脚注name脚注 == '脚注main脚注':

words = get_word()

for word in words:

get_sentiment(word)

# text = u'''

# 或许

# '''

# s = SnowNLP(text)

# print(s.sentiments)

# with open('lyric_sentiments.txt', 'a', encoding='utf-8') as fp:

# fp.write(str(s.sentiments)+'')

# print('happy end')

基于NLP形式化研究，程序接入再次，换取的特质得权重如下图所示：

将得数取总和，一般满足0.5分以上，说明特质是致力的，这里经过统计分析再次，推断出整体而言是致力的。

四、总结我是Python有系统者。本文基于粉丝问及，针对一次文字处理，手把手教你对抓取的文字展开词汇组、词汇频统计分析、词汇云可视化和特质研究，算是完成了一个小项目了。下次再碰到类似这种解决办法或者小的课堂作业，不妨拿本项目练练手，说不定有妙用噢，拿个高分不在话下！

。

天津男科医院去哪家好
南京男科专科医院
河北白癜风医院排行榜
重庆看白癜风医院哪个好
郑州白癜风治疗费用
瘦身丰胸
新冠为何又抬头？当前病毒有什么特点？专家解答来了
疫苗
白带多怎么办好
急支糖浆治疗寒咳还是热咳

标签：词频情感句法

上一篇：投资者提问：董秘您好！公司目前在新冠原料药和中间体应用有哪些进展和突破？是...

下一篇：富了“口袋”也要富“脑袋” 嘉兴积极培育“艺村艺品”精神共富村