哔哩哔哩怎么使用弹幕字号的大小操作方法

大家好,来来为大家解答以下问题,哔哩哔哩怎么使用弹幕字号的大小操作方法很多人还不知道,现在让我们一起来看看吧!

爬取哔哩哔哩的弹幕,http://comment.bilibili.com/6315651.xml

需要知道cid,可以F12,F5刷新,找cid,找到之后拼接url

也可以写代码,解析response获取cid,然后再拼接


哔哩哔哩怎么使用弹幕字号的大小操作方法


哔哩哔哩怎么使用弹幕字号的大小操作方法


使用requests或者urllib都可以

我是用requests,请求该链接获取到xml文件


哔哩哔哩怎么使用弹幕字号的大小操作方法


代码:获取xml

def get_data(): res = requests.get('http://comment.bilibili.com/6315651.xml') res.encoding = 'utf8' with open('gugongdanmu.xml', 'a', encoding='utf8') as f: f.writelines(res.text)

解析xml,

def analyze_xml(): f1 = open("gugongdanmu.xml", "r", encoding='utf8') f2 = open("tanmu2.txt", "w", encoding='utf8') count = 0 # 正则匹配解决xml的多余的字符 dr = re.compile(r'u0026lt;[^u0026gt;]+u0026gt;', re.S) while 1: line = f1.readline() if not line: break pass # 匹配到之后用空代替 dd = dr.sub('', line) # dd = re.findall(dr, line) count = count+1 f2.writelines(dd) print(count)

去掉无用的字符和数字,找出所有的汉字

def analyze_hanzi(): f1 = open("tanmu2.txt", "r", encoding='utf8') f2 = open("tanmu3.txt", "w", encoding='utf8') count = 0 # dr = re.compile(r'u0026lt;[^u0026gt;]+u0026gt;',re.S) # 所有的汉字[一-龥] dr = re.compile(r'[一-龥]+',re.S) while 1: line = f1.readline() if not line: break pass # 找出无用的符号和数字 # dd = dr.sub('',line) dd = re.findall(dr, line) count = count+1 f2.writelines(dd) print(count) # pattern = re.compile(r'[一-龥]+')

使用jieba分词,生成词云

def show_sign(): content = read_txt_file() segment = jieba.lcut(content) words_df = pd.DataFrame({'segment': segment}) stopwords = pd.read_csv("stopwords.txt", index_col=False, quoting=3, sep=" ", names=['stopword'], encoding='utf-8') words_df = words_df[~words_df.segment.isin(stopwords.stopword)] print(words_df) print('-------------------------------') words_stat = words_df.groupby(by=['segment'])['segment'].agg(numpy.size) words_stat = words_stat.to_frame() words_stat.columns = ['计数'] words_stat = words_stat.reset_index().sort_values(by=["计数"], ascending=False) # 设置词云属性 color_mask = imread('ciyun.png') wordcloud = WordCloud(font_path="simhei.ttf", # 设置字体可以显示中文 background_color="white", # 背景颜色 max_words=1000, # 词云显示的最大词数 mask=color_mask, # 设置背景图片 max_font_size=100, # 字体最大值 random_state=42, width=1000, height=860, margin=2, # 设置图片默认的大小,但是如果使用背景图片的话, # 那么保存的图片大小将会按照其大小保存,margin为词语边缘距离 ) # 生成词云, 可以用generate输入全部文本,也可以我们计算好词频后使用generate_from_frequencies函数 word_frequence = {x[0]: x[1] for x in words_stat.head(1000).values} print(word_frequence) # for key,value in word_frequence: # write_txt_file(word_frequence) word_frequence_dict = {} for key in word_frequence: word_frequence_dict[key] = word_frequence[key] wordcloud.generate_from_frequencies(word_frequence_dict) # 从背景图片生成颜色值 image_colors = ImageColorGenerator(color_mask) # 重新上色 wordcloud.recolor(color_func=image_colors) # 保存图片 wordcloud.to_file('output.png') plt.imshow(wordcloud) plt.axis("off") plt.show()

运行程序,结果:


哔哩哔哩怎么使用弹幕字号的大小操作方法


哔哩哔哩怎么使用弹幕字号的大小操作方法


统计的结果


哔哩哔哩怎么使用弹幕字号的大小操作方法


完成!

pip的换源,原来的太慢,然后将你自己没有库装上


哔哩哔哩怎么使用弹幕字号的大小操作方法


本文到此结束,希望对大家有所帮助。

成颖诗微信号:成颖诗扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1 正负零符号在图中是怎样的(正负零零符号怎么打)

    大家好,小豪今天来为大家解答正负零符号在图中是怎样的以下问题,正负零零符号怎么打很多人还不知道,现在让我们一起来看看吧!1、“正负零

  2. 2 途游象棋下载(途游象棋下载最新单机免费版)

    大家好,小丽今天来为大家解答途游象棋下载以下问题,途游象棋下载最新单机免费版很多人还不知道,现在让我们一起来看看吧!1、每个手机都有

  3. 3 oneafteranother(oneafteranother翻译)

    大家好,小伟今天来为大家解答oneafteranother以下问题,oneafteranother翻译很多人还不知道,现在让我们一起来看看吧!1、one after another [英][wʌn ˈɑ:ftə

  4. 4 合同签订地点与实际地点不符(合同签约地址不一致影响合同不)

    大家好,小豪今天来为大家解答合同签订地点与实际地点不符以下问题,合同签约地址不一致影响合同不很多人还不知道,现在让我们一起来看看吧

  5. 5 精准通roi(精准通上海检测)

    大家好,小伟今天来为大家解答精准通roi以下问题,精准通上海检测很多人还不知道,现在让我们一起来看看吧!1、你可以在交易软件上查看就可以

  6. 6 win10网上邻居设置(win10网上邻居设置密码)

    大家好,小乐今天来为大家解答win10网上邻居设置以下问题,win10网上邻居设置密码很多人还不知道,现在让我们一起来看看吧!1、 点击左下角的【

  7. 7 我就是我不一样的烟火是什么歌的歌词(我就是我不一样的烟火歌名)

    大家好,小美今天来为大家解答我就是我不一样的烟火是什么歌的歌词以下问题,我就是我不一样的烟火歌名很多人还不知道,现在让我们一起来看

  8. 8 当你孤单你会想起谁歌词(当你孤单你会想起谁歌词是什么意思)

    大家好,小丽今天来为大家解答当你孤单你会想起谁歌词以下问题,当你孤单你会想起谁歌词是什么意思很多人还不知道,现在让我们一起来看看吧

Copyright 2024 看看网,让大家及时掌握各行各业第一手资讯新闻!