- 博客(0)
- 资源 (8)
- 收藏
- 关注
project.rar
该代码实现了豆瓣影评的多页爬取,并制作成词云显示
整个实验主要分成以下三个部分,下面对每个部分作一个简单的说明。
1.爬取网页内容
2.对数据进行简单的清洗
逐行用jieba分词,利用停用词表去除如“的”和“我们”这样对于主题分析并无帮助的功能词,同时借助re库还能对处理的词性进行选择。
3.制作词云
手动计算词频,利用 WordCloud()函数基于词创建词云,这里选择词频最高的 10 个词,同时可以设置词云背景颜色,图片,设置最大显示的字数,字体最大值,设置有多少种随机生成状态,即有多少种配色方案。最后还要设置中文字体,使得词云可以显示(词云默认字体是“DroidSansMono.ttf字体库”,不支持中文)。
2019-05-15
常见聚类数据集人工数据和UCI数据都有-浮生物语QAQ
这里面是机器学习里面聚类所需的数据集,分为人工的二维数据集,如月牙形,双螺旋型等,和UCI真实数据集,是我搜集好久才弄出来的,有一些二维数据集是自己生成的,提供给大家做算法实验。
2018-11-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人