自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 资源 (7)
  • 收藏
  • 关注

原创 彻底解决:Word中定义的标题编号重启后变成竖线或黑块!?

设置好标题后,重新打开word,发现原本规范的标题成了黑块或者竖线,问题如下图所示解决方法:选中黑块(竖线)。如果难以准确选中,可以将光标移动到黑块(竖线)的后方,然后向左的箭头,选中黑块(竖线),选中后黑块变为灰色。 在此情况下,使用快捷键Ctrl+shift+s调出应用延时窗口。 然后点击重新应用,即可解决问题。问题看似解决,但是重启word发现问题依然存在!继续解决问题:基于上述步骤继续采用宏命令修复,步骤如下——点击菜单栏“视图” 找到“宏“选项卡,点击后弹出..

2021-07-18 09:16:44 9617 15

原创 pycharm科学模式简介和使用

当JetBrains检测到项目中使用科学软件包(如numpy或pandas)时,建我们议启用科学模式:科学模式下,默认打开几个工具窗口:Python控制台(左下),一个变量查看器(右下)和一个文档查看器(右上角).p.s.运行/退出科学模式PyCharm 在2017.3版本之后加入了Scientific Mode,在科学计算时,可以方便的追踪变量变化等。使用NumPy的时候,系统会提示 use scientific mode,但进去后就运行程序的在控制台中,很麻烦,想改回来的话按下...

2021-07-05 17:42:34 14194 1

原创 解决ImportError: attempted relative import with no known parent package

当前路径下导包:from . import util发现报错:执行文件异常:ImportError: attempted relative import with no known parent package解决:不使用当前路径,改为绝对路径:from textrank4zh import util问题解决。

2021-07-05 17:14:52 1829

原创 在PyCharm中设置改变字体大小的快捷键

字体放大快捷键设置file-->settingskeymap-->搜索框搜索“increase”-->找到increasefontsize右键选择add mouse shortcut按住Ctrl,滑动鼠标滚轮向上-->选择ok,设置完成字体缩小快捷键设置前几步不变,搜索decrease,找到decreasefontsize,后几步同上。...

2021-07-05 17:09:09 777

原创 jupyter中interrupt the kernel(中断)没有反应

有的时候,程序运算量很大或者陷入死循环时,点击interrupt(中断)按钮没有反应时,可以有三种解决方案:1.终端输入Ctrl+c,退出jupyter2.选中notebook,shutdown3.点击restartthekernel(推荐)...

2021-06-25 17:07:23 8200 1

原创 list转set遇坑:TypeError: unhashable type: ‘list‘

由list组成的list(list套list)是不能转set的,形如:datalist = [[a],[b]]转set时报错:TypeError: unhashable type: 'list'dataset = set(datalist)单层的list可以转set,形如:datalist = [1,2]dataset = set(datalist)

2021-06-24 17:01:09 1957 2

原创 报错:UnicodeDecodeError:: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin

python读取数据时出现:UnicodeDecodeError:: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin解决方法一:f = open("xxx.csv",'r',encoding='UTF-8')解决方法二:f = open("xxx.csv","rb")with open('article.txt','rb') as f: # 打开新的文本 text_new = f.read(

2021-06-22 20:27:30 826

原创 SyntaxError: invalid character in identifier

错误原因是代码中出现了中文的空格、中文的括号、不恰当的tab等非文字字符找了半天,所有字符均没有问题,最后发现是错误行末尾多打了空格,很难发现

2021-06-22 16:21:10 286

原创 reload(sys)报错:NameError: name ‘reload‘ is not defined

reload(sys)sys.setdefaultencoding('utf8')上为python2.x版本的写法,作用是:设置python的默认编码,一般设置为utf8的编码格式python3.x中改为:import importlib,sys importlib.reload(sys)

2021-06-22 16:13:23 2658

原创 TypeError: ‘set‘ object is not subscriptable

表示把不具有下标操作的集合对象用成了对象[i]集合(set)是Python中一种重要的数据类型,表示一组各不相同元素的无序集合,其主要应用于重复元素消除及关系测试等 集合在Python内部通过哈希表实现,其本征无序,输出时所显示的顺序具有随机性,且与运行环境相关...

2021-06-17 17:03:05 7474

原创 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa4 in position 4: illegal multibyte sequence

python读取txt文件报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 4: illegal multibyte sequence

2021-06-17 16:39:26 2130

原创 jupyter notebook快捷键及标记的使用(Markdown使用笔记)

0. jupyter中常用快捷键:0.1 命令模式下快捷键h:查看快捷键Esc:命令模式Enter:转入编辑模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在其下插入新单元Y : 单元转入代码状态M :单元转入markdown状态R : 单元转入raw状态1:将单元格设置为一级标题2:将单元格设置为二级标题3:将单元格设置为三级标题4:将单元格设置为四级标题5:将单元格设置为五级标题6:将单元

2021-06-16 17:25:08 9608 4

原创 anaconda jupyter重置密码(附修改工作目录方法)

导包报错twisted 18.7.0 requires PyHamcrest>=1.9.0, which is not installed.conda 4.10.1 requires ruamel_yaml_conda>=0.11.14, which is not installed.cryptography 3.3.2 has requirement cffi>=1.12, but you'll have cffi 1.11.5 which is incompatible.Yo

2021-06-16 11:26:58 1224

原创 安装anaconda,配置,遇错(输入python后打开弹出windows应用商店)

卸载python开始-设置-应用-找到python-x.x.x,直接卸载安装anaconda

2021-06-09 17:26:02 967 2

原创 在anaconda中创建python环境

查看所有python虚拟环境

2021-06-09 17:09:04 388 2

原创 LDA模型原理学习及应用

•LDA是一种文档主题生成模型,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构。利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。•LDA认为一篇文章的每个词都是通过以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语。•LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋(bag of words)的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。每一篇文档代表了一些主题

2021-06-03 19:40:09 5161

原创 word2vec模型原理(附python实现代码)

•LDA是一种文档主题生成模型,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构。利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。•LDA认为一篇文章的每个词都是通过以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语。•LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋(bag of words)的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。每一篇文档代表了一些主题

2021-06-03 19:35:01 2867 3

原创 import遇错:AttributeError: module ‘numpy.random‘ has no attribute ‘default_rng‘

提示No module named 'gensim'说明没有该模块cmd中导入模块:pip install +模块C:\Users\Administrator>pip install gensim提示AttributeError: module 'numpy.random' has no attribute 'default_rng'问题原因:numpy版本问题升级numpy的版本在cmd下输入pip install -U numpyC:\Users\Admin..

2021-05-24 10:50:29 1893

原创 Anaconda3安装及配置(归档整理遇坑集合)

下载anaconda3推荐国内镜像网站下站→清华镜像网安装anaconda3next→I Agree→All Users→next→目录不要有空格→下面的√→等待读条:skip→不勾,finish→环境变量:此电脑→属性→高级系统设置→环境变量→path→编辑→新建cmd中检验开始菜单中出现如下图标进入python编译器...

2021-05-07 11:26:29 169

原创 win10虚拟桌面快捷键

查看所有虚拟桌面:win + tab新建虚拟桌面:win + ctrl + d关闭当前桌面:win + ctrl + F4(此桌面内容不会关,平移到上一个桌面)切换到左边虚拟桌面:win + ctrl + left切换到右边虚拟桌面:win + ctrl + right其他快捷键——程序右上角的最大化、向下还原、最小化:win + ctrl +up/down左右分屏:win +right/left四分之一分屏:先win +right/left 再win +up/d...

2021-02-04 22:09:20 1328

原创 python+selenium实现自动化:自动打开网页并实现刷新

selenium一个 web 的自动化测试工具免费且可以和各种语言结合,无论是C、 java、ruby、python、 C# ,都可以通过 selenium 完成自动化测试selenium+Python(Python3.5及以上版本)1.安装selenium包运行窗口执行:pip install -i https://pypi.douban.com/simple gensim等待完成。2.启动浏览器启动Chrome浏览器:webdriver.Chrome()启..

2021-01-25 21:06:43 8517

原创 AttributeError: ‘function‘ object has no attribute ‘sleep‘

time.sleep(t)语句执行报错错误如下:调了半天发现是一个低级错误,我又自己搞了一个time变量名称重复,把名称改了就好了。

2021-01-24 13:07:16 1491

原创 爬虫报错:During handling of the above exception, another exception occurred和TimeoutError

错误一:During handling of the above exception, another exception occurred:在处理上述异常期间,发生了另一个异常。造成这个问题的原因五花八门,属于疑难杂症之一。错误二:TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。对于错误二如果想不处理,可以直接在request.get()函数中加个timeout参数:eq = requests.get.

2021-01-22 23:15:41 47263 1

原创 网络舆情热点发现及分析(single-pass聚类)

热点话题的发现模型在整个的过程中,介绍三个点:预处理:基于网络新词的识别算法 热点话题发现:增量聚类算法Single-Pass 热点话题分析:文本倾向性分析基于网络新词的识别算法算法思路:首先根据微博文本的特点,将#和中括号之间的文本进行了提取,因为在微博中,这样的文本本身就表示一个话题,所以可以直接被提取。而对于微博的正文部分,或者本身没有#和中括号这样的文本内容,则会进行初步分词,然后利用中文分词系统对初步分词进行筛选,删掉旧词,得到网络新词。这时候就得到了两组新词,.

2021-01-16 10:02:35 6509 1

原创 ModuleNotFountError:No module named ‘gensim‘(在python代码中导入gensim模块)

运行窗口:conda install +模块pip install +模块第一个命令应该由于网速太慢没有下载完全,第二个命令我手动输入n退出了。网速慢,可以使用如下命令:pip install -i https://pypi.douban.com/simple gensimpip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensimpip install -i https://pypi.douban.com/si

2021-01-14 23:32:17 8538

原创 什么是假设检验?

假设检验在参数估计的区间估计中,我们提到置信区间的概念,有提到置信区间最主要的应用是用于假设检验。(详情请见☞什么是参数估计)那什么是假设检验?假设检验(test of bypothesis)是统计推断的一个重要内容,用于判断某个假设是否正确。在数据分析中,总体的参数始终是不可知的,只能由统计量推断总体的参数。在统计推断过程中,需要对参数提出一定的假设,然后对提出的假设进行假设检验。 假设检验与参数估计(包括点估计和区间估计)是建立在中心极限定理和抽样分布之上的推断统 计的两个重要基础方法,由这

2020-12-03 17:03:23 20050 1

原创 R与线性模型有关的函数总结

目录lm( )summary()anova()coef()deviance()formula()predict()lm( )应用于线性模型fitted.model <- lm(formula, data =data.frame)其中:formula是模型公式,比如一元线性模型公式:y~x1 data是数据框此外,针对lm( 的结果,我们可以使用 如下的函数做进一步处理:summary( )、 add1( )、 drop1( ) 、coef( ) 、.

2020-10-29 17:41:35 2136

原创 用R语言学习数据挖掘——8.一元线性回归

一元线性回归概念若有如下数据:(部分数据)做出散点图直观观察:可以看出X和Y基本符合一个线性关系。> X<-c(0.1,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.2,0.21,0.23)> Y<-c(42,43.5,45,45.5,45,47.5,49,53,50,55,55,60)> plot(X,Y)我们可以认为Y与X的关系基本上是线性的,而这些点与直线的偏离是由其他一切不确定因素的影响造成的,为此可

2020-10-29 16:36:51 2188

原创 什么是参数估计?

参数估计(parameter estimation)参数估计属于统计推断的范畴,是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。统计推断是数理统计研究的核心问题,是指根据样本对总体分布或分布的数字特征等作出合理的推断。参数估计分为:点估计、区间估计点估计(point estimation)点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估

2020-10-20 20:06:51 14485

原创 用R语言学习数据挖掘——7.协方差和相关系数

目录概念浅析样本协方差相关系数R分析概念浅析简单理解:标准差和方差一般是用来描述一维数据的,而协方差和相关系数则是用来描述二维数据的。样本协方差具体来讲,样本的协方差为:相关系数随机变量X和Y的协方差用于度量X和Y同时增大,或一个增大一个减少的程度,但是要想说明这两个随机变量的相关性高不高,用协方差是体现不出来的,所以要用到相关系数。相 关系数是一个百分数。相关系数的绝对值是大于等于0,小于等于1的数。对于相关系数,我们从它的公式入手。一般情.

2020-10-19 17:45:39 5351 2

原创 R语言基础之用R语言绘制各类函数图像

数据作图是数据分析的重要方法之一,R提供了丰富的作图函数。R有两类作图函数,一类是高水平作图函数,另一类是低水平作图函数。高水平作图函数:所有的绘图函数均可产生图形,可以有坐标轴,以及图和坐标轴的说明文字等。有plot() 、pairs() 、 coplot() 、qqnorm() 、qqline() 、hist() 、contour() 等 低水平作图函数:作图函数本省无法生成图形,只能在高水平作图函数产生的图形的基础上,增加新的图形。有points() 、lines() 、 text() 、

2020-10-19 16:38:34 29931 1

原创 用R语言学习数据挖掘——6.随机变量及其分布(指数分布)

目录指数分布概念用R模拟指数分布案例概率密度函数例1例2累计分布函数例3分布检验指数分布概念指数分布(Exponential distribution)用来表示独立随机事件发生的时间间隔,许多电子产品的寿命分布一般服从指数分布。它在可靠性研究中是最常用的一种分布形式。指数分布的区间是[0,∞),上式中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间发生该事件的次数。如果一个随机变量X 呈指数分布,则可以写作:.

2020-10-18 21:01:12 13302

原创 用R语言学习数据挖掘——5.随机变量及其分布(正态分布)

目录概率密度函数概率密度曲线图用R做正态分布正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。可以说是最重要的一种分布,也是应用最广泛的连续型分布。正态分布是具有两个参数μ和σ^2的连续型随机变量的分布。第一参数μ是遵从正态分布的随机变量的均值(期望),这个参数决定了分布的位置。 第二个参数σ^2是此随机变量的方差,这个参数决定了分布的

2020-10-16 21:44:34 4655

原创 用R语言学习数据挖掘——4.随机变量及其分布(二项分布)

目录均匀分布伯努利分布二项分布rbinom(n,size,prob)随机变量X(random variable)表示随机试验各种结果的实值单值函数。描述一个随机变量,不仅要说明它能够取哪些值,而且还要关心它取这些值的概率。因此,引入随机变量的分布函数概念。对每个随机变量X和每个实数集合A,可以计算X取A中值的概率。所有这些概率的集合就是随机变量X的分布。随机变量以及分布函数主要有两类:离散型分布和连续型分布。离散型分布:当X只能取有限个不同值x1,x2,……Xk时,我们称

2020-10-16 21:18:18 6272

原创 用R语言学习数据挖掘——3.用R计算数据基本统计量(方差)

方差和标准差都是数据散布度量。这两个值越小,意味着数据观测趋向于非常靠近均值。方差公式:标准差是方差的平方根。例子:计算学生体重的方差 75,64,47.4,66.9,62.2,62.2,58.7,63.5计算方差> data<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5)> result=var(data);result[1] 60.21268计算标准差> data<-c(75,64,47.4,66.9,

2020-10-16 20:03:47 13538

原创 用R语言学习数据挖掘——2.用R计算数据基本统计量(中位数、百分位数)

学习了用R计算样本数据的平均值之后(用R计算均值),下面继续学习其他统计量。中位数定义:为什么要有中位数?我们要知道的是,均值描述并不总是可靠的或最佳的。均值对于极端值(例如离群点)很敏感, 比如整个公司薪水的均值由几个极高收入的经理显著推高。为了抵消少数极端值的影响,我们可以使用截尾均值(丢弃极端值后计算均值)。截尾均值一般是去掉高端和低端的2%数据。但是,当异常值的价值非常大时,用截尾均值同样会丢失大量的价值数据。对于倾斜数据,更好的度量值是中位数。中位数定义为数据排序位

2020-10-15 21:10:19 11312

原创 用R语言学习数据挖掘——1.用R计算数据基本统计量(均值)

目录均值(mean)用R计算均值mean(x, trim=0, na.rm=FALSE)例1例2apply(x,1或2,计算函数 )例3参数trim例4参数na.rm例5学习机器学习和数据挖掘中的各种算法和模型,需要掌握统计学的基本概念。统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,并预测对象未来走势的一门综合性科学。简单说,统计学是根据样本估计总体的科学。它的一些思想和大数据思想有些相悖,不关注数据的大小,而是更关注数据的好坏。分

2020-10-15 20:38:57 32902

原创 PS快捷键备忘录

PS时用时不用,每次用的时候总是到处查找各种快捷键,所以建个备忘录,内容持续更新,但是都是笔者自己会用的快捷键,炒鸡炒鸡基础的那种,而且还不全,仅供参考。向下合并图层:Ctrl+E提示:1.如果上下图层都是文字图层,Ctrl+E快捷键是不能进行合并图层的。2.如果下层是文字图层,上层不管什么,都无法合并图层。这两种情况,除非将文字图层进行栅格化,才能进行合并图层。合并可见图层:Shift+Ctrl+E图层前面有眼睛的图层都会被合并为一个图层:合并所有图层并保留原图层:Shif

2020-10-13 20:46:51 850

原创 机器学习基础之初识机器学习中的各种模型和算法

目录算法概述监督学习无监督学习算法分类回归模型正则化模型聚类模型关联规则模型判别模型贝叶斯模型决策树模型降维模型图模型支持向量机模型人工神经网络模型集成模型深度学习算法概述总体分类,机器学习中的算法模型可以分两大类:监督学习算法 无监督学习算法监督学习监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有导师训练。在监督学习中,每个实例都是由一个输入对象(通常为矢量)..

2020-10-09 21:28:01 1650

原创 R语言基础之R语言必会基础语法(为之后的机器学习打基础)

R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。不要把R作为一种计算机语言来学习,而是要把它当做工具去运用。R基本数据对象向量(vector)矩阵(matri

2020-10-03 15:46:07 1985

FastStone Capture.exe

FastStone Capture 是一个功能强大、轻量级的但功能齐全的屏幕捕获工具,它让你轻松地捕捉和注释屏幕上的内容,包括窗口、对象、菜单、全屏、矩形/手绘区域,甚至是滚动窗口/网页。你可以选择将捕获发送到编辑器、文件、剪贴板、打印机、电子邮件、Word/PowerPoint 文档或将其上传到您的网站。编辑工具包括注释(文本、带箭头的指示线、突出)、缩放、裁剪、锐化、水印、边缘效果等等。它还允许您记录屏幕活动和声音为高度压缩的视频文件。其他功能包括全局热键、自动生成文件名、支持外部编辑器、颜色选择器、屏幕放大镜和屏幕标尺。

2020-05-31

mapvgl.min.js(位置数据可视化用到的js文件)

(百度地图)位置数据可视化用到的js文件(普通点图、点聚合图等等) https://mapv.baidu.com/gl/examples/static/common.js https://mapv.baidu.com/build/mapv.min.js https://code.bdstatic.com/npm/[email protected]/dist/mapvgl.min.js

2020-05-30

mapv.min.js(位置数据可视化用到的js文件)

(百度地图)位置数据可视化用到的js文件(普通点图、点聚合图等等) https://mapv.baidu.com/gl/examples/static/common.js https://mapv.baidu.com/build/mapv.min.js https://code.bdstatic.com/npm/[email protected]/dist/mapvgl.min.js

2020-05-30

common.js(位置数据可视化用到的js文件)

(百度地图)位置数据可视化用到的js文件(普通点图、点聚合图等等) https://mapv.baidu.com/gl/examples/static/common.js https://mapv.baidu.com/build/mapv.min.js https://code.bdstatic.com/npm/[email protected]/dist/mapvgl.min.js

2020-05-29

CrystalDiskInfo8_5_1.exe

硬盘里的数据至关重要,因此时常检查硬盘健康状况是有必要的。CrystalDiskInfo硬盘检测工具通过读取S.M.A.R.T了解硬盘健康状况。打开它,您就可以迅速读到本机硬盘的详细信息,包括接口、转速、温度、使用时间等。

2020-05-07

mnist_train.rar

手写数字的训练集。包含pytorch使用的mnist数据集以及mnist原始数据集。用来完成实验。mnist_test.txt mnist_train.txt

2020-03-26

hadoop-eclipse-plugin-3.1.0.jar

eclipse中需要的hadoop插件,对应hadoop版本3.x。 注意:插件的版本要和用的hadoop版本保持一致

2020-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除