自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 windows上用VSCODE运行python文件不加 if __name__ == ‘__main__‘报错

rdm=CalcTopicsCoherence(topics_random_gen[:50],texts_oringinal,dictionary,corpus) #从语料库的词汇中随机生成的主题,C_V与其他指标的相关系数为正。rdm=CalcTopicsCoherence(topics_random_gen[:50],texts_oringinal,dictionary,corpus) #从语料库的词汇中随机生成的主题,C_V与其他指标的相关系数为正。原因:多进程需要在main函数中运行。

2023-08-28 21:56:34 220

原创 gensim conherence model C_V 值与其他指标负相关BUG

若从C的doc中的词汇[w_doc1_1,w_doc1_2,....w_docN_1,w_docN_2...]中随机抽取词汇并组成m个文档作为主题的话,这m个C_V值与其他指标是负相关的。再进一步分析,当使用一份语料库C=[doc1,doc2...docN]作为参考文本,并且评价主题以从C抽取m个doc原文当作m个主题的话,这m个C_V值与其他指标是正相关的;但我发现,我电脑里的gensim(版本3.8.1),gamma本来就是1,因此负相关不完全是这个gamma的原因。因此,C_V值的bug仍没有答案。

2023-07-26 18:37:42 1246

原创 多项分布的指数分布族形式的一个小坑

其中第三种形式才是标准形式,可解决上述问题。对于第三种形式,伯克利的课件(https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/other-readings/chapter8.pdf)在公式8.28~8.33中给了推导过程,只需注意下这个推导过程默认∑X=1,维基中∑X=n。)的对ELBO关于自然参数进行求导时,遇到了多项分布的指数家族分布形式的log-partition function 为0的问题,使得课件的公式不再成立。

2023-03-28 17:23:49 176 1

原创 VSCODE WIN x64 v1.69的python插件和jupyter插件的简单使用

此文假设你:已在WIN10上安装、在主环境安装jupyter;已创建虚拟环境;已完成虚拟环境内核与主环境jupyter之间的连接配置;已安装好VSCODE(此处为v1.69)及其python(此处为v2022.12.0)、jupyter插件(此处为v2022.6.1201981810)。如没完成,请先进行以上准备。打开一个.py文件,python插件被激活,激活后的编辑界面如图1,右下角显示当前的(虚拟)环境及其解析器,点击可在顶部下拉菜单选择其他(虚拟)环境及其解析器。

2022-08-15 17:31:08 2585

原创 查看已启动的jupyter server地址

win10在 用户文件夹\AppData\Roaming\jupyter\runtime 里,找到最新的nbserver-xxxxx-open.html文件,里面也有地址;jupyter server启动时,命令行中会显示地址,但后续会被清屏;也能得到方法三中的结果。

2022-07-25 09:49:21 2509

转载 Pandas | 详解数据的合并和拼接

Pandas包的merge、join、concat方法可以完成数据的合并和拼接,merge方法主要基于两个dataframe的共同列进行合并,join方法主要基于两个dataframe的索引进行合并,concat方法是对series或dataframe进行行拼接或列拼接。...

2022-07-12 22:43:06 8400

原创 python logging包同时往文件和屏幕输出日志的写法

第一种:import logginglogger = logging.getLogger(__name__)logger.setLevel(level = logging.DEBUG)fh = logging.FileHandler(log_file)fh.setLevel(logging.DEBUG)file_formatter = logging.Formatter('%(asctime)s\t%(levelname)s\t%(name)s\t%(message)s')fh.setFo

2022-05-02 23:00:09 1114 1

转载 样本标准差与自由度 n-1 卡方分布关系的证明

转自:https://blog.csdn.net/robert_chen1988/article/details/90640917个人学习收藏,侵删在一本统计学课本中见到一个熟悉的式子:(n−1)s2σ2∼χ2(n−1)\frac{(n-1) s^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)σ2(n−1)s2​∼χ2(n−1)其中sss为样本的标准差。该式子的含义是 (n-1)*样本方差与总体方差之比服从自由度为 n-1 的卡方分布。而且,Xˉ\bar{X}Xˉ与S2S^2

2022-03-04 17:51:41 2132

原创 国内外语料库收集

变分推断概述,分一、二两部分,搬运自两篇不同文章,内容会有重复,本文为第一篇,转自:https://www.zhihu.com/question/31032863/answer/315311293个人收藏学习使用,侵删-----------------------------------------------------------------------------一般的problem setting是,我们想计算posterior (这在做inference和prediction..

2021-11-06 19:35:51 667

转载 Python logger模块快速使用

转自:Python logger模块 - 浅雨凉 - 博客园个人学习收藏,侵删------------------------------------------------------------------------------------1 logging模块简介logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等;相比print,具备如下优点:可以通过设置不同的日志等级,在release版本中只输出重要信

2021-10-02 17:54:14 393

转载 【BUG】VSCode浏览python代码无法进行变量和函数跳转

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

2021-09-29 22:36:46 1585

转载 如何找到好的主题模型量化评价指标?这是一份热门方法总结

来源:http://www.45fan.com/article.php?aid=20020586166334499146347368个人学习收藏,侵删------------------------------------------------------------------------基于统计学的主题模型诸如 LDA(Latent Dirichlet Allocation),Biterm 的应用使得针对大量文本进行信息的总结提取成为可能。但是提取的主题到底质量如何,如何进行量化分析和评价

2021-09-23 17:23:08 960

转载 BETA分布的贝叶斯推导

摘自https://www.cnblogs.com/coshaho/p/9658135.html个人学习收藏,侵删-------------------------------------------------------一些公式Gamma函数(1)贝叶斯公式(2)贝叶斯公式计算二项分布概率现在有一枚未知硬币,我们想要计算抛出后出现正面的概率。我们使用贝叶斯公式计算硬币出现正面的概率。硬币出现正反率的概率和硬币两面的质量有较大关系,由于硬币未知,我们不知道.

2021-08-13 22:23:55 652

转载 b站大佬稚晖君的首次直播分享学习

1、学习方法:项目多并非一蹴而就,靠的是不断积累;边“打仗”边学习边做项目,在做项目的过程中不断提升自己;找到短板进行补充,给自己一定成就感;实践与理论同样重要,要注意结合,例如算法会用到的数学知识。用有意思的项目做为自己学习道路的标记;可尝试以教为学即费曼学习法,每次学习一个项目后及时做好总结,做好学习文档,代码包装等等,也可在自己学完后输出文章或视频等等。有关学习问题可以上知乎看一下大佬写的文章。2、单片机|嵌入式:单片机这种玩意儿就是应用层、驱动层,跑一些逻辑程序。最终还是都要学到嵌入式AI的,如

2021-06-10 17:27:57 907

转载 簇大小与分区4k对齐的关系

现在的硬盘分区软件,新建分区默认都是4k簇,除非专门更改簇的大小,否则不会变。而4k对齐,是调整扇区数的多少,而不是调整簇的大小!1,随着硬盘容量不断扩展,之前定义每个扇区512字节不再是那么的合理,于是扇区就渐渐进化提升为每个扇区4096字节,就是“4K扇区”的由来。2,随着ntfs成标准的硬盘文件系统,其文件系统的默认分配单元(簇)也进化为4096字节每簇,为了使4k簇与4k扇区相对应,使硬盘物理硬盘分区与系统逻辑分区对齐,保证硬盘读写效率,就有了“4K对齐”的概念。3,硬盘厂商为了保证与操

2021-04-29 16:23:35 5191

原创 Docker Desktop卸载后Hyper-V服务驻留与第三方虚拟机产生冲突

本人系统是WIN10 HOME 1909,由于某个区块链节点软件需要,安装了Docker Desktop,但发现后续环境配置太复杂就没有继续,于是将Docker Desktop和区块链节点软件卸载。卸载后,发现VMWARE以及雷电模拟器不能正常使用,经查是因为Docker Desktop是基于hypter-V虚拟环境运行的,Hyper-V是WIN 10自带的虚拟环境功能,会与一些第三方虚拟机产生冲突。安装Docker Desktop后会自动启用Hyper-V相关服务,然而Docker Desktop执行卸载

2021-03-22 14:12:51 1564

原创 变分推断概述

框架参考:https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/102735795https://www.zhihu.com/question/31032863/answer/315311293一些公式推导:https://blog.csdn.net/weixin_42431920/article/details/108291088https://blog.csdn.net/weixin_40255337/article/detai

2021-03-20 13:08:41 194

转载 机器学习高阶理论知识列表

来源:https://mp.weixin.qq.com/s/1MM0_wk43WARz4c5WWuzCQ个人学习收藏,侵删-------------------------------------------------------------------------------也不断升高,如果对自己没有很高的要求,其实很容易被快速发展的趋势所淘汰。为了迎合时代的需求,我们去年推出了《机器学习高端训练营》。这个训练营的目的很简单:想培养更多高端的人才,帮助那些即将或者目前从事科研或已从.

2021-03-03 23:01:42 475

转载 开源贡献指引

转自:http://www.contribution-guide.org/----------------------------------------------------------------------------------------------------------------Contributing to Open Source ProjectsAboutThis document provides a set of best practices for open so

2021-03-03 17:30:30 138

原创 阅读笔记002.《Inference Methods for Latent Dirichlet Allocation》- Chase Geigle 论文笔记

该论文的公式41第二个γ的下标有误,i应改为l

2021-03-01 11:00:04 155

转载 推荐这六本关于机器学习的书籍,并说说它们的优缺点

万事开头难。第一本该介绍哪个,或者第一本该看哪个,实在是不好讲。即使是Amazon上的书评,老外也是理工科两极分化严重,每本都有很多人说适合入门用的,也有很多人说不适合的。但是个人认为,第一本一定要能用最清晰的语言,最简单的例子把尽量多的核心概念、术语讲在前面,最好还要有尽可能多的图,这样初学者才能“不怵”这么多概念名词。有了基本概念之后然后再后面反复涉及这些概念,不断深化理解。最后再能覆盖一定的广度和前沿。来自永远的幻想的投稿,转载请注明以下内容:文章出处:数盟社区文章链接:推荐这六本关于机

2021-02-06 00:25:07 1211

原创 生动理解numpy.sum()以及其axis参数

转自:https://zhuanlan.zhihu.com/p/48871067个人学习收藏,侵删--------------------------------------------------------------------------使用NumPy模块时,经常会用到numpy.sum()函数,比如计算一个多维数组(ndarray)的所有元素之和:当我用NumPy实现神经网络时,遇到一个问题,我需要计算一个二维ndarray每一列的元素和,于是乎我去看numpy.sum(.

2021-02-02 12:07:24 1627

原创 LDA变分推断笔记

1、在变分推断LDA里,隐变量θ直接使用了γ来推断,所以在EM迭代的时候得到的γ被近似认为就是隐变量θ。不需要在由q(θ|γ)采样生成

2021-02-01 00:22:28 196

原创 难记的latex语法整理

整理一些使用过的比较难记的latex语法,好记性不如烂笔头,根据使用记录慢慢补充:运算符分数: \frac {a} {b} ab\frac {a} {b}ba​

2021-01-30 10:47:43 159

原创 阅读笔记001.《Parameter estimation for text analysis》- Gregor Heinrich 论文笔记

该论文注释21中的式子:似乎有误,应为:p(zi∣z¬i⃗) p(z_{i}|\vec{z_{¬i}}) p(zi​∣z¬i​​)以及本人对相关公式的推演草稿(未做整理)暂存如下:

2021-01-29 17:50:38 200 3

原创 二项分布、poisson分布、gamma分布一些关系的笔记

未编辑,先保存稿件

2021-01-28 11:13:31 764

原创 VSCODE中的conda环境设置(已不适用最新版VSCODE)

PS:该文基于2020年底的旧版VSCODE编写,最新版(按标注时计为1.69版)已经可以直接在界面正常使用、切换python解析器及其虚拟环境,也已经可以直接在jupyter插件界面直接使用各种连接模式。此外,此文假设你:已在WIN10上安装conda、在主环境安装jupyter;已创建虚拟环境;已完成虚拟环境内核与主环境jupyter之间的连接配置;已安装好VSCODE及其python、jupyter插件。如没完成,请先进行以上准备。

2021-01-12 00:16:43 7089

转载 vscode自定义插件安装位置

转自:https://blog.csdn.net/rj_han/article/details/82801501个人学习收藏,侵删-------------------------------------------------------------------------------------------vscode插件默认的安装位置是C:\Users\用户名\.vscode\extensions如果不想把插件安装在C盘的话,可以自己新建一个文件来存储插件,然后在快捷方式的.

2021-01-08 17:37:18 657

转载 python中的type和object详解

原文(英,需梯子):http://www.cafepy.com/article/python_types_and_objects/python_types_and_objects.html译文:https://www.cnblogs.com/busui/p/7283137.html-----------------------------------------------------------------------------------------------------关于这篇博客

2021-01-07 23:47:05 183

转载 Python中的MRO

转自:http://hanjianwei.com/2013/07/25/python-mro/个人学习收藏,侵删对于支持继承的编程语言来说,其方法(属性)可能定义在当前类,也可能来自于基类,所以在方法调用时就需要对当前类和基类进行搜索以确定方法所在的位置。而搜索的顺序就是所谓的「方法解析顺序」(Method Resolution Order,或MRO)。对于只支持单继承的语言来说,MRO 一般比较简单;而对于 Python 这种支持多继承的语言来说,MRO 就复杂很多。先看一个「菱形继承..

2021-01-06 17:27:02 356

转载 你真的理解Python中MRO算法吗?

来源:http://xymlife.com/2016/05/22/python_mro/个人学习收藏,侵删【前言】MRO(Method Resolution Order):方法解析顺序。Python语言包含了很多优秀的特性,其中多重继承就是其中之一,但是多重继承会引发很多问题,比如二义性,Python中一切皆引用,这使得他不会像C++一样使用虚基类处理基类对象重复的问题,但是如果父类存在同名函数的时候还是会产生二义性,Python中处理这种问题的方法就是MRO。【历史...

2021-01-06 15:18:42 117

原创 LDA困惑度perplexity的一些个人理解

1、根据gensim3.8.3的源码,log_perplexity()输出的是perwordbound,而perwordbound计算步骤如下:先调用 bound() ,通过一个chunk的语料W⃗\vec{W}W计算整个语料库的对数似然值logp(W⃗)logp(\vec{W})logp(W)的下界,即Eq[logp(W⃗)]−Eq[logq(W⃗)]Eq[logp(\vec{W})]-Eq[logq(\vec{W})]Eq[logp(W)]−Eq[logq(W)] 。然后用算出的bound除以整个

2020-12-13 23:35:10 3782 9

原创 重装anaconda以及带paddlehub的虚拟环境的简要步骤

备份HUB_HOME环境变量值卸载paddlehub 卸载paddlepaddle 备份pip源配置备份conda的.condarc配置 按官网方法卸载anaconda 按官网方法重装an...

2020-11-12 18:22:15 1040

原创 如何正确查看CUDA版本

有两种命令:第一种:nvidia-smi第二种:nvcc --versionCUDA 有两种API,分别是 运行时 API 和 驱动API,即所谓的 Runtime API 与 Driver API。nvidia-smi 的结果除了有 GPU 驱动版本型号,还有 CUDA Driver API的型号。而nvcc --version的结果是对应 CUDA Runtime API。在安装CUDA 时候会安装3大组件,分别是 NVIDIA 驱动、toolkit 和 samples。NV..

2020-11-05 18:05:25 2366 1

原创 在命令行进行jupyter kernel创建、查看、删除

以下内容基于:编写,如有任何差异,请以实际环境版本文档为准。

2020-11-04 10:53:14 774

原创 Duplicate environments when installing packages

https://github.com/conda/conda/issues/9146

2020-11-04 10:27:18 71

转载 指数分布族

转自:https://www.cnblogs.com/sddai/p/11279007.html个人学习收藏,侵删----------------------------------------------------------------------------------指数族分布是一大类分布,基本形式为:分布函数框架中的h(x),η(θ),T(x)和A(θ)并不是任意定义的,每一部分都有其特殊的意义。θ是自然参数(natural parameter),通常是一个实数;h(x)

2020-07-26 17:39:11 1157

转载 Python 去除列表中重复的元素

转自:https://www.cnblogs.com/infim/archive/2011/03/10/1979615.html个人学习收藏,侵删-----------------------------------------------------------------------------------------------------比较容易记忆的是用内置的setl1 = ['b','c','d','b','c','a','a']l2 = list(set(l1))p.

2020-05-23 20:08:03 156

转载 requests与urllib库的区别

原文链接:https://blog.csdn.net/sinat_37967865/article/details/85392207个人学习收藏,侵删-------------------------------------------------------------------------------------------------------我们在使用python爬虫时,需要模拟发起网络请求,主要用到的库有requests库和python内置的urllib库,一般建议使用reques

2020-05-09 16:06:01 1077

转载 Python网络请求urllib和urllib3详解

来源:https://www.jianshu.com/p/f05d33475c78个人学习收藏,侵删--------------------------------------1. 简介urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib。而urllib3则是增加了连接池等功能,两者互相都有补充的部分。2. urlliburllib作为Python的标准库,基本上涵盖了基础的网络请求功

2020-05-09 15:58:56 212

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除