褚骏逸-CSDN博客

原创 MAC终端及连接ssh服务器出现中文乱码

目录MAC终端中文乱码MAC ssh连接服务器后，服务器上的中文乱码MAC终端中文乱码失败的尝试：在~/.zshrc中写入这两行，还是乱码cat ~/.zshrcexport LC_ALL=en_US.UTF-8 export LANG=en_US.UTF-8失败的尝试：把终端的偏好设置改成简体中文成功的尝试：$vim ~/.bash_profile$source ~/.bash_profile$locale#locale的output#LANG="en_US.UTF-8

2021-08-19 13:50:52 1182 1

原创【matplotlib复杂的频数分布直方图】多子图，共享横纵坐标名，横坐标位置居中及标签显示，显示每个bar的频数

hist的官方文档，下面的例子值得学习在一个图上画三个数据集下述图的问题：都不咋好看由于第二个length太高了，导致其他的length区分度不大了不同数据集有些length重合了……横坐标的位置和bar不匹配方法1fig, ax = plt.subplots(nrows = 1, ncols = 1)colors = ['red', 'green', 'orange']ax.hist(train_length, n_bins, color = 'red')ax.hist(

2021-05-03 11:07:52 1490 2

原创【matplotlib复杂热图绘制】自定义元素注释，对数渐变色标，不显示色标，去掉留白，LZW压缩

我的最终图形式元素注释为该元素的name+value无color bar颜色分明创建带注释的热图function详见官方文档，下面是我自己的图，修改了官方例子。def heatmap(data, ax=None, cbar_kw={}, cbarlabel = "", **kwargs): """ Create a heatmap from a numpy array and two lists of labels. Parameters --------

2021-05-03 02:16:57 800 4

原创【Linux CentOS系统】Matplotlib不显示Times New Roman

CentOS系统是没有Times New Roman字体的。（其他字体类似操作）步骤把本地电脑里C:\windows\fonts中的Time New Roman文件夹/4个文件拷贝到CentOS系统中的/usr/share/fonts目录下。（我不确定是把整个文件夹拷过来，还是把4个文件直接放进去，我都试了一下，不知道是哪个成功的。）执行下面三条命令刷新字体缓存mkfontscalemkfontdirfc-cache -fv可以执行“fc-list”来查看安装了那些字体（看每一个小段

2021-05-02 08:00:27 1513

原创 keras搭建二分类神经网络代码：不平衡，AUC和AUPR，画图

代码定义性能评估指标def performances(y_true, y_pred, y_prob): tn, fp, fn, tp = confusion_matrix(y_true, y_pred, labels = [0, 1]).ravel().tolist() accuracy = (tp+tn)/(tn+fp+fn+tp) try: recall = tp / (tp+fn) except: recall = 0

2021-02-01 21:55:38 2700 1

原创 linux下用psiblast批量生成pssm矩阵

目录在linux上安装psiblast下载并编译用于比对的大型蛋白质数据库生成pssm批量生成方法文章中看到的手动生成pssm的方法在linux上安装psiblast最好新建一个python环境，因为我发现conda安装blast默认的是python==3.6.11，可能会不小心把你的python版本改掉…然后你写好的代码全die了……conda create -n blast python==3.6.11source activate blastconda install -c bioconda

2021-01-28 22:06:15 2754 5

原创关于CompileError: command ‘gcc‘ failed with exit status 1解决：gcc g++版本

http://c.biancheng.net/view/7933.htmlhttps://blog.csdn.net/mou_it/article/details/79842193报错：ImportError: Building module norm_aggr failed: [“distutils.errors.CompileError: command ‘gcc’ failed with exit status 1\n”]注意：看上面#include查看gcc和g++版本是否一致，查看c

2020-10-07 15:02:43 5622 1

原创在线社交网络的影响力最大化算法

1. 病毒式营销针对社交网络中最有影响力的用户（例如，通过向他们提供免费或价格优惠的样本），人们可以通过口碑利用网络效应的力量，从而将营销信息传递到网络的很大一部分。2. 影响力最大化：病毒式营销的关键算法在一个在线社交网络中选择一组k个用户，即选出具有最大影响力传播的种子集，然后通过信息传播中的种子集来影响用户的预期数量最大。2.1. 定义：扩散模型和影响扩散给定社交图 G=(V,E)G = (V,E)G=(V,E)，一个用户集 S⊆VS⊆ VS⊆V，扩散模型MMM捕获SSS在GGG上传播信息的

2020-09-02 17:10:23 3296

原创图数据处理：当每个user包含多个样本时，将其视为不同的样本，为每个sample赋予一个id，并更新边关系

文章目录1. 原始数据2. 数据处理思路2.1. 步1和步22.2. 步32.3. 步42.4. 步51. 原始数据node_data：节点数据，其中node_data[‘vroleid’]列为用户id，其他列包括node label和node feature。同一个用户id可能有多条样本，如果直接去重则会造成数据损失，随之带来的正负样本不平衡问题会进一步导致其与真是数据分布不符。** edge_data：** 节点关系数据，edge_data[‘vroleid’]和edge_data[‘frie

2020-08-20 11:29:23 315

原创 GraphSAINT和基于源码的pytorch实现（从数据处理到训练）

目录1.论文资料2.传统GNN挑战：邻居爆炸（Neighbor Explosion）3.现有方法：图采样4.GraphSAINT：截然不同的采样的视角4.1.算法流程4.2.子图采样4.3.实验结果：优于GCN, SAGE...参考文献1.论文资料作者：曾涵清博士，南加州大学论文：在 ICLR 2020 上发表了GraphSAINT: Graph Sampling Based Inductive Learning Method代码：https://github.com/GraphSAINT/Grap

2020-08-06 20:54:04 3292 5

原创 Cluster-GCN：子图划分，特别适合大规模的同质图数据

1. Cluster-GCN聚类GCN：一种对大而深的图卷积网络训练的高效算法发表时间： 2019年8月4日发表在KDD 2019上。1.1.参考资料论文链接：Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional NetworksGitHub链接：ClusterGCN: A PyTorch implementationDGL链接：DGLexamples1.2.GCN面临的挑战：大规

2020-08-04 21:13:53 5192 3

原创图网络：从数据处理到DGL模型构建（GCN, GraphSAGE, RGCN）

DGL异构图教程：https://docs.dgl.ai/tutorials/hetero/1_basics.htmlDGL v0.4 更新笔记：https://github.com/dmlc/dgl/releasesDGL-KE代码及使用说明：训练知识图谱嵌入（Knowledge Graph Embedding）专用包https://github.com/dmlc/dgl/tree/master/apps/kgDGL-Chem 模型库: 包括分子性质预测和分子结构生成等预训练模型。https

2020-08-03 19:59:00 8205 9

原创注意力机制分类、原理、应用

神经网络在进行特征提取的时候，会将所有的输入进行处理，提取得到的特征并没有进行特别的处理。那么，如果神经网络能够像人一样，并不是“观察”到所有的特征，而是只“注意”到那些真正关心的特征呢？...

2020-05-31 20:52:13 15266 3

原创【自监督算法】自编码器（autoencoder, AE）

十分建议先读keras文档看完之后感觉好像普通的自编码器好像没啥用啊？使用自编码器做数据压缩，性能并不怎么样…… 做逐层预训练训练深度网络吧，现在好的初始化策略、Batch Normalization、残差连接啥的都很有效了…… 那自编码器岂不是只有数据去噪、为进行可视化而降维这两个可应用的点了！配合适当的维度和稀疏约束，自编码器可以学习到比PCA等技术更有意思的数据投影。当然了，变分自编码器用于生成模型还是挺好的！1.简介自编码器是一类在半监督学习和非监督学习中使用的人工神经网络。.

2020-05-30 16:18:25 6658

原创残差连接skip connect

文章目录1. 来源1.LSTM的控制门2.ResNet进一步简化和实验验证2.解决：梯度消失2.1.梯度消失2.2.使用残差连接3.解决：网络权重矩阵的退化3.1.网络退化3.2.使用残差连接4.残差连接的有效性5.解释角度5.1.使得信息前后向传播更加顺畅5.2.集成学习5.3.解决梯度破碎问题参考Skip block：将输出表述为输入X和输入的一个非线性变换F(X)的线性叠加。解决了深层网络的训练问题。1. 来源1.LSTM的控制门2.ResNet进一步简化和实验验证公式：y=H(x,WH)

2020-05-29 21:22:04 7069

原创购物篮分析（Apriori算法）：Mlxtend实现

目录1.基础概念2.购物篮分析：指标用法3.规则生成基本流程3.1.找出频繁项集3.2.找出上步中频繁项集的规则4.Python实现：mlxtend参考1.基础概念项集：购物篮也称为事务数据集,它包含属于同一个项集的项集合。在一篮子商品中的一件消费品即为一项(Item)，则若干项的集合为项集(items)，如{啤酒，尿布}构成一个二元项集。关联规则： X为先决条件，Y为相应的关联结果,用于表示数据内隐含的关联性。如：尿布−>啤酒[支持度=8%，置信度=80%]尿布->啤酒[支持度=8\

2020-05-29 18:56:08 5098

原创图神经网络综述

1.为什么出现图神经网络GNN？近年来，人们对深度学习方法在图上的扩展越来越感兴趣。在多方因素的成功推动下，研究人员借鉴了卷积网络、循环网络和深度自动编码器的思想，定义和设计了用于处理图数据的神经网络结构：图神经网络（Graph Neural Networks，GNN）传统的深度学习方法在提取欧氏空间数据（如Image）的特征方面取得了巨大的成功，但在处理非欧式空间数据（如Graph）上的表现却仍难以使人满意。许多实际应用场景中的数据是从非欧式空间生成的，如推荐系统中的图。图是不规则的，每

2020-05-28 18:17:22 1198 1

原创【NLP面试】简述RNN、LSTM、NLP

目录1.RNN：处理序列数据1.1.为什么需要RNN？1.2.基本原理1.3.缺点1.3.1.短期记忆、训练成本大1.3.2.梯度消失/爆炸1.4.LSTM：RNN的优化算法1.4.1.与RNN相比1.4.2.核心步骤（前向计算过程）1.4.3.反向传播算法BPTT1.4.4.python实现1.4.5.LSTM变体1.4.5.1.在门上增加窥视孔1.4.5.2.整合遗忘门和输入门1.5.GRU：LSTM 的变体1.6.应用3.【科普】NLP3.1.核心任务3.1.1.自然语言理解 – NLU | NLI3

2020-05-25 13:37:46 564

转载【CV面试】简述CNN、计算机视觉、人脸识别

CNN：图像、视频卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。由于卷积神经网络能够进行平移不变分类，因此也被称为平移不变人工神经网络（Shift-Invariant Artificial Neural Networks, SIANN）。1.CNN解决了什么问题？在CNN出现之前，图像对于人工智能来说是一个难题。原因如下。1.1.将大数据量的图片降维成小数据量图像需要处理的数据量太大，导致成本很高，效率很低。图像是由像素构成的，每个像素又是由颜

2020-05-24 18:38:29 685 1

原创特征工程的方法和步骤

目录0.示意图1.特征类别1.1.类别特征1.2.数值特征1.3.时间特征1.4.空间特征1.5.自然语言处理1.6.深度学习/神经网络1.7.图特征1.7.Leakage1.8.统计聚合1.9.自动化特征工程2.数据预处理2.1.无量纲化方法2.2.归一化2.3.定性特征One-hot/哑编码2.4.定量特征二值化2.5.缺失值填充2.6.数据变换3.特征选择3.1.Filter过滤法3.1.1.方差选择法3.1.2.相关系数法3.1.3.卡方检验3.1.4.互信息法3.2.Wrapper包装法3.2.1

2020-05-24 15:11:54 3293

原创神经网络调参经验【多个大神的经验整理】

目录1.基本概念2.可调参数3.调参技巧3.1.Random Search代替Gird Search3.2.搜索过程：粗调→细调3.3.超参数的选取尺度3.3.1.对数尺度3.3.2.线性尺度4.调参4.1.学习率4.2.Epoch4.3.mini-batch size4.4.激活函数4.5.优化器4.6.权重初始化4.7.Batch Normalization批量归一化5.泛化5.1.欠拟合5.2.过拟合Dropout层：λ\lambdaλ调参参考1.基本概念超参数：如学习率ααα、adam方法的β

2020-05-24 12:01:55 2233

原创 CPU核心、进程、线程

进程一个在内存中运行的应用程序。每个进程都有自己独立的一块内存空间，一个进程可以有多个线程，比如在Windows系统中，一个运行的xx.exe就是一个进程。线程进程中的一个执行任务（控制单元），负责当前进程中程序的执行。一个进程至少有一个线程，一个进程可以运行多个线程，多个线程可共享数据。与进程不同的是同类的多个线程共享进程的堆和方法区资源，但每个线程有自己的程序计数器、虚拟机栈和本地方法栈，所以系统在产生一个线程，或是在各个线程之间作切换工作时，负担要比进程小得多，也正因为如此，线程也被称.

2020-05-23 20:45:40 1620

原创查找算法、python实现

目录0.概述0.1.分类0.2.平均查找长度1. 顺序查找、线性查找2. 二分查找3. 插值查找4. 斐波那契查找5. 树表查找6. 分块查找7. 哈希查找参考0.概述0.1.分类静态查找和动态查找：针对查找表而言的。动态表指查找表中有删除和插入操作的表。无序查找和有序查找：无序查找：被查找数列有序无序均可；有序查找：被查找数列必须为有序数列。0.2.平均查找长度Average Search Length，ASL需和指定key进行比较的关键字的个数的期望值，称为查找算法在查找成功时的平

2020-05-22 21:12:40 180

原创神经网络模型不收敛原因、解决办法

目录0.可能原因汇总1.检查1.1.确保：数据干净、标注正确1.2.样本的信息量太大1.3.确保：归一化、标准化1.4.确保：数据Shuffle1.5.数据预处理1.6.确保：y与loss是搭配的1.7.确保输出层的激活函数正确2.模型优化2.1.learning rate设大了2.2.batchsize2.3.网络设定不合理2.4.数据正则化2.5.ReLU激活函数导致坏梯度2.6.正确初始化权重参考理论上，只要训练样本足够多，神经网络可以拟合原始数据分布。0.可能原因汇总没有对数据进行归一化忘

2020-05-22 19:06:40 15734

深度学习发展的时间轴绘制图.vsdx

机器学习和深度学习的关系-思维导图.vsdx

豆瓣爬虫_评分评星_短评及词云_简易用户版（内含教程）

空空如也