Mingsheng Zhang-CSDN博客

原创对dropout的一些理解

20. 为什么dropout在训练期间神经元将被连接到两倍于（平均）的输入神经元。为了弥补这个事实，我们需要在训练之后将每个神经元的输入连接权重乘以1-p??有一个小而重要的技术细节。假设 p = 50% ，在这种情况下，在测试期间，输入的信号是训练新号的两倍，因为训练的时候对输入信号进行了dropout（p=0.5），而测试的时候不进行dropout，所以训练的时候输入信号只是测试...

2019-07-05 15:43:18 17317 7

有yield的函数则返回一个可迭代的 generator（生成器）对象，你可以使用for循环或者调用next()方法遍历生成器对象来提取结果。但是每调用一次都会暂停一下，只有你需要下个元素的时候才会生成下个元素，能节省很多内存，和一般的可迭代对象对比而言，如果你只需要这个可迭代对象的前5个数，之前生成的整个可迭代对象存储在容器中就会很浪费内存，剩余的你在这儿可能不会需要，而yield是你需要一个数据，会生成一个，不需要的时候就不用生成，不会事先把整个容器中的数全部生成，而是构建一个生成器，调用一次生成一个对

2022-03-11 14:47:51 1724

原创蚁群算法原理及python实现

蚁群算法（ACO）是属于元启发式算法的一种。是一种群体的智能方法。算法原理：蚂蚁在寻找食物源时，会在其经过的路径上释放一种信息素，并能够感知其它蚂蚁释放的信息素。信息素浓度的大小表征到食物源路径的远近，信息素浓度越高，表示对应的路径距离越短。通常，蚂蚁会以较大的概率优先选择信息素浓度较高的路径，并释放一定量的信息素，以增强该条路径上的信息素浓度，但也有一定的概率随机选择其他路径，这样会形成一个正反馈。最终，蚂蚁能够找到一条从巢穴到食物源的最佳路径，即最短距离。值得一提...

2022-03-06 19:38:44 904

原创进化算法简单介绍

进化算法又称启发式算法，是利用经验法则或者常识来解决问题的方法。1. 元启发式算法和启发式算法有什么区别？摘自：启发式和元启发式的区别 - Tsingke - 博客园启发式策略（heuristic）启发式算法(Heuristic Algorigthm)是一种基于直观或经验构造的算法,在可接受的花费(指计算时间、计算空间等)给出待解决优化问题的每一实例的一个可行解，该可行解与与最优解的偏离程度一般不可以事先预计。启发式算法是一种技术,这种算法可以在可接受的计算费......

2021-12-28 20:25:44 6136 1

原创种群规模大小证明

基数为r的搜索空间，有多少种种群规模为n的进化算法的种群？（进化优化算法书中第62页问题证明）

2021-12-21 21:28:24 368

转载 MySQL 中的 upsert 操作与时间戳自动更新

MySQL 中的 upsert 操作与时间戳自动更新MySQLMySQL 中的 upsert在 MySQL 中，是没有直接的 upsert 功能的，但是我们可以利用唯一约束进行重复时更新操作。示例：INSERT INTO test(id) VALUES(1) ON DUPLICATE KEY UPDATE id=2上述的 sql 语句在遇到重复的主键时，将会中断插入操作改为更新操作。时间戳自动更新有的时候，我们在表中会维护一个类似于 updateTime 的字段，每当对记录

2021-12-08 16:20:36 1896

原创 python 集合排序

lst = [{'level': 19, 'star': 36, 'time': 1}, {'level': 20, 'star': 40, 'time': 2}, {'level': 20, 'star': 40, 'time': 3}, {'level': 20, 'star': 40, 'time': 4}, {'level': 20, 'star': 40, 'time': 5}, {'level': 18, 'star': ...

2021-12-02 16:15:23 5151

转载通俗理解谱聚类

转自：谱聚类（spectral clustering）原理总结 - 刘建平Pinard - 博客园本文对其中的难懂的地方做一些备注　谱聚类（spectral clustering）是广泛使用的聚类算法，比起传统的K-Means算法，谱聚类对数据分布的适应性更强，聚类效果也很优秀，同时聚类的计算量也小很多，更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时，个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法原理做一个总结。1. 谱聚类概述　　　　谱聚类是从图论中演化出来

2021-11-03 20:29:36 838

原创进化优化算法--第二章：爬山法

算法2.1：最快上升爬山法x0 <- 随机生成的个体while not ( 终止准则) 计算x0的适应度f(x0) For 每一个解的特征 q=1,2,,...n xq <- x0 用一个随机变异替换xq的第q个特征计算xq的适应度f(xq) 获取下一个更优的解: 寻找使f(xq)最大的xq, 令其等于x', x' <- argmax(f(xq)): q 属于[0,n] if x0 !=...

2021-11-02 22:42:12 1862 1

原创 bash、linux 常用快捷键

bash:ctrl+u 清空当前命令行 ctrl +a 行首 ctrl +e 行尾

2021-10-25 11:01:54 131

原创通俗理解贝叶斯，全概率定理

全概率定理理解：有多种方式A、B、C使你走向成功，但也可能让你失败，问你成功的概率是多少？贝叶斯定理理解：你已经成功了，现在想知道你通过方式A成功的概率是多少？

2021-10-25 10:23:08 3642

原创 pandas groupby 分组后迭代使用问题

在使用pandas进行分组迭代求和时，分组后的对象一直不知道怎么迭代出来，其实可以两步进行，先按照key分组，然后进行sum,mean等操作。如下代码中，name 是key, 后面的group是根据key分的元素集合，可以进行求和等操作。 import pandas as pd import numpy as np df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2': ['one', 'two', 'on

2021-10-18 13:14:36 644

原创软链接和硬链接

软连和硬连的基本介绍：https://segmentfault.com/a/1190000021307033需要注意：1. 软链接如果只是单个文件链接，删掉链接文件，不会使原文件丢失2. 软链接使文件夹链接，如：ln -s /dev/test test 本地的test链接到/dev/test 、如果你对整个文件夹操作，如删除整个文件夹，那么原文件夹不会变化，因为软链的是文件夹，但是如果你删除软链文件夹中的文件，那么原文件夹中的文件也会被删掉，可以理解为软链一条通道、直接连接目的地和原地，你能从这

2021-08-31 10:14:59 115

原创卡曼滤波理解

推荐视频：https://www.zhihu.com/question/23971601/answer/839664224从这个视频中可以通俗的理解卡曼滤波，卡曼滤波是基于对一个状态的预测值、下一个状态的测量值之间的权重组合，上一次谁（预测值/测量值）的结果更加接近真实值，本次便将谁（预测值/测量值）的权重给的较大...

2021-07-14 22:12:30 315

原创生产规划问题

约束：资源约束目标：最大化利润枚举类型的产品product，每个产品对应的收益：array[product] of float: profit,enum resource 资源, array[resource] of float: capacity，每种资源对应的限制array[product,resource] 对应每个产品使用多少资源变量：% Variables: 每个产品生产的量array[PRODUCT] of var int: produce; 约束：%..

2021-07-07 22:55:18 392

原创理解标准差、标准化、协方差、正态分布

标准差的定义如上，衡量一组数平均偏离这组数平均值的程度。标准化（z变换）：是把每个数减去均值、除以标准差，转化为均值为0、标准差为1 的一组数。标准化可以理解为：标准化的值 = 每个数距离平均值有多少个标准差的大小，即可以理解为到达平均值的距离转化为有多少个标准差均值为0理解：每个数都减去均值，所以新的数总体加起来为0，其均值就为0标准差为1：每个数减去平均值之后，只是对整体的数做了平移，数与平均值之间的差距都没有变化，标准差还是原来的值，原始标准差 n = 原始数据距平均值的平均距离是..

2021-06-24 23:32:54 9667 4

原创 Coursera 批量下载视频

1. 先安装必备的包pip install coursera-dl2.coursera-dl -u <user> -p <password> --cauth <cauth-cookie> --path <path> --subtitle-language <language> --download-quizzes --video-resolution <video-resolution> <course-nam.

2021-06-16 22:51:31 726

转载 WSL Sodu 忘记密码重置密码

https://docs.microsoft.com/zh-cn/windows/wsl/user-supporthttps://www.cnblogs.com/heenhui2016/p/12916476.htmlWSL Sodu 忘记密码重置密码关闭Ubuntu窗口打开Powershell 或 cmd，以root默认登陆wsl -u root。别关，在这个cmd窗口内（重点）输入wsl进入，输入passwd your_username，之后重新确认密码。关...

2021-04-23 21:14:36 720

转载 Python中的值类型与引用类型

Python中的值类型与引用类型其实各个标准资料中没有说明Python有值类型和引用类型的分类，这个分类一般是C++和Java中的。但是语言是相通的，所以Python肯定也有类似的。实际上Python 的变量是没有类型的，这与以往看到的大部分语言都不一样（JS等弱类型的也是这样）。但 Python 却是区分类型的，那类型在哪里呢？事实是，类型是跟着内存中的对象走的。类型属于对象，变量是没有类型的。一般也分实参和形参。《learning python》中的一个观点：变量无类型，对象有类型。不可

2021-04-22 22:25:00 234

原创 LSTM/GRU 出现预测值滞后现象

问题：当利用LSTM/GRU等做预测时，在数据上升较快或者下降较快的地方出现预测值滞后现象，即T+1时刻的预测值就是或者与T，T-1时刻的真实输入值基本相同原因：回归算法将使用您提供的时间窗口中的值作为样本，以最大程度地减少误差。假设您正在尝试预测时间t的值。输入是以前的收盘价，即t-20到t-1的最后20个输入的时间序列窗口（假设样本输入的timestamp是20）。回归算法可能会学习在时间t-1或t-2处的值作为预测值，因为这样不需要做什么就可以达到优化的误差之类了。这样想：如果在t-1值6..

2021-03-08 22:27:55 13192 7

原创 LSTM 与GRU

LSTM 通俗理解：https://blog.csdn.net/v_JULY_v/article/details/89894058GRU ：https://www.jiqizhixin.com/articles/2017-12-24

2021-03-06 20:00:58 249

转载激活函数以0为中心的好处

今天在讨论神经网络中的激活函数时，陆同学提出 Sigmoid 函数的输出不是以零为中心的（non-zero-centered），这会导致神经网络收敛较慢。关于这一点，过去我只是将其记下，却并未理解背后的原因。此篇谈谈背后的原因。神经元如图是神经网络中一个典型的神经元设计，它完全仿照人类大脑中神经元之间传递数据的模式设计。大脑中，神经元通过若干树突（dendrite）的突触（synapse），接受其他神经元的轴突（axon）或树突传递来的消息，而后经过处理再由轴突输出。在这里，诸x..

2021-03-06 17:15:37 1972 6

转载 HIve 常见数据压缩方式对比

转自：https://blog.csdn.net/weixin_36714575/article/details/8009157五.结论1.在压缩存储时间上，除Sequencefile外基本都相差无几。2.数据压缩比例上ORC最优，相比textfile节省了50倍磁盘空间，parquet压缩性能也较好。3.SQL查询速度而言，ORC与parquet性能较好，远超其余存储格式。综合上述各种性能指标，建议工作中原始日志写入hive的存储格式都采用ORC或者parquet格式，这和目前主...

2021-03-06 15:26:06 1043

转载 mysql 读写冲突

转自：https://www.cnblogs.com/taoshihan/p/10653931.html1.无论何时只要有多个查询在同一时刻修改数据,都会产生并发控制的问题2.讨论mysql在两个层面,服务器层和存储引擎层,如何并发控制读写3.举了个mbox邮箱文件的例子,说如果有多个进程同时对mbox文件写东西,那么在文件的末尾会,交叉混乱的添加,比如进程1写了几行,进程2也写了几行,互相交叉,数据就是错误的了.设计良好的mbox需要加锁,比如进程1锁住了文件,进程2必须等待进程1结束,锁释.

2021-02-22 22:21:21 2777

原创 Vim 常用指令

1. 批量删除7-19行：:7,19d2.将第9行至第15行的数据，复制到第16行9，15 copy 16 或：9，15 co 16

2021-02-18 19:42:25 53

转载 xargs参数详解

简介xargs指令可以从标准输入读取数据，并利用这些数据“组建”并“执行”指令。它的作用是将参数列表转换成小块分段传递给其他命令，以避免参数列表过长的问题。语法 xargs [-0prtx] [-E eof-str] [-e[eof-str]] [--eof[=eof-str]] [--null] [-d delimiter] [--delimiter delimiter] [-I replace-str] [-i[replace-str]] [--r.

2021-02-18 17:53:12 3047

转载 2021-02-18

Linux源码中的mktime算法解析 http://blog.chinaunix.net/uid-23782786-id-4218034.html

2021-02-18 15:09:29 48

原创 Hadoop 权威指南学习笔记（十一）

HIVEHiveQL 一般是大小写无关的(除了字符串比较以外)hive 新建表：ROWFORMAT 子句是 HiveQL所特有的。这个子句所声明的是数据文件的每一行是由制表符分隔的文本。 Hive 按照: 每行三个字段，分别对应于表中的三列，字段间以制表符分隔每行以换行符分隔，这一格式读取数据。LOADDATA 语句中的 OVERWRITE 关键字告诉 Hive 删除表所对应目录中已有的所有文件。如果省去这一关键字， H...

2021-01-24 20:45:36 123

原创 Hadoop 权威指南学习笔记（十）

关于Pig pig为大型数据集的处理提供了更高层次的抽象，Pig 是作为一个客户端应用程序运行的

2021-01-23 18:32:45 127

原创 Hadoop 权威指南学习笔记（九）

管理 Hadoopdfs.name.dir 属性描述了一组目录，VERSION文件包含：namespaceID=134368441 cTime=0 storageType=NAME_NODE layoutVersion=-18 属性 namespaceID 是文件系统的唯一标识符，是在文件系统首次格式化时设置的。cTime 属性标记了 namenode 存储系统的创建时间，...

2021-01-21 23:15:17 152

原创 HIveql 常用语法

Hive 删除表中部分数据1、hive表删除数据不能使用DELETEFROM table_name中SQL语句2、hive表删除数据要筛选出数据覆盖原来的数据INSERT OVERWRITE TABLE table_name PARTITION(dt='v3')SELECT column1,column2 FROM table_nameWHERE dt='v3' AND category is not null;二、无partiton表INSERT OVERWRITE T..

2021-01-19 22:10:16 153

转载文件和文件夹的个数是否对磁盘的IO有影响？

转自：https://segmentfault.com/q/1010000000644754文件的个数、文件夹的个数、文件夹的层级数是否对磁盘的IO有影响要想了解问题的本质，需要知道一个文件和一个文件夹(以下都称为目录)在Linux下面是怎么表示的。文件系统是个很大的范畴，这里简要说以下几点：0. 文件是什么1. 文件名有什么用2. 怎样根据文件名找到文件3. 目录是怎样索引的针对以上几点做出解释0. 文件是什么文件其实是一种对磁盘中存储的一堆零散的数据的一...

2021-01-19 09:32:25 821

原创 Hadoop 权威指南学习笔记（八）

构建Hadoop集群尽管建议采用 RAID(Redundant Array of Independent Disk，) 作为 namenode 的外部存储器以避免元数据冲突，但在 datanode 中使用 RAID 作为外部存储器井不会 HDFS 带来好处。因为 HDFS 所提供的节点间复制技术己满足了数据备份需求，无需使用 RAID 的冗余机制。如果 JBOD 配置的某一磁盘出现故障， HDFS 还可以忽略该磁盘，继续工...

2021-01-17 17:33:25 155

转载 RAID磁盘阵列是什么

在单机时代，采用单块磁盘进行数据存储和读写的方式，由于寻址和读写的时间消耗，导致I/O性能非常低，且存储容量还会受到限制。另外，单块磁盘极其容易出现物理故障，经常导致数据的丢失。因此大家就在想，有没有一种办法将多块独立的磁盘结合在一起组成一个技术方案，来提高数据的可靠性和I/O性能呢。在这种情况下，RAID技术就应运而生了。一、RAID 是什么？RAID （ Redundant Array of Independent Disks ）即独立磁盘冗余阵列，简称为「磁盘阵列」，其实就是用多个独立的磁

2021-01-17 15:36:15 155

原创 Hadoop 权威指南学习笔记（七）

MapReduce 的特性7.1 计数器计数器是一种收集作业统计信息的有效手段，用于质量控制或应用级统计。计数器还可辅助诊断系统故障。Hadoop 为每个作业维护若干内置计数器，以描述该作业的各项指标。任务计数器在任务执行过程中，每个作业的所有任务的结果都会被任务计数器聚集起来。计数器由其关联任务维护，井定期传到 tasktracker .再由 tasktracker 传给 jobtracke...

2021-01-16 22:08:08 95

原创 Hadoop 权威指南学习笔记（六）

MapReduce 的类型与格式默认的输入格式是 TextlnputFormat ，它产生的键类型是 LongW table( 文件中每行中开始的偏移量值)，值类型是 Text( 文本行)。这也解释了最后输出的整数的含义:它们是行偏移量。map 任务是由 MapRunner 负责运行的， MapRunner MapRunnable 的默认实现，它顺序地为每一条记录调用一次 Mapper map() 方法。默认的输出格式是 TextOut...

2021-01-16 18:29:44 227

原创 Git 常用命令

1. 远程分支覆盖本地分支git pull <远程主机名> <远程分支名>:<本地分支名>可以简写为 git pull，只会将和本地分支同名的远程分支更新到本地，如果想要远程最新master的分支，就需要本地切换到master分支，再执行git pullgit checkout 切换分支删除分支devgit branch -d dev #删除本地分支git push origin :dev #将删除操作提交到远程(删除远程分支...

2021-01-15 13:25:04 72

原创 Hadoop 权威指南学习笔记（五）

MapReduce 的工作机制5.1剖析 MapReduce 作业运行机制客户端:提交 MapReduce 作业。 jobtracker: 协调作业的运行。 jobtracker 是一个 Java 应用程序，tasktracker: 运行作业划分后的任务。 tasktracker Java 应用程序，分布式文件系统(一般为 HDFS)，用来在其他实体间共享作业文件。maperd.job.tracker: 如果被设置为local,则在本地测...

2021-01-10 18:12:16 272

原创 Standby NameNode 一直重启不成功

不知道怎么把Standby NameNode 搞挂了之后就一直重启不成功，可能是由于执行了一次格式化，尝试了把Standby NameNode的clusterID保持一致，但是还是怎么都没重启成功，还是要好好看报错信息，很多次执行hdfs namenode -bootstrapStandby有报错，但是没注意看，以为成功了，接着执行后面的。方案确保Active NameNode是正常工作不要从Active NameNode节点/hadoop/hdfs/namenode目录下拷贝任何数据到Sta.

2021-01-02 16:49:58 510

原创 Hadoop 权威指南学习笔记（四）

MapReduce 应用开发MapReduce 来编写程序，有一个特定的流程。首先写 map 函数和 reduce 函数，最好使用单元测试来确保函数的运行符合预期。然后，写一个驱动程序来运行作业，要看这个驱动程序是否可以运行，可以从本地 IDE 用一个小的数据集来运行它。如果驱动程序不能正确运行，就用本地 IDE 调试器来找出问题根源。通过这些调试信息，可以加大单元测试使其覆盖这一测试用例，从而改进 mapper，reducer ，尽可能正确地处理...

2020-12-27 22:00:53 114

统计数字会撒谎（美）达莱尔·哈夫++产品资料.pdf

Python3廖雪峰

Outer approximation algorithms for separable nonconvex

Global Optimization of Mixed-Integer Nonlinear Problems

空空如也