自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(192)
  • 资源 (4)
  • 收藏
  • 关注

原创 对dropout的一些理解

20. 为什么dropout在训练期间神经元将被连接到两倍于( 平均) 的输入神经元。 为了弥补这个事实,我们需要在训练之后将每个神经元的输入连接权重乘以1-p??有一个小而重要的技术细节。 假设 p = 50% ,在这种情况下,在测试期间,输入的信号是训练新号的两倍,因为训练的时候对输入信号进行了dropout(p=0.5),而测试的时候不进行dropout,所以训练的时候输入信号只是测试...

2019-07-05 15:43:18 17317 7

原创 通俗理解yield、yield from、async

有yield的函数则返回一个可迭代的 generator(生成器)对象,你可以使用for循环或者调用next()方法遍历生成器对象来提取结果。但是每调用一次都会暂停一下,只有你需要下个元素的时候才会生成下个元素,能节省很多内存,和一般的可迭代对象对比而言,如果你只需要这个可迭代对象的前5个数,之前生成的整个可迭代对象存储在容器中就会很浪费内存,剩余的你在这儿可能不会需要,而yield是你需要一个数据,会生成一个,不需要的时候就不用生成,不会事先把整个容器中的数全部生成,而是构建一个生成器,调用一次生成一个对

2022-03-11 14:47:51 1724

原创 蚁群算法原理及python实现

蚁群算法(ACO)是属于元启发式算法的一种。是一种群体的智能方法。算法原理:蚂蚁在寻找食物源时,会在其经过的路径上释放一种信息素,并能够感知其它蚂蚁释放的信息素。信息素浓度的大小表征到食物源路径的远近,信息素浓度越高,表示对应的路径距离越短。通常,蚂蚁会以较大的概率优先选择信息素浓度较高的路径,并释放一定量的信息素,以增强该条路径上的信息素浓度,但也有一定的概率随机选择其他路径,这样会形成一个正反馈。最终,蚂蚁能够找到一条从巢穴到食物源的最佳路径,即最短距离。值得一提...

2022-03-06 19:38:44 904

原创 进化算法简单介绍

进化算法又称启发式算法,是利用经验法则或者常识来解决问题的方法。1. 元启发式算法和启发式算法有什么区别?摘自:启发式和元启发式的区别 - Tsingke - 博客园启发式策略(heuristic) 启发式算法(Heuristic Algorigthm)是一种基于直观或经验构造的算法,在可接受的花费(指计算时间、计算空间等)给出待解决优化问题的每一实例的一个可行解,该可行解与与最优解的偏离程度一般不可以事先预计。启发式算法是一种技术,这种算法可以在可接受的计算费......

2021-12-28 20:25:44 6136 1

原创 种群规模大小证明

基数为r的搜索空间,有多少种种群规模为n的进化算法的种群?(进化优化算法书中第62页问题证明)

2021-12-21 21:28:24 368

转载 MySQL 中的 upsert 操作与时间戳自动更新

MySQL 中的 upsert 操作与时间戳自动更新MySQLMySQL 中的 upsert在 MySQL 中,是没有直接的 upsert 功能的,但是我们可以利用唯一约束进行重复时更新操作。示例:INSERT INTO test(id) VALUES(1) ON DUPLICATE KEY UPDATE id=2上述的 sql 语句在遇到重复的主键时,将会中断插入操作改为更新操作。时间戳自动更新有的时候,我们在表中会维护一个类似于 updateTime 的字段,每当对记录

2021-12-08 16:20:36 1896

原创 python 集合排序

lst = [{'level': 19, 'star': 36, 'time': 1}, {'level': 20, 'star': 40, 'time': 2}, {'level': 20, 'star': 40, 'time': 3}, {'level': 20, 'star': 40, 'time': 4}, {'level': 20, 'star': 40, 'time': 5}, {'level': 18, 'star': ...

2021-12-02 16:15:23 5151

转载 通俗理解谱聚类

转自:谱聚类(spectral clustering)原理总结 - 刘建平Pinard - 博客园本文对其中的难懂的地方做一些备注 谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法原理做一个总结。1. 谱聚类概述    谱聚类是从图论中演化出来

2021-11-03 20:29:36 838

原创 进化优化算法--第二章:爬山法

算法2.1: 最快上升爬山法x0 <- 随机生成的个体while not ( 终止准则) 计算x0的适应度f(x0) For 每一个解的特征 q=1,2,,...n xq <- x0 用一个随机变异替换xq的第q个特征 计算xq的适应度f(xq) 获取下一个更优的解: 寻找使f(xq)最大的xq, 令其等于x', x' <- argmax(f(xq)): q 属于[0,n] if x0 !=...

2021-11-02 22:42:12 1862 1

原创 bash、linux 常用快捷键

bash:ctrl+u 清空当前命令行 ctrl +a 行首 ctrl +e 行尾

2021-10-25 11:01:54 131

原创 通俗理解贝叶斯,全概率定理

全概率定理理解:有多种方式A、B、C使你走向成功,但也可能让你失败,问你成功的概率是多少?贝叶斯定理理解:你已经成功了,现在想知道你通过方式A成功的概率是多少?

2021-10-25 10:23:08 3642

原创 pandas groupby 分组后迭代使用问题

在使用pandas进行分组迭代求和时,分组后的对象一直不知道怎么迭代出来,其实可以两步进行,先按照key分组,然后进行sum,mean等操作。如下代码中,name 是key, 后面的group是根据key分的元素集合,可以进行求和等操作。 import pandas as pd import numpy as np df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2': ['one', 'two', 'on

2021-10-18 13:14:36 644

原创 软链接和硬链接

软连和硬连的基本介绍:https://segmentfault.com/a/1190000021307033需要注意:1. 软链接如果只是单个文件链接,删掉链接文件,不会使原文件丢失2. 软链接使文件夹链接,如:ln -s /dev/test test 本地的test链接到/dev/test 、如果你对整个文件夹操作,如删除整个文件夹,那么原文件夹不会变化,因为软链的是文件夹,但是如果你删除软链文件夹中的文件,那么原文件夹中的文件也会被删掉,可以理解为软链一条通道、直接连接目的地和原地,你能从这

2021-08-31 10:14:59 115

原创 卡曼滤波理解

推荐视频:https://www.zhihu.com/question/23971601/answer/839664224从这个视频中可以通俗的理解卡曼滤波,卡曼滤波是基于对一个状态的预测值、下一个状态的测量值之间的权重组合,上一次谁(预测值/测量值)的结果更加接近真实值,本次便将谁(预测值/测量值)的权重给的较大...

2021-07-14 22:12:30 315

原创 生产规划问题

约束:资源约束目标:最大化利润枚举类型的产品product,每个产品对应的收益:array[product] of float: profit,enum resource 资源, array[resource] of float: capacity,每种资源对应的限制array[product,resource] 对应每个产品使用多少资源变量:% Variables: 每个产品生产的量array[PRODUCT] of var int: produce; 约束:%..

2021-07-07 22:55:18 392

原创 理解标准差、标准化、协方差、正态分布

标准差的定义如上,衡量一组数平均偏离这组数平均值的程度。标准化(z变换):是把每个数减去均值、除以标准差,转化为均值为0、标准差为1 的一组数。标准化可以理解为:标准化的值 = 每个数距离平均值有多少个标准差的大小,即可以理解为到达平均值的距离转化为有多少个标准差均值为0理解:每个数都减去均值,所以新的数总体加起来为0,其均值就为0标准差为1:每个数减去平均值之后,只是对整体的数做了平移,数与平均值之间的差距都没有变化,标准差还是原来的值,原始标准差 n = 原始数据距平均值的平均距离是..

2021-06-24 23:32:54 9667 4

原创 Coursera 批量下载视频

1. 先安装必备的包pip install coursera-dl2.coursera-dl -u <user> -p <password> --cauth <cauth-cookie> --path <path> --subtitle-language <language> --download-quizzes --video-resolution <video-resolution> <course-nam.

2021-06-16 22:51:31 726

转载 ​​​​​​​WSL  Sodu 忘记密码  重置密码

https://docs.microsoft.com/zh-cn/windows/wsl/user-supporthttps://www.cnblogs.com/heenhui2016/p/12916476.htmlWSL Sodu 忘记密码 重置密码关闭Ubuntu窗口 打开Powershell 或 cmd, 以root默认登陆wsl -u root。 别关,在这个cmd窗口内(重点)输入wsl进入, 输入passwd your_username,之后重新 确认密码。 关...

2021-04-23 21:14:36 720

转载 Python中的值类型与引用类型

Python中的值类型与引用类型其实各个标准资料中没有说明Python有值类型和引用类型的分类,这个分类一般是C++和Java中的。但是语言是相通的,所以Python肯定也有类似的。实际上Python 的变量是没有类型的,这与以往看到的大部分语言都不一样(JS等弱类型的也是这样)。但 Python 却是区分类型的,那类型在哪里呢?事实是,类型是跟着内存中的对象走的。类型属于对象,变量是没有类型的。一般也分实参和形参。《learning python》中的一个观点:变量无类型,对象有类型。不可

2021-04-22 22:25:00 234

原创 LSTM/GRU 出现预测值滞后现象

问题:当利用LSTM/GRU等做预测时,在数据上升较快或者下降较快的地方出现预测值滞后现象,即T+1时刻的预测值就是或者与T,T-1时刻的真实输入值基本相同原因:回归算法将使用您提供的时间窗口中的值作为样本,以最大程度地减少误差。假设您正在尝试预测时间t的值。输入是以前的收盘价,即t-20到t-1的最后20个输入的时间序列窗口(假设样本输入的timestamp是20)。回归算法可能会学习在时间t-1或t-2处的值作为预测值,因为这样不需要做什么就可以达到优化的误差之类了。这样想:如果在t-1值6..

2021-03-08 22:27:55 13192 7

原创 LSTM 与GRU

LSTM 通俗理解:https://blog.csdn.net/v_JULY_v/article/details/89894058GRU :https://www.jiqizhixin.com/articles/2017-12-24

2021-03-06 20:00:58 249

转载 激活函数以0为中心的好处

今天在讨论神经网络中的激活函数时,陆同学提出 Sigmoid 函数的输出不是以零为中心的(non-zero-centered),这会导致神经网络收敛较慢。关于这一点,过去我只是将其记下,却并未理解背后的原因。此篇谈谈背后的原因。神经元如图是神经网络中一个典型的神经元设计,它完全仿照人类大脑中神经元之间传递数据的模式设计。大脑中,神经元通过若干树突(dendrite)的突触(synapse),接受其他神经元的轴突(axon)或树突传递来的消息,而后经过处理再由轴突输出。在这里,诸x..

2021-03-06 17:15:37 1972 6

转载 HIve 常见数据压缩方式对比

转自:https://blog.csdn.net/weixin_36714575/article/details/8009157五.结论1.在压缩存储时间上,除Sequencefile外基本都相差无几。2.数据压缩比例上ORC最优,相比textfile节省了50倍磁盘空间,parquet压缩性能也较好。3.SQL查询速度而言,ORC与parquet性能较好,远超其余存储格式。综合上述各种性能指标,建议工作中原始日志写入hive的存储格式都采用ORC或者parquet格式,这和目前主...

2021-03-06 15:26:06 1043

转载 mysql 读写冲突

转自:https://www.cnblogs.com/taoshihan/p/10653931.html1.无论何时只要有多个查询在同一时刻修改数据,都会产生并发控制的问题2.讨论mysql在两个层面,服务器层和存储引擎层,如何并发控制读写3.举了个mbox邮箱文件的例子,说如果有多个进程同时对mbox文件写东西,那么在文件的末尾会,交叉混乱的添加,比如进程1写了几行,进程2也写了几行,互相交叉,数据就是错误的了.设计良好的mbox需要加锁,比如进程1锁住了文件,进程2必须等待进程1结束,锁释.

2021-02-22 22:21:21 2777

原创 Vim 常用指令

1. 批量删除7-19行::7,19d2.将第9行至第15行的数据,复制到第16行9,15 copy 16 或 :9,15 co 16

2021-02-18 19:42:25 53

转载 xargs参数详解

简介xargs指令可以从标准输入读取数据,并利用这些数据“组建”并“执行”指令。它的作用是将参数列表转换成小块分段传递给其他命令,以避免参数列表过长的问题。语法 xargs [-0prtx] [-E eof-str] [-e[eof-str]] [--eof[=eof-str]] [--null] [-d delimiter] [--delimiter delimiter] [-I replace-str] [-i[replace-str]] [--r.

2021-02-18 17:53:12 3047

转载 2021-02-18

Linux源码中的mktime算法解析 http://blog.chinaunix.net/uid-23782786-id-4218034.html

2021-02-18 15:09:29 48

原创 Hadoop 权威指南学习笔记(十一)

HIVEHiveQL 一般是大小写无关的(除了字符串比较以外)hive 新建表:ROWFORMAT 子句是 HiveQL所特有的。这个子句所声明的是数据文件的每一行是由制表符分隔的文本。 Hive 按照: 每行三个字段,分别对应于表中的三列,字段间以制表符分隔 每行以换行符分隔,这一格式读取数据。LOADDATA 语句中的 OVERWRITE 关键字告诉 Hive 删除表所对应目录中已有的所有文件。如果省去这一关键字, H...

2021-01-24 20:45:36 123

原创 Hadoop 权威指南学习笔记(十)

关于Pig pig为大型数据集的处理提供了更高层次的抽象,Pig 是作为一个客户端应用程序运行的

2021-01-23 18:32:45 127

原创 Hadoop 权威指南学习笔记(九)

管理 Hadoopdfs.name.dir 属性描述了一组目录,VERSION文件包含:namespaceID=134368441 cTime=0 storageType=NAME_NODE layoutVersion=-18 属性 namespaceID 是文件系统的唯一标识符,是在文件系统首次格式化时设置的。cTime 属性标记了 namenode 存储系统的创建时间,...

2021-01-21 23:15:17 152

原创 HIveql 常用语法

Hive 删除表中部分数据1、hive表删除数据不能使用DELETEFROM table_name中SQL语句2、hive表删除数据要筛选出数据覆盖原来的数据INSERT OVERWRITE TABLE table_name PARTITION(dt='v3')SELECT column1,column2 FROM table_nameWHERE dt='v3' AND category is not null;二、无partiton表INSERT OVERWRITE T..

2021-01-19 22:10:16 153

转载 文件和文件夹的个数是否对磁盘的IO有影响?

转自:https://segmentfault.com/q/1010000000644754文件的个数、文件夹的个数、文件夹的层级数是否对磁盘的IO有影响要想了解问题的本质,需要知道一个文件和一个文件夹(以下都称为目录)在Linux下面是怎么表示的。文件系统是个很大的范畴,这里简要说以下几点:0. 文件是什么1. 文件名有什么用2. 怎样根据文件名找到文件3. 目录是怎样索引的针对以上几点做出解释0. 文件是什么文件其实是一种对磁盘中存储的一堆零散的数据的一...

2021-01-19 09:32:25 821

原创 Hadoop 权威指南学习笔记(八)

构建Hadoop集群尽管建议采用 RAID(Redundant Array of Independent Disk,) 作为 namenode 的外部存储器以避免元数据冲突,但在 datanode 中使用 RAID 作为外部存储器井不会 HDFS 带来好处。因为 HDFS 所提供的节点间复制技术己满足了数据备份需求,无需使用 RAID 的冗余机制。如果 JBOD 配置的某一磁盘出现故障, HDFS 还可以忽略该磁盘,继续工...

2021-01-17 17:33:25 155

转载 RAID磁盘阵列是什么

在单机时代,采用单块磁盘进行数据存储和读写的方式,由于寻址和读写的时间消耗,导致I/O性能非常低,且存储容量还会受到限制。另外,单块磁盘极其容易出现物理故障,经常导致数据的丢失。因此大家就在想,有没有一种办法将多块独立的磁盘结合在一起组成一个技术方案,来提高数据的可靠性和I/O性能呢。在这种情况下,RAID技术就应运而生了。一、RAID 是什么?RAID ( Redundant Array of Independent Disks )即独立磁盘冗余阵列,简称为「磁盘阵列」,其实就是用多个独立的磁

2021-01-17 15:36:15 155

原创 Hadoop 权威指南学习笔记(七)

MapReduce 的特性7.1 计数器 计数器是一种收集作业统计信息的有效手段,用于质量控制或应用级统计。计数器还可辅助诊断系统故障。Hadoop 为每个作业维护若干内置计数器,以描述该作业的各项指标。任务计数器 在任务执行过程中,每个作业的所有任务的结果都会被任务计数器聚集起来。计数器由其关联任务维护,井定期传到 tasktracker .再由 tasktracker 传给 jobtracke...

2021-01-16 22:08:08 95

原创 Hadoop 权威指南学习笔记(六)

MapReduce 的类型与格式默认的输入格式是 TextlnputFormat ,它产生的键类型是 LongW table( 文件中每行中开始的偏移量值),值类型是 Text( 文本行)。这也解释了最后输出的整数的 含义:它们是行偏移量。map 任务是由 MapRunner 负责运行的, MapRunner MapRunnable 的默认实现,它顺序地为每一条记录调用一次 Mapper map() 方法。默认的输出格式是 TextOut...

2021-01-16 18:29:44 227

原创 Git 常用命令

1. 远程分支覆盖本地分支git pull <远程主机名> <远程分支名>:<本地分支名>可以简写为 git pull,只会将和本地分支同名的远程分支更新到本地,如果想要远程最新master的分支,就需要本地切换到master分支,再执行git pullgit checkout 切换分支删除分支devgit branch -d dev #删除本地分支git push origin :dev #将删除操作提交到远程(删除远程分支...

2021-01-15 13:25:04 72

原创 Hadoop 权威指南学习笔记(五)

MapReduce 的工作机制5.1剖析 MapReduce 作业运行机制客户端:提交 MapReduce 作业。 jobtracker: 协调作业的运行。 jobtracker 是一个 Java 应用程序,tasktracker: 运行作业划分后的任务。 tasktracker Java 应用程序,分布式文件系统(一般为 HDFS),用来在其他实体间共享作业 文件。maperd.job.tracker: 如果被设置为local,则在本地测...

2021-01-10 18:12:16 272

原创 Standby NameNode 一直重启不成功

不知道怎么把Standby NameNode 搞挂了之后就一直重启不成功,可能是由于执行了一次格式化,尝试了把Standby NameNode的clusterID保持一致,但是还是怎么都没重启成功,还是要好好看报错信息,很多次执行hdfs namenode -bootstrapStandby有报错,但是没注意看,以为成功了,接着执行后面的。方案确保Active NameNode是正常工作 不要从Active NameNode节点/hadoop/hdfs/namenode目录下拷贝任何数据到Sta.

2021-01-02 16:49:58 510

原创 Hadoop 权威指南学习笔记(四)

MapReduce 应用开发MapReduce 来编写程序,有一个特定的流程。首先写 map 函数和 reduce 函数,最好使用单元测试来确保函数的运行符合预期。然后,写一个驱动程序来运行作业,要看这个驱动程序是否可以运行,可以从本地 IDE 用一个小的数据集来运行它。如果驱动程序不能正确运行,就用本地 IDE 调试器来找出问题根源。通过这 些调试信息,可以加大单元测试使其覆盖这一测试用例,从而改进 mapper,reducer ,尽可能正确地处理...

2020-12-27 22:00:53 114

统计数字会撒谎(美)达莱尔·哈夫++产品资料.pdf

本书以趣味的方式介绍了统计学习的一字儿基础知识,让你可以看到生活中处处是统计学习的影子,可以是初学者的一本良好的入门书。

2019-06-27

Python3廖雪峰

python文档介绍,描述了python的基本语法,是一本很经典的教材

2018-12-31

Outer approximation algorithms for separable nonconvex

Outer approximation algorithms for separable nonconvex

2018-05-02

Global Optimization of Mixed-Integer Nonlinear Problems

Global Optimization of Mixed-Integer Nonlinear Problems

2018-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除