Shawn.Leung-CSDN博客

原创 shell命令在命令行中可行，但在sh文件中失效的解决办法

大概率是因为文件编码格式问题可以尝试对sh文件的编码格式进行修改。在vim中查看文件编码格式：:set fileencoding在vim中直接修改文件编码格式：:set fileencoding=gbk或者在命令行修改文件编码格式：iconv -c -f utf8 -t gbk file1 > file2#或者iconv -f UTF-8 -t GBK...

2019-08-06 15:10:48 1935

原创进程线程的同步机制和通信方式

现在流行的进程线程同步互斥的控制机制，其实是由最原始最基本的4种方法实现的。由这4种方法组合优化就有了.Net和Java下灵活多变的，编程简便的线程进程控制手段。临界区（Critical Section）、互斥量（Mutex）、信号量（Semaphore）、事件（Event）(1) 临界区：通过对多线程的串行化来访问公共资源或一段代码，速度快，适合控制数据访问。在任意时刻只允许一个线程对...

2018-12-31 17:38:02 1078

原创不重叠的线段/区间 Python

X轴上有N条线段，每条线段有1个起点S和终点E。最多能够选出多少条互不重叠的线段。（注：起点或终点重叠，不算重叠）。例如：[1 5][2 3][3 6]，可以选[2 3][3 6]，这2条线段互不重叠。Input:第1行：1个数N，线段的数量(2 <= N <= 10000)第2 - N + 1行：每行2个数，线段的起点和终点(-10^9 <= S,E <= ...

2018-09-15 16:58:01 2000

原创各个算法模型的官方文档

XGBoost的中文文档、GitHub地址：http://xgboost.apachecn.org/cn/latest/LightGBM 的中文文档、GitHub地址：http://lightgbm.apachecn.org/cn/latest/index.htmlhttps://github.com/apachecn/lightgbm-doc-zhCatBoost官网：...

2018-09-13 18:58:58 1469

原创常见的损失函数

常见的损失函数一、常见的损失函数：损失函数一般用来衡量预测值和真实值之间的不一致程度。是一个非负值，通常用L(y,f(x))来表示。1.0-1损失函数：　　预测结果和真实结果一致，则为0，不一致则为1.　　2.绝对值损失函数：　　真实值和预测值差的绝对值。　　3.平方损失函数：　　4.指数损失函数：　　5.对数损失函数：　　6.合页损失函...

2018-09-11 16:36:20 1098

原创如何解决样本不均衡问题

如何解决样本不均衡问题解决样本不均衡的问题很多，主流的几个如下：1.样本的过采样和欠采样。2..使用多个分类器进行分类。3.将二分类问题转换成其他问题。4.改变正负类别样本在模型中的权重。一、样本的过采样和欠采样。1.过采样：将稀有类别的样本进行复制，通过增加此稀有类样本的数量来平衡数据集。该方法适用于数据量较小的情况。2.欠抽样：从丰富类别的样本中随机选取和稀有类...

2018-09-11 16:35:28 1605

转载样本类别不均衡的处理方法

不平衡学习的方法既然传统的学习算法在不平衡数据中具有较大的局限性，那么针对不平衡数据集又有怎样的解决方案呢？解决方法主要分为两个方面，第一种方案主要从数据的角度出发，主要方法为抽样，既然我们的样本是不平衡的，那么可以通过某种策略进行抽样，从而让我们的数据相对均衡一些；第二种方案从算法的角度出发，考虑不同误分类情况代价的差异性对算法进行优化，使得我们的算法在不平衡数据下也能有较好的效果。采样...

2018-09-11 16:01:51 6453 1

　　本文主要是针对MySQL/InnoDB的并发控制和加锁技术做一个比较深入的剖析，并且对其中涉及到的重要的概念，如多版本并发控制（MVCC），脏读（dirty read），幻读（phantom read），四种隔离级别（isolation level）等作详细的阐述，并且基于一个简单的例子，对MySQL的加锁进行了一个详细的分析。本文的总结参考了何登成前辈的博客，并且在前辈总结的基础上，进行了一...

2018-09-04 13:45:01 79

转载数据库为什么需要锁机制?有哪些锁机制?

为什么要锁数据库是一个多用户使用的共享资源,比如一个用户表t_user,两个浏览器前面的人登录了同个一个账号，把电话号码改了。当多个用户并发地存取数据时，在数据库中就会产生多个事务同时存取同一数据的情况。若对并发操作不加控制就可能会读取和存储不正确的数据，破坏数据库的一致性(脏读，不可重复读，幻读等)，可能产生死锁。为了解决这个问题，加锁是一个非常重要的技术，对实现数据库并发控制是一个...

2018-09-04 13:42:57 371

原创 Python中的引用、拷贝对象（深拷贝deepcopy与浅拷贝copy）、深入理解python变量作用域及其陷阱

Python中的对象之间赋值时是按引用传递的，如果需要拷贝对象，需要使用标准库中的copy模块。1. copy.copy 浅拷贝只拷贝父对象，不会拷贝对象的内部的子对象。2. copy.deepcopy 深拷贝拷贝对象及其子对象。一引用vs拷贝values = [0, 1, 2]values[1] = valuesvalues #[0, [...], 2]...

2018-09-03 12:17:07 878

原创特征归一化，意义、方法、使用场景

一、数据标准化的意义：1、数据的量纲不同；数量级差别很大经过标准化处理后，原始数据转化为无量纲化指标测评值，各指标值处于同一数量级别，可进行综合测评分析。如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。2、避免数值问题：太大的数会引发数值问题。3、平衡各特征的贡献一些分类器需要计算样本之间的距离（如欧氏距离），例如KN...

2018-09-03 11:26:50 6550 1

原创 n个节点的完全图，每两个节点之间，路经m条线的最短距离。光明小学接力赛最短路径问题。

光明小学的小朋友们要举行一年一度的接力跑大赛了，但是小朋友们却遇到了一个难题：设计接力跑大赛的线路，你能帮助他们完成这项工作么？光明小学可以抽象成一张有N个节点的图，每两点间都有一条道路相连。光明小学的每个班都有M个学生，所以你要为他们设计出一条恰好经过M条边的路径。光明小学的小朋友们希望全盘考虑所有的因素，所以你需要把任意两点间经过M条边的最短路径的距离输出出来以供参考。你需要设计这样一个...

2018-08-24 14:27:54 772

原创距离度量和相似度度量方法，区别和应用场景

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类（K最近邻（KNN））和聚类（K均值（K-Means））。当然衡量个体差异的方法有很多，这里整理罗列下。=============距离度量，越小越相似1 曼哈顿距离即曼哈顿街道距离（出租车距离）。向量对应元素差值的绝对值之和。2 欧氏距...

2018-08-14 17:18:47 4130

原创数据降维的前前后后

为什么要进行降维处理？1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定，从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间，而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。降维的目的：1.减少预测变量的个...

2018-07-05 18:42:13 476

原创分析数据相关性的三大相关系数

需要一种方法评价两组数据之间的相关性，有皮尔森（pearson）相关系数，斯皮尔曼（spearman）相关系数和肯德尔（kendall）相关系数。在这三大相关系数中，spearman和kendall属于等级相关系数亦称为“秩相关系数”，是反映等级相关程度的统计分析指标。对于pearson相关系数。首先放上公式：公式定义为：两个连续变量(X,Y)的pearson相关性系数...

2018-07-05 17:35:47 27308

原创 AUC相对于准确率和召回率的优势

很多机器学习的模型对于分类问题的预测结果都是概率，如果计算accuracy，需要把概率转换为类别，这就需要手动设置一个阈值。高于该阈值放入A类，低于该阈值放入B类。该阈值很大程度上影响accuracy的计算。AUC可以避免将概率转换成类别。ROC：x轴-FPR = FP/(FP+TN)，y轴-TP = TP/(TP+FN) AUC的含义：从所有...

2018-07-05 12:17:16 3615

转载一文带你完全了解线性回归模型的梯度下降算法、多项式回归、正则化

1.线性回归参数求解一般的线性模型，等式如下所示：ŷ是预测值。n是特征的数量。xi是第i个特征值。θj是第j个模型参数（包括偏置项θ0和特征权重θ1，θ2，...，θn）。这可以使用向量的形式写得更简洁：θ是模型的参数向量，包含偏置项θ0和特征权重θ1至θnθT（一个行向量而不是一个列向量）是θ的转置。x是实例的特征向量，包含x0到xn，其中x0始终等于1。θT·x是θT和x的点积。hθ是假设函数...

2018-06-24 11:55:23 4598

原创 linux下安装anaconda NVIDIA显卡驱动 cuda cudnn tensorflow-gpu 线上和线下安装！

TensorFlow官方安装链接：https://tensorflow.google.cn/install/install_linux 本文是我本人在装机学习深度学习tensorflow过程中的一些经验，仅供参考。如果觉得对你有帮助请帮忙点赞，如果对本文有意见、建议或是有提问，欢迎留言交流，谢谢！此文为本人参照csdn和其他论坛十几篇博客，呕心沥血反复操作了4天（重装了几遍系统我就不说了.....

2018-01-25 05:11:40 3792 1

原创关于在win10下安装mingw出现的error res的错误

出现这种情况，首先要检查所有操作是否正确其次，检查下载所在文件夹是否含有之前下载的mingw的残留文件。有的话，不要直接删除，应该使用uninstall来卸载。之后再在程序和功能中检查mingw软件是否卸载干净。做完所有这些操作后，在打开mingw-w64-install就可以在线下载安装成功了。

2017-11-10 15:45:03 8135 1

原创 python用read_csv导入txt文件时的数据丢失问题

在我用read_csv导入txt文件后发现导入后数据量相对于之前的要少一部分找到丢失数据位置，发现其前一条数据的双引号 “ 无双引号 ” 相匹配故导致\n的转义字符失效，造成数据丢失问题的假象一种处理办法是在数据中都将双引号修改或删除另一种方法是在程序中实现

2017-10-13 15:27:44 3898 1

luckoovy的博客