自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(126)
  • 资源 (7)
  • 收藏
  • 关注

原创 项目总结(ALL)

的研究,可以把每个粒子当成一只鸟,搜索解的过程就类似鸟群寻找食物的过程。在寻找食物的过程中,每只鸟知道自己所找到的最佳位置,同时鸟群内部也会进行信息共享,这样每只鸟也知道当前整个鸟群找到的最佳位置。PSO的优势在于简单、易于实现并且需要调节的参数较少,具有较好的全局寻优能力。粒子群算法首先需要初始化一群粒子,随机初始化每个粒子的位置和速度,然后通过不断迭代搜索全局最优解。就是对应的实际问题的解。上述公式给出了包括D维分量的粒子的位置和速度。而言,一个粒子的位置就可以表示为。,此时粒子的速度和位置均为2维。

2024-02-22 14:42:37 356

原创 MongoDB +Dataframe+excel透视表

on=['串号']: 根据共同列进行合并,一定要保证有相同列名,不然会报错。1. 横向合并(增加列数)(跟据共同列来合并,如果有不同列则添加列)(数据库的某些表数据太多无法保存到本地,直接merge取交集)Dataframe去重:(我发现老是去重失败,不知道为啥)how='inner':取交集。2. 纵向合并(增加行数)读取MongoDB中的表。Dataframe合并。

2023-08-24 11:45:34 1368

原创 pyinstaller遇到的问题

上面链接的办法是,分别尝试复制system32/环境路径下/环境路径下的site-packages下的dll文件到dist文件(打包所得的exe文件所在目录), 看是否能解决问题。我到底看看能有多少问题,真的烦死我了!先别慌,我之前已经试过很多次半路出故障的情况,不知道什么原因,继续等等运行。环境路径下都是重复的, site-packages下没有dll文件。然后重新运行spec文件,发现几个复制过来的dll文件没有权限,删掉。我发现我只能复制system32下的dll,有几个重复的选择忽略。

2022-12-16 15:21:50 1328 1

原创 Focal Loss实现

Focal Loss实现

2022-10-12 10:20:31 516 2

原创 GRU时间序列数据分类预测

GRU实现

2022-10-12 10:13:21 4739 1

原创 一些bug

Python DataFrame 的 append() 方法无效_萌宅鹿同学的博客-CSDN博客_pythonappend用不了(这个真的搞了好久可烦死我了,append之后没有数据,然后寻思转成numpy吧,又运行的超级慢!!!)机器学习模型fitmodel时报错:" ValueError: Input contains NaN, infinity or a value too large for dtype('float32'64) "数据中有缺失值啥的,运行下面的代码可以解决:df.

2022-09-08 16:57:38 438

原创 回归和分类的一些知识

【从零开始学机器学习12】MSE、RMSE、R2_score_wade1203的博客-CSDN博客R2可以用来评价模型,如果R2<0,你这模型就没用。。。。。

2022-04-06 15:52:57 1037

原创 scp ssh: Could not resolve hostname d: Temporary failure in name resolution

昨天被上面这个报错折腾了一下午,终于解决了。我真的 很气。原来的代码scp xxx@xxxx:/data2/historydata1749.csv D:\datafromserver报错:使用scp复制文件No such file or directory_小青头的博客-CSDN博客之前这个方法是可以的,从昨天突然不可以了。最后的解决方法:不要在服务器那边执行命令。在自己本机win+R在输入框输入:scp xxx@xxxx:/data2/historydat...

2022-03-29 09:02:41 6999 1

原创 AI算法 问题总结

监督和非监督的区别和各自优势?

2022-01-03 21:39:43 1153

原创 Linux 命令 updating

Linux 简介_w3cschoolLinux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。Linux的发行版Linux的发行版说简单点就是将Linux内核与应用软件做一个打包。目前市面上较知名的发行版有:Ubuntu、RedHat、Cent

2021-12-16 16:01:40 605

原创 智能工厂 | 工业4.0

什么是工业 4.0,它是如何工作的? | IBM工业 4.0 是智能制造的代名词,是指实现该领域的数字化转型,提供实时决策,提高生产力、灵活性和敏捷性。工业 4.0 技术如何改变制造业?工业 4.0 正在彻底改变企业制造、改进和分销产品的方式。 制造商正在将各种技术(包括物联网 (IoT)、云计算和分析,以及 AI 和机器学习)集成到其生产设施和整个运营当中。这些智慧工厂配备高级传感器、嵌入式软件和机器人技术,用于收集和分析数据,以及做出更明智的决策。如果将来自生产运营的数据与来自 ER..

2021-12-15 14:51:47 5139

原创 回溯算法 leetcode 新

回溯算法一般的代码形式def backtrack(参数): if 终止条件: 更新结果集 return for (选择本层集合中的元素): 处理节点 backtrack(路径,选择列表) //递归77. 组合class Solution(object): def combine(self, n, k): ...

2021-12-02 22:06:52 4029

原创 数组 leetcode

主要方法:二分查找 | 滑动窗口 (滑动窗口不会)就写了几个数组的题,感觉数组没必要单独开一篇文章,因为数组这一类包含了二分查找,回溯,贪心甚至二叉树。1. 两数之和class Solution(object): def twoSum(self, nums, target): """ :type nums: List[int] :type target: int :rtype: List[int] """.

2021-12-01 16:46:31 545

原创 python知识总结(不断更新中...)

1. python装饰器它是一种函数的函数,因为装饰器传入的参数就是一个函数,然后通过实现各种功能来对这个函数的功能进行增强。装饰器最大的优势是用于解决重复性的操作,其主要使用的场景有如下几个:计算函数运行时间 给函数打日志 类型检查2. 生成器和迭代器迭代器迭代是Python最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代器有两个基本的方法:

2021-12-01 10:27:05 130

原创 目标检测知识总结

1.1Faster RCNN理论合集_哔哩哔哩_bilibiliR-CNN可以说是利用深度学习进行目标检测的开山之作。R-CNN:1.1Faster RCNN理论合集_哔哩哔哩_bilibili...

2021-11-27 17:01:00 1517

原创 卷积神经网络详解

一个详解的链接(重要重要):通俗易懂:图解10大CNN网络架构 - 知乎1x1卷积核一文读懂卷积神经网络中的1x1卷积核 - 知乎1x1卷积核,又称为网中网(Network in Network)。降维/升维当输入为6x6x32时,1x1卷积的形式是1x1x32,当只有一个1x1卷积核的时候,此时输出为6x6x1。此时便可以体会到1x1卷积的实质作用:降维。当1x1卷积核的个数小于输入channels数量时,即降维。1x1卷积一般只改变输出通道数(channels),而不改变输出的宽度

2021-11-27 00:02:27 1896

原创 一些DNN|RNN|CNN知识总结

激活函数:深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点|深度学习|梯度_新浪科技_新浪网机器学习/深度学习 的激活函数,原理以及各自的优缺点。在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。1. Sigmoid 激活函数适用情况:Sigmoid 函数的输出范围是 0 到 1。由于输出值限定在 0 到 1,因此它对每个神经元的输出进行了归一化;用于将预测概率作为输出的模型。由于概率的取值范围是 0 到 1,因此 ...

2021-11-26 15:23:02 1118

原创 链表leetcode

23. 合并K个升序链表(困难 重要 待做)25. K 个一组翻转链表(困难 重要)class Solution(object): def reverseKGroup(self, head, k): """ :type head: ListNode :type k: int :rtype: ListNode """ p1 = head length = 0 w..

2021-11-21 21:55:02 417

原创 二叉树leetcode

144. 二叉树的前序遍历class Solution(object): def preorderTraversal(self, root): """ :type root: TreeNode :rtype: List[int] """ if not root: return [] stack = [root] res = [] while s

2021-11-17 22:45:11 320

原创 回溯算法leetcode

回溯算法可以解决的问题:组合问题,切割问题,子集问题,排列问题,棋盘问题。组合问题39. 组合总和给定一个无重复元素的正整数数组candidates和一个正整数target,找出candidates中所有可以使数字和为目标数target的唯一组合。candidates中的数字可以无限制重复被选取。如果至少一个所选数字数量不同,则两种组合是唯一的。class Solution(object): def combinationSum(self, candidat...

2021-11-16 14:43:36 4350

原创 leetcode python

1. 两数之和class Solution(object): def twoSum(self, nums, target): """ :type nums: List[int] :type target: int :rtype: List[int] """ dic = dict() for i in range(len(nums)): another_num

2021-11-14 21:20:01 605

原创 一些常用的链接

机器学习算法:逻辑回归:逻辑回归知识总结_儒雅的晴天的博客-CSDN博客 SVM:SVM知识总结_儒雅的晴天的博客-CSDN博客 贝叶斯:贝叶斯分类器_儒雅的晴天的博客-CSDN博客 集成学习(决策树与随机森林):决策树与随机森林_儒雅的晴天的博客-CSDN博客 GBDT | XGBoost | LightGBM: GBDT、XGBoost、LightGBM的区别和联系 - 简书 Regression Tree 回归树 - 知乎 从决策树到XGBoo...

2021-11-03 16:59:26 586

原创 SQL练习

1. 第一类 连续登录问题,分为有天数限制和求最大天数如图所示样表,求出每个客户的最长连续购物天数。返回结果有两列:customer_id,最长连续购物天数分析思路:对原始表加上每一列的row_number(按照日期升序排列的),然后求日期的天和这个ranking的差值,因为这个ranking是逐次加一的,所以如果是连续的日期,差值应该是一样的。然后寻找最大的差值就是最大连续购买天数。Select customer_id, max(counts) from(Select custome

2021-11-02 11:21:11 279

原创 积累积累积累积累

卡方检验结合日常生活的例子,了解什么是卡方检验 - 简书卡方检验就是检验两个变量(自变量和因变量)之间有没有关系。以运营为例:卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别; 不同城市级别的消费者对买SUV车有没有什么区别;如果有显著区别的话,我们会考虑把这些变量放到模型或者分析里去。比如投掷硬币,判断硬币是不是均衡的。卡方检验的公式:1 这个公式求得的值 2 自由度(degree of freedom,不熟悉的可以去看我在简书的用可视化思维解读统计自由度.

2021-10-26 22:08:50 715

原创 聚类的评价指标

聚类的评价指标对于聚类结果的评价方法一般可以分为内部评估法(internal evaluation)与外部评估方法(external evaluation)。外部评估方法是指在知道真实标签(ground truth )的情况下来评估聚类结果的好坏,例如纯度(Purity)、兰德系数(Rand Index, RI)、F值(F-score)和调整兰德系数(Adjusted Rand Index,ARI)。一般来说在做论文,或者是有少量的标注数据时,都可以用外部评估法选择一个相对最优的聚类模型,.

2021-10-26 20:27:04 17891

原创 GBDT+LR XGB调参

主流CTR预估模型的演化及对比 - 知乎GBDT + LR既然特征工程很难,那能否自动完成呢?模型级联提供了一种思路,典型的例子就是Facebook 2014年的论文中介绍的通过GBDT(Gradient Boost Decision Tree)模型解决LR模型的特征组合问题。思路很简单,特征工程分为两部分,一部分特征用于训练一个GBDT模型,把GBDT模型每颗树的叶子节点编号作为新的特征,加入到原始特征集中,再用LR模型训练最终的模型。GBDT模型能够学习高阶非线性特征组合,对应树的一条路

2021-10-24 22:14:32 926

原创 异常检测算法

异常检测算法分类及经典模型概览 - 知乎维基百科:在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。异常检测是指在数据中发现不符合预期行为模式的数据的问题异常检测(Anomaly Detection 或 Outlier Detection)指的是通过数据挖掘手段识别数据中的“异常点”,常见的应用场景包括..

2021-10-24 21:26:50 3358

原创 用户分层 | 用户画像

用户分层4种常见的用户分层方法 - 简书关于用户分层,看这篇就够了 | 人人都是产品经理在产品迭代的过程中,用户的需求也会发生不同的变化。此时应该要做用户分层,为不同用户提供个性化服务。用户分层是根据不同用户的行为特征划分成不同的用户群,进而制定不同的产品策略来满足其差异化需求,从而充分发挥每个层级用户的价值,达成产品目标。在实际的应用中,用户分层主要表现在两方面:可以帮助产品经理和运营快速定位问题,找到后续可以根据问题做功能优化; 提升产品用户效益,针对不同的用户合理分配有效的资

2021-10-23 23:31:39 3038

原创 数据不均衡 | 过拟合| 模型评价指标 | 分箱 | 模型融合

从数据角度扩大数据集 数据集重采样 人工产生数据样本:SMOTE SMOTE算法的基本思想就是对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中,进而使原始数据中的类别不再严重失衡。该算法的模拟过程采用了KNN技术,模拟生成新样本的步骤如下:  采样最邻近算法,计算出每个少数类样本的K个近邻;  从K个近邻中随机挑选N个样本进行随机线性插值;  构造新的少数类样本;  将新样本与原数据合成,产生新的训练集;4. 基于异常检测的方式:把那些小类的样本作为异常点(ou..

2021-10-22 10:50:39 1887

原创 leetcode接着写

20. 有效的括号class Solution(object): def isValid(self, s): """ :type s: str :rtype: bool """ '''while '{}' in s or '()' in s or '[]' in s: s = s.replace('{}', '') s = s.replace('[]', '')

2021-10-21 14:19:47 121

原创 python一些问题

1. python合并两张表格pandas中合并两张表的函数包括merge,concat。merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x','_y'), copy=True)left代表左边的表;right代表右边的表;how代表连接方式;on代表连接的键。这四个是最主要的参数。其

2021-10-21 08:26:55 52

原创 推荐算法 | 预测算法 | 特征工程

推荐算法有哪些? - 知乎一.推荐算法非个性化推荐"如果你不知道该推荐什么,那么推荐大家都喜欢的准没错"。基于热门榜单或者最多使用等方式进行的推荐颗粒度较为粗,执行也相对来说比较容易,同时效果相当不错,非个性化推荐在新用户冷启动、推荐系统冷启也均应用广泛。进一步的,可以利用人口统计学特征再进一步结合热门榜进行推荐。用户的基础数据如用户使用的手机,操作系统,版本等“识别”,城市位置,WiFi还是4G,登录信息如手机号,手机安装渠道等等,每一项数据都或多或少有其统计学意义,能帮助...

2021-10-20 11:18:28 1713 1

原创 维度建模+实例

https://www.cnblogs.com/suheng01/p/13522677.html第一步:选择业务过程1、通过对业务需求以及可用数据源的综合考虑,确定对哪种业务过程开展建模工作2、建立的第一个维度模型应该是一个最有影响的模型——它应该对最紧迫的业务问题作出回答,并且对数据的抽取来说是最容易的。第二步:定义粒度注:粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别,细化程度越高,粒度就越小1、应该先优先考虑为业务处理获取最有原子性的信息而开发维度模型。原子型数据是

2021-10-17 20:17:38 1653

原创 红黑树 | 平衡二叉树 | B+树 | B树

漫画:什么是红黑树? - 知乎———————————— ———————————— 二叉查找树(BST)具备什么特性呢? 1. 左子树上所有结点的值均小于或等于它的根结点的值。2. 右子树上所有结点的值均大于或等于它的根结点的值。3.左、右子树…https://zhuanlan.zhihu.com/p/31805309二叉查找树:1.左子树上所有结点的值均小于或等于它的根结点的值。2.右子树上所有结点的值均大于或等于它的根结点的值。3.左、右子树也分别为二叉排序树。二分查找的思想,查找所需

2021-10-17 15:30:42 181

原创 哈希冲突 | 数据倾斜 | SQL去重

哈希冲突 解决哈希冲突的常用方法分析 - 云+社区 - 腾讯云哈希冲突:由于哈希算法被计算的数据是无限的,而计算后的结果范围有限,因此总会存在不同的数据经过计算后得到的值相同,这就是哈希冲突。解决哈希冲突的方法:一般有:开放定址法、链地址法(拉链法)、再哈希法、建立公共溢出区等方法。开放定址法:从发生冲突的那个单元起,按照一定的次序,从哈希表中找到一个空闲的单元。然后把发生冲突的元素存入到该单元的一种方法。开放定址法需要的表长度要大于等于所需要存放的元素。链地址法(拉链法):链...

2021-10-16 21:08:52 419

原创 MapReduce 和Shuffle 过程

https://segmentfault.com/a/1190000037645246大数据系列(四)之 MapReduce过程及shuffle详解-博客Hadoop学习之路(十三)MapReduce的初识 - 扎心了,老铁 - 博客园MapReduce 架构:在MapReduce中,用于执行MapReduce任务的机器角色有两个:JobTracker和TaskTracker。其中JobTracker是用于调度工作的,TaskTracker是用于执行工作的。一个Hadoop集群中只有一台Jo

2021-10-16 20:05:26 897

原创 数据库优化

主从复制,读写分离,水平分表,垂直分表大表如何优化? *** 限定数据的范围:避免不带任何限制数据范围条件的查询语句。 读写分离:主库负责写,从库负责读。 垂直分表:将一个表按照字段分成多个表,每个表存储其中一部分字段。 水平分表:在同一个数据库内,把一个表的数据按照一定规则拆分到多个表中。 对单表进行优化:对表中的字段、索引、查询SQL进行优化。 添加缓存 主从复制,读写分离:https://segmentfault.com/a/1190

2021-10-16 13:21:28 122

原创 MySQL 流程 执行过程

简述MySQL的架构MySQL可以分为应用层,逻辑层,数据库引擎层,物理层。应用层:负责和客户端,响应客户端请求,建立连接,返回数据。逻辑层:包括SQK接口,解析器,优化器,Cache与buffer。数据库引擎层:有常见的MyISAM,InnoDB等等。物理层:负责文件存储,日志等等。简述执行SQL语言的过程客户端首先通过连接器进行身份认证和权限相关 如果是执行查询语句的时候,会先查询缓存,但MySQL 8.0 版本后该步骤移除。 没有命中缓存的话,SQL 语句就会经过解析器

2021-10-15 16:20:52 80

原创 MySQL 语句知识

跪谢大佬链接:MySQL八股文背诵版-技术圈 这篇文章是一篇高质量的MySQL面试相关文章,文章长一万五千字左右,很多同学和我说这是他看到过的总结的最好的MySQL面经,题目后面的(*)表示面试https://jishuin.proginn.com/p/763bfbd64ca3SQL语句主要分为哪几类 * 数据定义语言DDL(Data Definition Language):主要有CREATE,DROP,ALTER等对逻辑结构有操作的,包括表结构、视图和索引。 数据库查询语言DQL(D

2021-10-15 15:55:27 93

原创 数据仓库问题集

对于数据仓库的理解,数据仓库主要为的解决什么问题?数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)。(为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合理地组织数据以实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于

2021-10-14 21:05:32 520

dependency walker提示dll缺失批量下载

pyinstaller打包exe闪退,dependency walker检测出dll缺失太多了,这是批量下载dll的工具

2022-11-28

谁说菜鸟不会数据分析(.入门篇)].张文霖.全彩版.pdf

谁说菜鸟不会数据分析(.入门篇)].张文霖.全彩版.pdf

2021-07-22

数据结构与算法,python语言描述

裘宗燕的数据结构与算法,是比较火的书籍,好多人看的

2018-06-06

python算法教程

python的算法教程,对于学习算法知识,以及python知识,都有帮助

2018-06-06

linux从入门到精通

linux的教程,有助于linux的学习,特别是基础学员的学习。

2018-06-06

廖雪峰python教程

廖雪python教程的pdf版本,方便划线标注以及反复观看等。

2018-06-06

运筹学-第三版

有关于运筹学的知识,有需要的童鞋可以下载,么么么么哒

2018-03-31

项目管理 英文版

学习的项目管理和创业的参考书,有兴趣的可以看一下,么么么么哒

2018-03-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除