陆羊羊-CSDN博客

转载 PCA计算原理详解

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理，帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成纯数学文章，而是希望用直观和易懂的方式叙述PCA的数学原理，所以整个文章不会引入严格的数学推导。希望读者在看完这篇文章后

2024-04-17 09:54:14 5 1

原创 python3.6+的字符串格式化

想象一下，你想做一个监控，主题逻辑构建完已经够烦了，结果输出的文本你还需要进行一系列麻烦的操作，包括但不限于：数字位数用0补全，统一小数位数，按百分比输出，文字位置调整等等。字符串格式化是python的一个非常强大的工具，可以将我们从输出文本格式处理的苦海中解脱出来，最关键的是，它只针对输出文本进行修正，不会影响原始数据的格式。

2024-03-08 16:35:44 181 1

原创 Pyspark使用踩坑记录

agg使用的好，并行计算没烦恼，但是agg只能使用spark自己集成的方法，如mean，std等，如果要使用自定义的函数需要先注册udf有一说一，pyspark的udf注册机制和很多游戏引擎是一样的，参数都是一个回调函数，一个返回类型。这里我比较推荐使用udf()函数进行注册，这样不会锁定旧函数。旧的函数还可以和正常函数一样使用。如果像某些保守党大佬们使用装饰器来进行注册，旧的函数直接被锁死了，只能在agg里调用了。

2023-07-06 10:23:00 213 1

原创 [Pandas数据处理Debug记录]DataFrame.apply的使用

Debug记录

2022-10-17 15:46:43 689 1

原创 [git工具的理解和使用]

git工具的理解和使用分支概念分支概念git作为版本管理工具，为了保护文件的安全，方便更新，以及协同作业等，拥有特殊的结构，很多人用了很久也搞不清git的树形分支结构是怎么样的。对于树形结构的理解，有一个很好的网站可以作为参考：[在线git练习小游戏]之所以是树形结构，是因为git作为版本管理工具，是天然围绕时间线进行的，把要更新的文件作为新的分支插入到这个时间线上，每次更新就在时间线上添加新的分支，从而形成树结构。所以git的运行逻辑就是，创建时间树，创建分支，更新当前操作的分支的位置，更新分

2022-07-20 11:40:39 124

原创 [机器学习] L1正则和L2正则

正则项有那些类别主要分为L1正则和L2正则，或者叫做一范数和二范数正则。首先，范数（norm）是指向量在空间中的长度。用于对向量进行衡量。范数的一般计算公式为：如果p值为1，就是一范数，p为2就是2范数。范数可以用作损失函数或者是正则项。用作损失函数时，不同的范数起到的作用是不同的。一范数作为损失函数时，可以看作是偏差的绝对值：当使用二范数作为损失函数时，可以看作是和偏差的欧式距离：优化欧式距离的方法，就是最小二乘法。使用一范数作为损失函数并没有使用二范数那么方便，因为一范数的导.

2021-11-29 23:33:33 714

原创 [Python] Python中的设计缺陷导致的天坑汇总

Python作为高级语言，会帮助使用者处理一些和业务逻辑不是很相关的事情，能够让程序员专注于自己想要做的事情，节省程序员时间，但是缺陷很明显，那就是使用者并不清楚底层的原理，有时候会出现一些难以发现，莫名其妙的问题。这里做一些总结，方便遇到类似问题的同学查阅。二维数组的初始化问题Python中list对象在创建的时候，指针指向的只有这个列表本身，如果这个列表中嵌套了列表，那么对这个列表的所有操作都会被map到列表中所有的元素上。比如：temp_list = [[0,0],[0,0]]temp_lis

2021-10-30 17:56:47 170

原创 [SQL] 在sql中进行除法计算时记得将被除数转化成浮点数格式

在sql语言中，不同的数据类型在进行具体的运算时，一定要注意：如果是INT类型和INT类型进行"/"运算，实际结果是取模运算而不是除法运算。如果要进行除法运算并保存特定位数，需要用round函数并将被除数转化成浮点数格式实例：该实例中，如果被除数不"*1.0"结果会变成0，因为是取模运算round(sum( case when type='completed' then 0 when type='no_completed' then 1 end)*1.0

2021-10-30 17:26:55 999

原创 [SQL]将子查询作为查询条件

描述如果需要按照某一些特定条件筛选数据，一般用where或者是group by就可以解决。但是有一类问题比较绕，需要输出的是符合条件的所有的某一个值对应的所有的数据。如例：设每个学生可能会有很多门课程，输出所有课程分数加起来大于500的学生的所有课程。这个问题和一般的问题不太一样，一般的按条件筛选都是要求找到所有课程分数加起来大于500的学生。所以，在这里需要用group这个功能生成一个子查询，将子查询作为一个条件参数而不是结果。案例牛客网上的一个例子很不错：这个问题的一个典型解决方式就是用子查

2021-10-25 10:31:14 3605

原创 [SQL] 有中间件的两个表该怎么连接

题目有三个表：【部门的信息】departments: dept_no, dept_name【部门员工所属】dept_emp: emp_no, dept_no,…【员工的信息】employees: emp_no, first_name, last_name,…题目要求：列出所有的员工的信息和部门，如果没有部门，则列出NULL。其中员工信息表和部门信息表由中间件连接，所以需要通过中间件来将两个表连起来。具体方法是通过：方法一：将中间件和部门表inner join as new_table, 然后

2021-10-17 14:24:50 274

原创 [TensorFlow]除了搬砖磊方块儿，用TF你还可以干点别的(一）

[TensorFlow]除了搬砖磊方块儿，用TF你还可以干点别的前言张量不是张亮不是张良也不是矩阵定义Tensor定义Layer定义变量定义 tf.add_weight()定义tf.Variable()定义训练循环前言玩儿过我的世界的朋友知道在这个开放世界游戏中，玩家可以通过磊方块儿这种幼儿园小朋友就可以做到的操作来挖坑，修房子，做各种雕塑等等。但是别人的世界里有精致宏伟的建筑，有精巧的机械结构，甚至有显示器和计算机，我的世界里只有土块和窑洞…其实区别在于，别人既会磊方块，还会用一些游戏开放给玩家的一些

2021-08-12 01:21:25 693

原创 [TensorFlow]Embedding Layer 和 GlobalAveragePooling1d Layer原理及作用

[TensorFlow]Embedding Layer 和 Globalaveragepooling1d Layer原理及作用前言GlobalAveragePooling1D 的作用和原理Embedding 的作用Embedding 的原理前言序列模型主要针对文字，音乐，语言等这种上下文关系比较强的输入数据进行分类、预测工作。但是这类数据有一个很值得关注的问题：不同的元素之间并不是孤立的，而是存在复杂关系的。比如，“我很好”，"我很棒"中，"棒"和"好"可能是意义相近的。再比如，主语之后一般会加谓语，这

2021-08-06 19:40:28 2299 1

原创 [统计学]大数定律与中心极限定理

大数定律和中心极限定理大数定律中心极限定理大数定律和中心极限定理的联系在统计活动中，人们发现，在相同条件下大量重复进行一种随机实验时，一件事情发生的次数与实验次数的比值，即该事件发生的频率值会趋近于某一数值。重复次数多了，这个结论越来越明显。这个就是最早的大数定律。一般大数定律讨论的是n个随机变量平均值的稳定性。大数定律在统计活动中，大家发现，随着实验次数的增加，一个事件发生的频率会收敛于一个稳定的值。在数学上的表达就是，n个随机变量的均值（或者说期望）会随着n趋近于无穷而收敛于总体均值，也就是实际的

2021-07-26 01:44:36 898 1

原创 Python + Mysql 数据操作模型与策略

Python + Mysql 数据操作持久化存储策略与SQLPython与数据库的协同工作持久化存储策略与SQL在任何应用中，都需要持久化存储，目前一般的存储机制包括：稳健、数据库系统以及一些混合类型。一些复杂且要求高响应的项目离不开结构化数据库，而结构化数据库离不开SQL查询语言。在数据库存储策略中，一般有这样的结构![数据库存储策略结构](https://img-blog.csdnimg.cn/20201119024640557.png?x-oss-process=image/watermark

2020-11-22 02:05:52 342 1

转载 [numpy] 生成正态分布

在numpy中生成随机数的函数和matlab有很多的相似性，可以以矩阵为基本单位来生成各种不同的随机数，下面是通过random函数中的normal函数来生成服从正态分布的随机数作者：采石工链接：https://www.zhihu.com/question/39823283/answer/115241445来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

2017-08-24 20:58:45 20878

baidu_38546192的博客