data大柳-CSDN博客

原创 r语言kmeans聚类（真实案例完整流程）

K-means算法简单来讲就是对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大，两个对象之间的距离越近，相似性越高

2018-03-21 19:09:24 62799 42

原创 R语言交叉验证（详细）

k-折交叉验证k-折交叉验证（K-fold cross-validation）是交叉验证方法里一种。它是指将样本集分为k份，其中k-1份作为训练数据集，而另外的1份作为验证数据集。用验证集来验证所得分类器或者模型的错误率。一般需要循环k次，直到所有k份数据全部被选择一遍为止。

2018-01-23 17:09:47 61587 18

原创几种交叉验证法（超详细）

交叉验证交叉验证是一种用来评价一个训练出的模型是否可以推广到另一个数据结构相同的数据集上的方法。主要用于PCR 、PLS 回归建模等建模应用中。主要用于估计一个预测模型在实际数据应用中的准确度。它是一种统计学上将数据样本切割成较小子集的实用方法。首先在一个子集上做训练，而其它子集则用来做后续对此分析的确认及验证。

2018-01-23 12:17:08 50904 3

原创 python情感分析（真实案例完整流程）

情感分析：又称为倾向性分析和意见挖掘，它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，其中情感分析还可以细分为情感极性（倾向）分析，情感程度分析，主客观分析等。情感极性分析的目的是对文本进行褒义、贬义、中性的判断。在大多应用场景下，只分为两类。例如对于“喜爱”和“厌恶”这两个词，就属于不同的情感倾向。背景交代：爬虫京东商城某一品牌红酒下所有评论，区分好评和差评，提取特征词，

2018-01-09 12:52:18 90615 571

原创随机森林r语言实现（超详细）

随机森林就是用随机的方式建立一个森林，森林里面有很多的决策树，并且每棵树之间是没有关联的。得到一个森林后，当有一个新的样本输入，森林中的每一棵决策树会分别进行一下判断，进行类别归类（针对分类算法），最后比较一下被判定哪一类最多，就预测该样本为哪一类。随机森林算法有两个主要环节：决策树的生长和投票过程。随机森林有什么优缺点。R语言如何实现。

2017-12-25 11:49:29 102895 76

原创异常检测主要方法总结

详细陈述预测及异常检测方法。

2022-10-17 14:38:15 9222 1

原创计算两坐标点球面距离、两向量夹角及多边形面积

基于Python计算两个坐标点之间的球面距离、任意两个向量之间的夹角，及多个坐标点构成的多变形的面积

2022-08-31 18:11:25 1304 1

原创 MaxCompute(ODPS)中Python UDF使用：如何打包所有依赖包

解决MaxCompute(odps)中在使用Python UDF时，需要加载较多依赖包的问题，一次打包多个依赖包，以及依赖包的依赖包，摆脱手动寻找兼容 ODPS 的依赖。

2022-08-27 23:29:28 2426

原创 Docker配置国内代理解决办法

最新Docker 2.2版本配置国内代理的解决办法

2022-08-27 23:05:51 1340

原创 Python中对字典的几个处理

在Python里对字典的几个处理，字典求和、字典剔重计数、获取字典中最大的value、字典对应元素追加、对字典过滤、反转字典、合并字典

2022-08-27 22:44:34 493

原创 MaxCompute(ODPS)实现笛卡尔积

笛卡尔积会产生大量的重复记录，是引起主键重复的主要原因，但是对有些业务或者数据的处理笛卡尔积又是必不可少的技巧。如何在MaxCompute(ODPS)对表实现笛卡尔积，记录几种实现方案。

2022-08-27 22:25:09 1211

原创 SQL中使用JOIN时，过滤条件放在on和where中的区别

对于不同的JOIN类型，过滤语句放在子查询、on或者where中，有时候结果以及效率差别很大的，记录一下正确用法。

2022-02-15 11:22:08 5607

首先明确几个概念变量所谓变量，是与常量相对的可以改变的量。简单来说，变量是到对象内存空间的一个指针，是一个系统表的元素，拥有指向对象的连接的空间。Python是弱类型的语言，不像其它强类型的变量（在强类型语言中，变量都是有具体的类型来限制的，规定一个类型的变量只能被赋值与该类型相同或兼容的值），Python中的变量只是个名字，它本身没有数据类型，所以不需要提前声明，也不需要指定类型，只需要在用的时候，给变量赋值即可（使用之前必须赋值），且可以被赋值给任何对象。在给变量赋值时，其实是将被赋值的对象地址存

2021-09-27 21:43:28 1609 1

原创 sql数据处理的长尾问题及优化

长尾问题是分布式计算里最常见的问题之一。主要原因是因为数据分布不均，导致各个节点的工作量不同，整个任务就需要等最慢的节点完成才能完成。Map长尾主要原因是某些Map Instance读取的数据量相对于其他的Instance多很多。优化方法：使用统计好的中间层汇总表，减少大数据量读取；行裁剪：检查代码读取的数据量是不是比自己的需求多，尽可能限制分区或者使用where条件过滤掉不需要的数据；列裁剪：限制select的字段数据，尽量不用select *，列的利用率低。比如原表有100个字段，如果只用

2021-09-23 15:32:52 1432

原创一文了解社区发现算法

最近在调研社区发现图聚类在区域划分中的应用，将一些编辑汇总的信息记录如下。社团划分了解社区是什么在社交网络中，用户相当于每一个点，用户之间通过互相的关注关系构成了整个网络的结构。在这样的网络中，有的用户之间的连接较为紧密，有的用户之间的连接关系较为稀疏。其中连接较为紧密的部分可以被看成一个社区，其内部的节点之间有较为紧密的连接，而在两个社区间则相对连接较为稀疏。整个整体的结构被称为社团结构。如下图，圆点和方点呈现出社区的结构，用圆点和方点对其进行标注，整个网络被划分成了两个部分，其中，这两个部分的

2021-09-18 11:52:36 2874

原创 Lateral View（行转列）

通过Lateral View与UDTF（表生成函数）结合，将单行数据拆成多行数据，即行转列。命令格式lateralView: lateral view [outer] <udtf_name>(<expression>) <table_alias> as <columnAlias> (',' <columnAlias>) fromClause: from <baseTable> (lateralView) [(lateralV

2021-07-07 19:39:36 1795

原创报错解决：PermissionError

在linux环境中安装jupyter notebook的时候遇到的错误，记录一下。PermissionError: [Errno 13] Permission denied: '/run/user/1002/jupyter'解决办法：chmod 777 -R /run/user/1002

2021-03-22 20:30:19 1201

原创最近面试的几个大厂算法面试题汇总

最近接受了一波社会毒打，每个大厂都经历好几轮技术面试，面试形式有电话、语音、视频、现场面，内容主要集中在以往工作经历及项目经验、算法知识及理论、算法编程及工程能力、场景案例及分析，本文章仅记录一些算法知识及理论的面试题，靠回忆，有遗漏。某程：都用过哪些算法？应用最熟悉的是那个？特征工程如何做？介绍一下RF吧？LR相比树模型对数据有什么要求？为什么有些算法需要剔除共线性？距离算法了解哪些？余弦相似性相比K-means有什么区别？K-means的K如何选择的？聚类的效果如何评估？为什么距离算

2021-03-12 15:09:16 1882 1

原创算法编程12：单调递增的数字

描述给定一个非负整数 N，找出小于或等于 N 的最大的整数，同时这个整数需要满足其各个位数上的数字是单调递增。（当且仅当每个相邻位数上的数字 x 和 y 满足 x <= y 时，我们称这个整数是单调递增的。）示例示例 1————————————————————输入: N = 10输出: 9————————————————————示例 2————————————————————输入: N = 1234输出: 1234————————————————————示例 3—————

2021-03-11 15:09:36 589

原创算法编程11：二分法求平方根

描述计算并返回 x 的平方根，其中 x 是非负整数。由于返回类型是整数，结果只保留整数的部分，小数部分将被舍去。示例示例 1——————————————————————————————————输入: 4输出: 2——————————————————————————————————示例 2——————————————————————————————————输入: 8输出: 2——————————————————————————————————说明: 8 的平方根是 2.82842…

2021-03-11 15:04:43 1553

原创算法编程10：岛屿的最大面积

描述给定一个包含了一些 0 和1的非空二维数组grid,一个岛屿是由四个方向 (水平或垂直) 的1(代表土地) 构成的组合。你可以假设二维矩阵的四个边缘都被水包围着。找到给定的二维数组中最大的岛屿面积。(如果没有岛屿，则返回面积为0。)[[0,0,1,0,0,0,0,1,0,0,0,0,0],[0,0,0,0,0,0,0,1,1,1,0,0,0],[0,1,1,0,1,0,0,0,0,0,0,0,0],[0,1,0,0,1,1,0,0,1,0,1,0,0],[0,1,0,0,1,1,0,0,

2021-03-11 14:55:18 453

原创算法编程9：求1到100的和

编程实现（用循环）def sum_xh(num): sum = 0 for i in range(1,num+1): sum += i return sumprint(sum_xh(100))编程实现（用递归）def sum_dg(num): if num == 1: return 1 else: return num + sum_dg(num-1)print(sum_dg(100))...

2021-03-11 14:51:30 1391

原创算法编程8：求前 n 项的斐波那契数列

描述求前 n 项的斐波那契数列（用递归函数）编程实现def fun(n): if n <= 1: return n else: return fun(n - 1) + fun(n - 2)for i in range(10): print(fun(i))

2021-03-11 14:49:23 888

原创算法编程7：一个四位数 abcd，满足 abcd * 4 = dcba，求这个数

描述一个四位数 abcd，满足 abcd * 4 = dcba，求这个数编程实现1for i in list(range(1000,2500)): num2 = i*4 a = i //1000 b = i % 1000//100 c = i % 1000%100//10 d = i % 10 e = num2 //1000 f = num2 % 1000//100 g = num2 % 1000%100//10 h = n

2021-03-11 14:46:02 2343

原创算法编程6：连续子数组的最大和

问题描述输入一个整型数组，数组中的一个或连续多个整数组成一个子数组。求所有子数组的和的最大值。要求时间复杂度为O(n)。示例————————————————————————————————输入: nums = [-2,1,-3,4,-1,2,1,-5,4]输出: 6————————————————————————————————解释: 连续子数组 [4,-1,2,1] 的和最大，为 6。思路典型的动态规划问题状态方程：max( dp[ i ] ) = getMax( max( dp[ i

2021-03-11 14:40:48 238

原创算法编程5：判断一个单链表是否有环

分析：使用追赶的方法，设定两个指针slow、fast，从头指针开始，每次分别前进1步、2步。如存在环，则两者相遇；如不存在环，fast遇到NULL退出class Solution: def hasCycle(self , head ): # write code here if not head: return False node = head while node: noden =

2021-03-11 14:21:17 254

原创算法编程4：打印九九乘法表

代码实现#!/usr/bin/python3#外边一层循环控制行数#i是行数i=1while i<=9: #里面一层循环控制每一行中的列数 j=1 while j<=i: mut =j*i print("%d*%d=%d"%(j,i,mut), end=" ") #print("{}*{}={}".format(j,i,mut),end = " ") j+=1 print("")

2021-03-11 13:47:27 531

原创算法编程3：冒泡排序

冒泡排序介绍冒泡排序（Bubble Sort），是一种计算机科学领域的较简单基础的排序算法。其基本思路是，对于一组要排序的元素列，从数组中的第0个元素开始，与后面一个元素进行比较，如果前面的元素大于后面的元素，就调换位置（即：a0与a1比较得到结果后，a1与a2比较…），如此继续，直到比较到最后的两个数，将小数放在前面，大数放在后面，这样最大的元素就被换到数组最末尾，剔除掉最后一个元素，在余下的数组元素中进行上述操作，到最后，整个数组呈现从小到大的排序。这个算法的名字由来是因为越大的元素会经由交换慢慢“

2021-03-11 11:36:56 511

原创算法编程2：快速排序

快速排序的基本思想任取待排序序列的一个元素作为中心元素(可以用第一个，最后一个，也可以是中间任何一个)，习惯将其称为pivot，枢轴元素，然后将所有比枢轴元素小的放在其左边，将所有比它大的放在其右边，这样就形成左右两个子表，然后对左右两个子表再按照前面的算法进行排序，直到每个子表的元素只剩下一个。可见快速排序用到了分而治之的思想。将一个数组分成两个数组的方法为：先从数组右边找到一个比枢轴元素小的元素，将数组的第一个位置赋值为该元素；再从数组的左边找到一个比枢轴元素大的元素，将从上面取元素的位置赋值

2021-03-11 11:09:35 207

原创算法编程1：字符串翻转

字符串翻转比如 ‘I like python’，翻转成 ‘python like I’#!/usr/bin/env python3# -*- coding: utf-8 -*-def printTable(table_test): ''' 字符串翻转 ''' inputwords = table_test.split(" ") inputwords = inputwords[::-1] outputwords = " ".join(inputwords

2021-03-11 11:02:25 165

原创 python实现递归函数

什么是递归函数？我们都知道一个函数的内部可以调用其他的函数，如果一个函数的内部直接或间接的调用自身的函数，称为递归函数。每调用一次自身，相当于复制一份该函数，只不过参数有变化。递归和循环很像。它的整体思想是，将一个大问题分解为一个个的小问题，直到问题无法分解时，再去解决问题。递归式函数的两个要件1、结束条件：问题可以被分解为的最小问题，当满足结束条件时，递归就不在执行了。一个递归里一定要注意需要有结束条件。2、递归条件：将问题继续分解的条件递归和循环类似，基本是可以互相代替的，循环编写起来比较

2021-03-02 19:13:16 1033

原创 python编程中的 -＞的说明

有这样一段代码，那么该如何理解 -> dict 呢？def function_demo(param_A: int, param_B: float, param_C: list, param_D: tuple) -> dict: passdef lengthOfLongestSubstring(self, s: str) -> int:这是python3的新特性，简单理解为s:str中的s还是你要传的形参这个没有变，str为该形参的注释，意思是告诉你传入的s应该是个字符串，当

2021-02-28 20:12:30 1085 1

原创 UnboundLocalError: local variable ‘a‘ referenced before assignment（Python报错解决）

问题提出使用Python编程的时候，要注意函数内可以访问全局变量，但不能更新(修改)其值。比如：a = 10def sum ( n ) : n += a print ('a = ', a, end = ' , ' ) print ( 'n = ', n ) sum(3)输出：a = 10 , n = 13如果引用了还没更新的值则会报错 :a = 10def sum ( n ) : n += a a = 11 print ('a = ', a

2021-02-28 19:39:17 2068 1

原创复合函数求导的链式法则

定义若有两个一元函数 f(x)f(x)f(x) 和 g(x)g(x)g(x) ，我们可以把 ggg 的函数值作为 fff 的自变量，得到一个新的函数称为 f(x)f(x)f(x) 和 g(x)g(x)g(x) 的复合函数，记为 f[g(x)]f[g(x)]f[g(x)]。如果我们已知上述两个函数 f(x)f(x)f(x) 和 g(x)g(x)g(x) 的导函数 f′(x)f^{\prime}(x)f′(x) 和 g′(x)g^{\prime}(x)g′(x) ，那么我们可以通过以下公式求复合函数 f[

2021-02-20 17:38:32 11739

原创数学期望、方差、标准差、协方差、残差、均方差、均方误差、均方根误差、均方根值对比分析及python实现

内容较多，如有错误之处请评论区留言以便更正，内容仅供参考。文章目录期望（Expected value）意义定义离散型连续型期望与平均值的区别方差（Variance)案例概率论方差统计学方差样本方差python实现代码标准差（Standard Deviation)方差和标准差的区别python实现代码协方差（Covariance）定义相关系数协方差矩阵案例实现残差均方误差（mean-square error, MSE）python实现代码均方根误差（root mean squared error，RMS.

2021-02-18 20:56:08 4832 1

原创机器学习中什么算法最好？了解“没有免费的午餐”定理

这里天在公众号看了几篇深度学习的文章，发现有些人对深度学习仍然迷之自信，让我想起了网上看过的一个网友分享的自己的经历（此处应有哭笑不得的表情）：作为从业人员，我兴奋于目前已有的多种深度学习框架，如深度神经网络、卷积神经网络、深度置信网络以及递归神经网络等。也很高兴深度学习目前取得的一些巨大成功，并且在计算机视觉、语音识别、自然语言处理、音频识别及生物信息学等领域的落地和应用也都获取了极好的效果。但我们也应该清楚，深度学习是好，但也不能草率的有这种想法：认为任何场景任何数据只要套用了深度学习，肯定能学习出

2021-02-13 23:59:19 841

原创机器学习偏差、方差、泛化误差的完整总结

机器学习算法的最终目标是最小化期望损失风险（即机器学习模型在任意未知测试样本上的表现），但由于数据的真实分布我们通常是不知道的，我们可用的信息来自于训练数据，因此，机器学习的学习目标往往会转化为最小化经验风险。优化算法对经验风险最小化问题进行求解，并在算法结束的第TTT次迭代中输出模型。我们希望所学习到的该模型对未知数据预测的误差尽可能小，这里的误差我们就将其定义为机器学习算法的泛化误差（generalization error）：Rexp⁡(f^)=EP[L(Y,f^(X))]=∫X×YL(y,f^(x)

2021-02-10 23:52:38 3591 3

原创一文完全搞懂损失函数，期望风险，经验风险，结构风险

引入机器学习中，我们需要一定的准则来评估不同机器学习模型的好坏，这里引入损失函数与风险函数的概念。损失函数：评估模型单次预测的好坏风险函数：度量平均意义下模型的好坏损失函数与风险函数损失函数的定义监督学习问题是在假设空间F\mathcal{F}F中选取模型fff作为决策函数，对于给定的输入XXX，由f(X)f(X)f(X)给出相应的输出YYY，预测值f(X)f(X)f(X)与真实值YYY通常情况下是不一致的，会有所差距，而损失函数（loss function）或代价函数（cost funct

2021-02-04 16:02:36 5393

原创机器学习复盘（5）：简单而实用的线性模型

线性模型算是形式最简单的机器学习方法了，简单而实用，实际上，从博主本身经历来看，不论是大学里数学或者统计学等专业的课程内容设置，还是市面上很多的算法或者机器学习书籍，开篇或者很大篇幅都给了线性模型，其主要原因一是因为很多简单情形下线性模型已经足以应对，二是因为线性模型是很多复杂模型的基础，可以通过引入层级结构或高维映射等方法将线性模型推广至“广义线性模型”或“非线性模型”（比如神经网络，神经网络的每个神经元就是一个广义的线性模型）下面主要结合西瓜书来详细盘点一下线性模型。基本形式给定由 d\bolds

2021-02-01 15:49:30 452

原创一些常用的sql函数

求绝对值函数select abs(-5) from dual;求平方根函数select sqrt(2) from dual;求幂函数select power(2,3) from dual;求余弦三角函数select cos(3.14159) from dual;求除法余数select mod(1600, 300) from dual;求大于等于某数的最小整数select ceil(2.35) from dual;求小于等于某数的最大整数select floor(2.35

2021-01-29 18:16:06 876 2

金庸武侠小说文本分析素材大全.zip

金庸武侠小说词频统计及情感分析使用词典大全.txt

stopword.txt

R语言模糊聚类实现（程序+数据）.zip

推荐系统基准数据.zip

births_transformed.csv

python情感分析案例（数据+源码）.zip

空空如也