自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

OzupeSir

圣人千虑必有一失,愚人千虑必有一得

  • 博客(21)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 大数据练习环境部署(5) - zookeeper集群部署

zookeeper集群部署

2022-12-27 17:06:47 175

原创 大数据练习环境部署(4) - Hive部署

Hive部署

2022-12-26 15:46:54 162

原创 大数据练习环境部署(3) - Hadoop集群部署

Hadoop集群部署

2022-12-22 18:14:54 283

原创 大数据练习环境部署(2) -VMware及虚拟机安装

Vmware ubuntu安装

2022-12-06 18:52:36 729

原创 大数据练习环境部署(1) - Ubuntu系统安装

Ubuntu安装

2022-12-06 13:27:30 203

原创 大数据练习环境部署(0) - 写在前面

大数据环境部署

2022-12-05 23:36:14 471

原创 计算数独的脚本

总体逻辑为:从行列上去寻找非重复值,直到找到一个可选的唯一值,重复遍历找到最终的确认结果。import mathclass sudoku(): def __init__(self, sudo_list): self.sudo_list = sudo_list self.init_range = set([x for x in range(1, 10)]) def _init_list(self): self.sudo_list_bak

2022-05-16 10:16:47 430

原创 PYTHON解析微信dat文件

今天想查看某个微信聊天记录的图片内容,查看文件记录全部是dat文件,因此,开始了一顿百度+操作!先贴代码:import osdef imageDecode(dat_dir,dat_file_name): dat_read = open(dat_dir, "rb") if not os.path.exists(target_path): os.makedirs...

2020-04-09 16:07:19 4124 3

原创 python删除文件或者整个文件夹

背景故事:只是今天在敲代码做测试的时候,每一次代码都会生成一个文件夹,但是自己的代码又需要反复测试,每次都需要重新去删除代码,感觉特别麻烦。就抄抄摘摘弄了个函数。Pythondef del_DirorFile(Dir_or_File): """ Func: Delete a file or directory (including subfiles and directori...

2020-01-20 15:57:00 228

原创 Python将纵向数据进行分组之后横向转化

那天也是在某个公司进行了面试,面试官出了一个题:将下面的这个表格的数据进行转化转变形式为这种:OK,我承认,我当时感觉特别的紧张,直接不知道代码怎么去写。面试的时候我还是想了一种方法,我说我会新建两个字典来分别存储brand和product的数据,之后再依次添加到后面去。但是面试官就说,嗯~那么如果数据量有一百万呢?好吧,如果是百万数据,那运算的速度就肯定特别慢了。于是,我没想出来...

2019-11-13 20:11:33 4367 5

原创 样本不均衡问题

样本不均衡问题解决办法1.下探2.标签分裂3. 采样算法3.1 朴素的随机采样过程3.2 SMOTE算法3.3 Borderline-SMOTE3.4 ADA-SYN3.5 SMOTEBoost3.6 DataBoost-IM样本不均衡问题在很多真实场景下,数据集往往是不平衡的。也就是说,在数据集中,有一类含有的数据要远远多于其他类的数据(类别分布不平衡)。在金融场景下,我们主要介绍二分类...

2019-11-06 16:44:43 836

原创 汉诺塔问题

个人觉得是递归的经典运用吧。汉诺塔问题:首先,介绍什么是汉诺塔问题:汉诺塔(又称河内塔)问题是源于印度一个古老传说的益智玩具。大梵天创造世界的时候做了三根金刚石柱子,在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘。大梵天命令婆罗门把圆盘从下面开始按大小顺序重新摆放在另一根柱子上。并且规定,在小圆盘上不能放大圆盘,在三根柱子之间一次只能移动一个圆盘。那么,问题来了,怎么挪动圆盘能够使得最...

2019-11-05 18:09:02 1570

原创 html文件转md文件

在python里面使用html文件转换为md文件,所使用的包为html2text关于html2text的介绍Html2text–Convert HTML to Markdown-formatted text.:https://alir3z4.github.io/html2text/首先cmd安装pip install html2text然后将文件进行转化import html2te...

2019-10-15 11:29:39 4624

原创 xgboost的参数详细说明

基本用法¶先列出Xgboost中可指定的参数,参数的详细说明如下¶总共有3类参数:通用参数/general parameters, 集成(增强)参数/booster parameters 和 任务参数/taskparameters通用参数/General Parameters¶booster [default=gbtree]gbtree 和 gblinearsilent [...

2019-10-14 15:47:37 814 1

原创 决策树(Decision Tree)

简介一、决策树算法的基本流程二、决策树的特征选择1.对于离散属性的划分2.对于连续属性的划分三、决策树的算法手写代码实现(Python)四、决策树在SKlearn中的调用简介决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形...

2019-10-08 22:45:45 4406 3

原创 常用的距离以及相似度的计算

曼哈顿距离(*Manhattan Distance*)欧氏距离(*Euclidean Distance*)切比雪夫距离(*Chebyshev Distance*)闵氏距离(*Minkowski Distance*)曼哈顿距离(Manhattan Distance)曼哈顿距离(Manhattan Distance)又称之为街道距离,是由十九世纪的赫尔曼·闵可夫斯基所创词汇,是种使用在几何度量空...

2019-10-08 17:13:54 856

原创 KNN

目录简介一、KNN算法的基本流程二、KNN三要素1. 距离度量2. k值的选择3. 分类决策规则三、KNN的算法代码实现(Python)四、KNN算法的优缺点优点缺点五、Kd树简介领近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN方法...

2019-09-28 15:07:29 1107

原创 某些奇怪的面试题(一)

Question 1:有两根不均匀的香,烧完都是一个小时我如何用这两根香用来作为计时15分钟的工具?Answer:将第一根香同时点两头,第二根香点一头,当第一根香的两头燃尽时,将第二根香熄灭掉,耗时30min30min30min。此时,下次再使的时候,点燃第二根香两头,燃尽的时候耗时就为15min15min15min。Question 2:某日,宾馆里来了三对客人:两个男人、两个女人、还...

2019-09-26 18:01:15 297

原创 买票看电影的问题

Question:有 2n 个人排队进电影院,票价是 50 美分。在这 2n 个人当中,其中 n 个人只有 50 美分,另外 n 个人有 1 美元(纸票子)。愚蠢的电影院开始卖票时 1 分钱也没有。问: 有多少种排队方法 使得 每当一个拥有 1 美元买票时,电影院都有 50 美分找钱(注: 1 美元=100 美分,拥有 1 美元的人,拥有的是纸币,没法破成 2个 50 美分)数学理解...

2019-09-25 17:12:30 972

原创 跳格子的问题

常见的一个经典问题:从格子外面朝着格子里面跳,请问假定如果每次只能跳一个格子或者两个格子,跳到第八个格子有多少种不同的跳法?数学的想法这是一个关于数列的题,可以这样去想一个存在递归的问题:假如我要跳到第 nnn 个格子,那么就必须要在前一步跳到第 n−1n-1n−1 或者 n−2n-2n−2 个格子,如果说跳到第 nnn 个格子用的次数为 ana_nan​ ,那么 an=an−1+an−...

2019-09-11 13:21:45 2418

原创 方格运动问题

@跳格子的算法问题常见的一个经典问题:给定一个方格子。另左上角坐标为(0,0),右下角坐标为(M,N),从左上角开始每次只能向右走或者向下走,最后达到右下角的位置。求一共有多少种不同的路径?数学的想法对于计算这个问题的时候,可以去思考,不管怎样,从上往下从左往右,一共要走M+N步,那么,只需要去考虑,哪几步朝下,哪几步向右就可以了。运用排列得公式直接写作CM+NMC_{M+N}^{M}CM...

2019-09-11 00:56:40 377 1

成都市区划信息表.xlsx

成都市区划信息表,字段如下: 区划名称 区划编码(12位长度编码) 层级(包括区市县、街道、村居)三个等级

2020-08-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除