自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 资源 (6)
  • 问答 (2)
  • 收藏
  • 关注

原创 Python爬虫:蝉妈妈返回参数data解密

js逆向的步骤不难,主要是以下六点:打开调试模式找到目标接口以及加密参数找到加密参数所在js文件找到加密参数位置打上断点,刷新页面进行调试找到加密的算法,判断是Python改写还是Python调用js文件方式实现

2024-04-13 10:32:20 53

原创 Python算法:八大排序算法以及速度比较

Python算法:八大排序算法以及速度比较

2023-10-20 23:21:33 499 2

原创 Python爬虫:ad广告引擎的模拟登录

Python爬虫:ad广告引擎的模拟登录

2023-10-20 22:55:16 1244 3

原创 Python爬虫:某书平台的Authorization参数js逆向

Python爬虫:某书平台的Authorization参数js逆向

2023-10-15 21:51:28 2124 3

原创 深度学习实战:用Keras搭建深度学习网络做手写数字识别

今天我们用 keras 对手写数字进行了识别,具体的代码部分讲解的不多,其中涉及到 API,你可以参考下 Keras 中文手册。在这个过程里,我们只是使用了 LeNet 的网络模型,实际上 AlexNet、VGG、GoogleNet 和 ResNet 都是基于 CNN 的网络结构。在 CNN 网络中包括了卷积层、池化层和全连接层。一个基于 CNN 的深度学习网络通常是几组卷积层之后,再连接多个全连接层,最后再接 Output 全连接层,而每组的卷积层都是“卷积层 + →池化层?”的结构。

2023-10-12 09:56:40 213 8

原创 深度学习简述

今天我们大概了解了一下深度学习。深度学习也是机器学习的一种。我们之前讲解了数据挖掘十大经典算法,还有逻辑回归、随机森林算法等,这些都是传统的机器学习算法。在日常工作中,可以满足大部分的机器学习任务。但是对于数据量更大,更开放性的问题,我们就可以采用深度学习的算法,让机器自己来找规律,而不是通过我们指定的算法来找分类规律。所以深度学习的普适性会更强一些,但也并不代表深度学习就优于机器学习。一方面深度学习需要大量的数据,另一方面深度学习的学习时间,和需要的计算资源都要大于传统的机器学习。

2023-10-11 09:42:13 451

原创 数据挖掘实战(3):如何对比特币走势进行预测?

今天我给你讲了一个比特币趋势预测的实战项目。通过这个项目你应该能体会到,当我们对一个数值进行预测的时候,如果考虑的是多个变量和结果之间的关系,可以采用回归分析,如果考虑单个时间维度与结果的关系,可以使用时间序列分析。根据比特币的历史数据,我们使用 ARMA 模型对比特币未来 8 个月的走势进行了预测,并对结果进行了可视化显示。你能看到 ARMA 工具还是很好用的,虽然比特币的走势受很多外在因素影响,比如政策环境。不过当我们掌握了这些历史数据,也不妨用时间序列模型来分析预测一下。​。

2023-10-11 09:26:56 1028 3

原创 数据挖掘实战(2):信用卡诈骗分析

今天我给你讲了逻辑回归的概念和相关工具的使用,另外学习了在数据样本不平衡的情况下,如何评估模型。这里你需要了解精确率,召回率和 F1 的概念和计算方式。最后在信用卡欺诈分析的项目中,我们使用了逻辑回归工具,并对混淆矩阵进行了计算,同时在模型结果评估中,使用了精确率、召回率和 F1 值,最后得到精确率 - 召回率曲线的可视化结果。从这个项目中你能看出来,不是所有的分类都是样本平衡的情况,针对正例比例极低的情况,比如信用卡欺诈、某些疾病的识别,或者是恐怖分子的判断等,都需要采用精确率 - 召回率来进行统计。

2023-10-10 09:26:52 320 2

原创 数据挖掘实战(1):信用卡违约率分析

今天我给你讲了随机森林的概念及工具的使用,另外针对数据挖掘算法中经常采用的参数调优,也介绍了 GridSearchCV 工具这个利器。并将这两者结合起来,在信用卡违约分析这个项目中进行了使用。很多时候,我们不知道该采用哪种分类算法更适合。即便是对于一种分类算法,也有很多参数可以调优,每个参数都有一定的取值范围。我们可以把想要采用的分类器,以及这些参数的取值范围都设置到数组里,然后使用 GridSearchCV 工具进行调优。​。

2023-10-10 09:26:12 109 1

原创 数据可视化实战:如何给毛*易的歌曲做词云展示?

数据可视化实战:如何给毛*易的歌曲做词云展示?1、掌握词云分析工具,并进行可视化呈现;2、掌握 Python 爬虫,对网页的数据进行爬取;3、掌握 XPath 工具,分析提取想要的元素 。

2023-10-09 10:35:02 976 1

原创 数据采集实战:如何自动化运营微博?

数据采集实战:如何自动化运营微博?学会编写微博自动化功能模块:加关注,写评论,发微博;

2023-10-09 10:09:31 991

原创 AdaBoost(上):数据分析 | 数据挖掘 | 十大算法之一

AdaBoost(上):如何使用AdaBoost提升分类器性能?

2023-10-07 17:08:36 2571

原创 AdaBoost(下):数据分析 | 数据挖掘 | 十大算法之一

今天我带你用 AdaBoost 回归分析对波士顿房价进行了预测。因为这是个回归分析的问题,我们直接使用 sklearn 中的 AdaBoostRegressor 即可。如果是分类,我们使用 AdaBoostClassifier。另外我们将 AdaBoost 分类器、弱分类器和决策树分类器做了对比,可以看出经过多个弱分类器组合形成的 AdaBoost 强分类器,准确率要明显高于决策树算法。所以 AdaBoost 的优势在于框架本身,它通过一种迭代机制让原本性能不强的分类器组合起来,形成一个强分类器。

2023-10-07 17:08:12 385 1

原创 PageRank(下):数据分析 | 数据挖掘 | 十大算法之一

PageRank(下):分析希拉里邮件中的人物关系

2023-10-07 12:15:00 104

原创 PageRank(上):数据分析 | 数据挖掘 | 十大算法之一

PageRank 的算法原理,对简化的 PageRank 模型进行了模拟。针对简化模型中存在的等级泄露和等级沉没这两个问题,PageRank 的随机浏览模型引入了阻尼因子 d 来解决。同样,PageRank 有很广的应用领域,在许多网络结构中都有应用,比如计算一个人的微博影响力等。它也告诉我们,在社交网络中,链接的质量非常重要。​。

2023-10-07 07:45:00 491 1

原创 关联规则挖掘(下):数据分析 | 数据挖掘 | 十大算法之一

Apriori 算法的核心就是理解频繁项集和关联规则。在算法运算的过程中,还要重点掌握对支持度、置信度和提升度的理解。在工具使用上,你可以使用 efficient-apriori 这个工具包,它会把每一条数据中的项(item)放到一个集合(篮子)里来处理,不考虑项(item)之间的先后顺序。在实际运用中你还需要灵活处理,比如导演如何选择演员这个案例,虽然工具的使用会很方便,但重要的还是数据挖掘前的准备过程,也就是获取某个导演的电影数据集。​。

2023-10-06 11:26:12 2472 2

原创 关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一

今天我给你讲了 Apriori 算法,它是在“购物篮分析”中常用的关联规则挖掘算法,在 Apriori 算法中你最主要是需要明白支持度、置信度、提升度这几个概念,以及 Apriori 迭代计算频繁项集的工作流程。Apriori 算法在实际工作中需要对数据集扫描多次,会消耗大量的计算时间,所以在 2000 年 FP-Growth 算法被提出来,它只需要扫描两次数据集即可以完成关联规则的挖掘。FP-Growth 算法最主要的贡献就是提出了 FP 树和项头表,通过 FP 树减少了频繁项集的存储以及计算时间。

2023-10-06 11:00:14 1034

原创 EM聚类(下):用EM算法对王者荣耀英雄进行划分

今天我带你一起做了 EM 聚类的实战,具体使用的是 GMM 高斯混合模型。从整个流程中可以看出,我们需要经过数据加载、数据探索、数据可视化、特征选择、GMM 聚类和结果分析等环节。聚类和分类不一样,聚类是无监督的学习方式,也就是我们没有实际的结果可以进行比对,所以聚类的结果评估不像分类准确率一样直观,那么有没有聚类结果的评估方式呢?指标分数越高,代表聚类效果越好,也就是相同类中的差异性小,不同类之间的差异性大。

2023-10-02 13:34:08 2923 5

原创 EM聚类(上):数据分析 | 数据挖掘 | 十大算法之一

EM 算法相当于一个框架,你可以采用不同的模型来进行聚类,比如 GMM(高斯混合模型),或者 HMM(隐马尔科夫模型)来进行聚类。GMM 是通过概率密度来进行聚类,聚成的类符合高斯分布(正态分布)。而 HMM 用到了马尔可夫过程,在这个过程中,我们通过状态转移矩阵来计算状态转移的概率。HMM 在自然语言处理和语音识别领域中有广泛的应用。在 EM 这个框架中,E 步骤相当于是通过初始化的参数来估计隐含变量。M 步骤就是通过隐含变量反推来优化参数。最后通过 EM 步骤的迭代得到模型参数。​。

2023-10-02 13:21:06 1670

原创 K-Means(下):数据分析 | 数据挖掘 | 十大算法之一

K-Means(下):数据分析 | 数据挖掘 | 十大算法之一

2023-10-01 21:36:00 243

原创 K-Means(上):数据分析 | 数据挖掘 | 十大算法之一

K-Means(上):数据分析 | 数据挖掘 | 十大算法之一

2023-10-01 21:23:58 1514 2

原创 KNN(下):数据分析 | 数据挖掘 | 十大算法之一

KNN(下):数据分析 | 数据挖掘 | 十大算法之一

2023-09-29 20:12:21 1634 1

原创 KNN(上):数据分析 | 数据挖掘 | 十大算法之一

KNN(上):数据分析 | 数据挖掘 | 十大算法之一

2023-09-29 19:48:46 1141 1

原创 SVM(下):如何进行乳腺癌检测?

SVM(下):如何进行乳腺癌检测?

2023-09-28 15:44:58 818 1

原创 SVM(上):如何用一根棍子将蓝红两色球分开?

SVM(上):如何用一根棍子将蓝红两色球分开?

2023-09-28 15:32:02 990 2

原创 Python通过腾讯企业邮件自动发送邮件

Python通过腾讯企业邮件自动发送邮件

2023-09-27 18:18:54 286

原创 朴素贝叶斯分类(下):数据挖掘十大算法之一

朴素贝叶斯分类(下):如何对文档进行分类

2023-09-27 18:09:47 555 1

原创 朴素贝叶斯分类(上):数据挖掘十大算法之一

学会朴素贝叶斯分类,让机器帮你判断男女

2023-09-25 07:30:00 78 1

原创 决策树(下):泰坦尼克号乘客的生存预测(完整代码)

决策树(下):泰坦尼克号乘客的生存预测(完整代码)

2023-09-20 10:41:16 96 1

原创 决策树(中):数据挖掘十大算法之一

决策树(中):数据挖掘十大算法之一

2023-09-20 10:11:46 672 1

原创 决策树(上):数据挖掘十大算法之一

决策树(上):数据挖掘十大算法之一

2023-09-20 07:15:00 97 1

原创 超详细!一次学会Python数据可视化的10种技能

超详细!一次学会Python数据可视化的10种技能

2023-09-18 12:49:24 102 1

原创 Python爬虫:汽车之家爬虫(完整代码)

Python爬虫:汽车之家爬虫(完整代码)

2023-09-15 16:47:02 4528 6

原创 数据可视化:掌握数据领域的万金油技能

数据可视化:掌握数据领域的万金油技能

2023-09-15 15:48:20 64 1

原创 数据变换:数据挖掘的准备工作之一

数据挖掘中数据变换比算法选择更重要

2023-09-15 11:43:20 759 1

原创 数据集成:数据挖掘的准备工作之一

数据集成:数据挖掘的准备工作之一

2023-09-15 10:56:45 2336 1

原创 数据清洗:数据挖掘的前期准备工作

数据科学家80%时间都花费在了这些清洗任务上?

2023-09-14 18:19:39 1946 1

原创 Python爬虫:如何下载懂车帝的电动车数据(完整代码)

Python爬虫:如何下载某车帝的电动车数据(完整代码)

2023-09-13 18:17:58 1722 2

原创 数据采集:数据挖掘的基础

数据采集:数据挖掘的基础

2023-09-13 17:05:34 1777 1

原创 用户画像的设计准则以及美团外卖用户画像的设计案例

详细讲述用户画像的相关知识,并提供经典实例:美团外卖的用户画像的设计

2023-09-11 17:38:13 397

数据可视化实战:如何给毛*易的歌曲做词云展示?歌词的数据集

数据可视化实战:如何给毛*易的歌曲做词云展示?歌词的数据集 比如一些互联网公司会抓取用户的画像,或者每日讨论话题的关键词,形成词云并进行展示。再或者,假如你喜欢某个歌手,想了解这个歌手创作的歌曲中经常用到哪些词语,词云就是个很好的工具。最后,只需要将词云生成一张图片就可以直观地看到结果。 1、掌握词云分析工具,并进行可视化呈现; 2、掌握 Python 爬虫,对网页的数据进行爬取; 3、掌握 XPath 工具,分析提取想要的元素 。

2023-10-09

java初始者尝试写应用类

java初始者尝试写应用类 涉及java的方法、类使用以及变量的定义等等

2023-10-08

数据分析中PageRank算法使用的数据集:某个大人物的邮件中人物关系数据

数据分析中PageRank算法使用的数据集:某个大人物的邮件中人物关系数据 详细的算法原理、案例和代码请看文章:《PageRank(上):数据分析 | 数据挖掘 | 十大算法之一》https://blog.csdn.net/weixin_42108731/article/details/133610743

2023-10-07

kmeans数据集:20 支亚洲球队的聚类问题

kmeans数据集:20 支亚洲球队的聚类问题

2023-10-06

人工智能+数据分析的kmeans算法实践数据源:20 支亚洲球队的聚类问题

人工智能+数据分析的kmeans算法实践数据源:20 支亚洲球队的聚类问题 具体分析原理+案例+代码可参考文章: 《K-Means(上):数据分析 | 数据挖掘 | 十大算法之一 https://blog.csdn.net/weixin_42108731/article/details/133469733

2023-10-06

Python直接插入排序算法

Python直接插入排序算法 时间复杂度:O(n²) 空间复杂度:O(1) 稳定性:稳定

2023-09-15

Python爬虫:如何下载懂车帝的电动车数据(完整代码)

Python爬虫:如何下载懂车帝的电动车数据(完整代码) 一、确定目标数据 二、请求接口 三、数据解析 四、数据存储 详情可看: https://blog.csdn.net/weixin_42108731/article/details/132860453

2023-09-13

数据分析教育培训机构的学生情况

数据分析教育培训机构的学生情况

2023-09-12

Django学生管理后台学生处理视图

Django学生管理后台学生处理视图

2023-09-12

python+ocr识别图形验证码

python+ocr识别图形验证码

2023-09-11

算法:移动石子直到连续 II

在一个长度 无限 的数轴上,第 i 颗石子的位置为 stones[i]。如果一颗石子的位置最小/最大,那么该石子被称作 端点石子 。 每个回合,你可以将一颗端点石子拿起并移动到一个未占用的位置,使得该石子不再是一颗端点石子。 值得注意的是,如果石子像 stones = [1,2,5] 这样,你将 无法 移动位于位置 5 的端点石子,因为无论将它移动到任何位置(例如 0 或 3),该石子都仍然会是端点石子。 当你无法进行任何移动时,即,这些石子的位置连续时,游戏结束。 要使游戏结束,你可以执行的最小和最大移动次数分别是多少? 以长度为 2 的数组形式返回答案:answer = [minimum_moves, maximum_moves] 。

2023-09-10

算法题:求最大平均通过率,java答案

一所学校里有一些班级,每个班级里有一些学生,现在每个班都会进行一场期末考试。给你一个二维数组 classes ,其中 classes[i] = [passi, totali] ,表示你提前知道了第 i 个班级总共有 totali 个学生,其中只有 passi 个学生可以通过考试。 给你一个整数 extraStudents ,表示额外有 extraStudents 个聪明的学生,他们 一定 能通过任何班级的期末考。你需要给这 extraStudents 个学生每人都安排一个班级,使得 所有 班级的 平均 通过率 最大 。 一个班级的 通过率 等于这个班级通过考试的学生人数除以这个班级的总人数。平均通过率 是所有班级的通过率之和除以班级数目。 请你返回在安排这 extraStudents 个学生去对应班级后的 最大 平均通过率。与标准答案误差范围在 10-5 以内的结果都会视为正确结果。

2023-09-10

python的bool类,其中就包括了bool类的创建方式

python的bool类,其中就包括了bool类的创建方式

2023-09-08

python四种数组模式的创建和相互转换

python数组四种表达方式,包含列表、元组、字典、集合 代码展示了列表、元组、字典、集合等四种对应的创建方式,以及相互之间的转换形式。

2023-09-08

python数组四种表达方式,包含列表、元组、字典、集合

python数组四种表达方式,包含列表、元组、字典、集合 代码展示了列表、元组、字典、集合等四种对应的创建方式

2023-09-08

python数组,包含列表、元组、字典、集合

python数组,包含列表、元组、字典、集合,本代码分别介绍了这四种数组的创建方式和输出结果

2023-09-08

python将列表list转数组tuple并输出

python将列表list转数组tuple并输出,采用了内置函数split()将字符串分割成列表list1,再通过函数tuple(list1)将列表转成元组

2023-09-08

python将字符串转数组并输出

python将字符串转数组并输出,采用了内置函数split()将字符串分割成列表list1,再通过函数tuple(list1)将列表转成元组

2023-09-08

决策树莺尾花的项目代码

决策树莺尾花的项目代码 某研究随机抽取了生长在某地的鸢尾花的资料,这些鸢尾花共有三个种类:山鸢尾(Iris-setosa) 变色鸢尾(Iris-versicolor) 和维吉尼亚鸢尾(Iris-virginica) : 获取了一份如图的数据集(数据在 data.txt 中) 其中每行按顺序记录了鸢尾花的四个属性:花萼长度,花萼宽度,花瓣长度,花瓣宽度。 数值为-1的代表缺失值。 要求:对数据进行预处理,并自选两种分类方法(包括决策树、贝叶斯分类方法、BP神经网络和SVM), 判断下面的鸢尾花属于什么种类,并比较两种分类方法的结果。 (请在 方法概述 部分说明你选择的两种方法,并简述选择的理由) X1:6.4, 2.7, 5.3, 1.8 X2:4.5, 2.3, 1.3, 0.3 X3:5.5, 2.6, 4.4, 1.2 X4:5.1, 2.5, 3.0, 1.1 X5:6.7, 3.0, 5.0, 1.7 注:BP神经网络和SVM允许使用库完成,但必须写明所使用的库,以及在实验报告中用流程图、公式和文字描述算法。 使用SVM必须说明对三个类别进行分类的思想。

2023-09-08

svm支持向量机python代码

svm支持向量机python代码 采用支持向量机(SVM)方法对手写数字进行识别。通过对 MNIST 数据集进行处理,划分训练集和测试集。然后构建支持向量机模型,进行模型训练和评估。

2023-09-08

ChatGPT 对接到微信公众号

主要功能:ChatGPT 对接到微信公众号 运行前端代码命令 : yarn serve

2023-09-08

通过百度识图自动识别抖音小姐姐并点赞

本项目通过百度识图自动识别抖音小姐姐并点赞,使用了java言语开发。 安装教程: 使用数据线连接手机与电脑,并开启调试模式 启动ADB,保证驱动安装(保证可以连接360手机助手等软件) 使用说明: 直接运行DouYinStart.java

2023-09-08

基于 Flask 的后台管理系统

基于 Flask 的后台管理系统,拥抱应用广泛的python语言,通过使用本系统,即可快速构建你的功能业务 项目旨在为 python 开发者提供一个后台管理系统的模板,可以快速构建信息管理系统。 项目使用flask-sqlalchemy + 权限验证 + Flask-APScheduler 定时任务 + marshmallow 序列化与数据验证

2023-09-07

Python将txt文件转成pdf文件

Python将txt文件转成pdf文件,内容保持一致,还可以通过设置参数调整格式,满足不同的需求

2023-09-05

小红书笔记数据爬虫代码

本代码使用python的request库爬取小红书PC端笔记的内容(标题、用户信息、内容、图片、视频等)和互动数据(点赞数、收藏数、评论数)等目标数据,并使用正则表达式匹配返回的信息,提取目标数据

2023-09-05

【数据分析机器学习专用】史上最全1999年至2019年全球地震数据

史上最全1999年至2019年全球地震数据,包含时间、地点、地震的相关参数,主要适用于数据分析和机器学习,是训练算法的好资料

2022-06-24

【JS逆向分享】某个网站社区信息,完整代码包含js文件

【JS逆向分享】某个网站社区信息,完整代码包含js文件

2022-06-10

全国各省市行政区坐标(包含边界坐标点和中心坐标点)

全国各省市行政区坐标(包含边界坐标点和中心坐标点),用于地图或餐饮类定位使用

2022-06-07

英雄联盟LOL英雄图片和皮肤图片爬虫代码

英雄联盟LOL英雄图片和皮肤图片爬虫代码

2021-05-22

Car_comment.py.zip

汽车之家爬虫

2021-05-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除