秋无之地-CSDN博客

原创 Python爬虫：蝉妈妈返回参数data解密

js逆向的步骤不难，主要是以下六点：打开调试模式找到目标接口以及加密参数找到加密参数所在js文件找到加密参数位置打上断点，刷新页面进行调试找到加密的算法，判断是Python改写还是Python调用js文件方式实现

2024-04-13 10:32:20 53

原创 Python算法：八大排序算法以及速度比较

Python算法：八大排序算法以及速度比较

2023-10-20 23:21:33 499 2

原创 Python爬虫：ad广告引擎的模拟登录

Python爬虫：ad广告引擎的模拟登录

2023-10-20 22:55:16 1244 3

原创 Python爬虫：某书平台的Authorization参数js逆向

Python爬虫：某书平台的Authorization参数js逆向

2023-10-15 21:51:28 2124 3

原创深度学习实战：用Keras搭建深度学习网络做手写数字识别

今天我们用 keras 对手写数字进行了识别，具体的代码部分讲解的不多，其中涉及到 API，你可以参考下 Keras 中文手册。在这个过程里，我们只是使用了 LeNet 的网络模型，实际上 AlexNet、VGG、GoogleNet 和 ResNet 都是基于 CNN 的网络结构。在 CNN 网络中包括了卷积层、池化层和全连接层。一个基于 CNN 的深度学习网络通常是几组卷积层之后，再连接多个全连接层，最后再接 Output 全连接层，而每组的卷积层都是“卷积层 + →池化层？”的结构。

2023-10-12 09:56:40 213 8

原创深度学习简述

今天我们大概了解了一下深度学习。深度学习也是机器学习的一种。我们之前讲解了数据挖掘十大经典算法，还有逻辑回归、随机森林算法等，这些都是传统的机器学习算法。在日常工作中，可以满足大部分的机器学习任务。但是对于数据量更大，更开放性的问题，我们就可以采用深度学习的算法，让机器自己来找规律，而不是通过我们指定的算法来找分类规律。所以深度学习的普适性会更强一些，但也并不代表深度学习就优于机器学习。一方面深度学习需要大量的数据，另一方面深度学习的学习时间，和需要的计算资源都要大于传统的机器学习。

2023-10-11 09:42:13 451

原创数据挖掘实战（3）：如何对比特币走势进行预测？

今天我给你讲了一个比特币趋势预测的实战项目。通过这个项目你应该能体会到，当我们对一个数值进行预测的时候，如果考虑的是多个变量和结果之间的关系，可以采用回归分析，如果考虑单个时间维度与结果的关系，可以使用时间序列分析。根据比特币的历史数据，我们使用 ARMA 模型对比特币未来 8 个月的走势进行了预测，并对结果进行了可视化显示。你能看到 ARMA 工具还是很好用的，虽然比特币的走势受很多外在因素影响，比如政策环境。不过当我们掌握了这些历史数据，也不妨用时间序列模型来分析预测一下。。

2023-10-11 09:26:56 1028 3

原创数据挖掘实战（2）：信用卡诈骗分析

今天我给你讲了逻辑回归的概念和相关工具的使用，另外学习了在数据样本不平衡的情况下，如何评估模型。这里你需要了解精确率，召回率和 F1 的概念和计算方式。最后在信用卡欺诈分析的项目中，我们使用了逻辑回归工具，并对混淆矩阵进行了计算，同时在模型结果评估中，使用了精确率、召回率和 F1 值，最后得到精确率 - 召回率曲线的可视化结果。从这个项目中你能看出来，不是所有的分类都是样本平衡的情况，针对正例比例极低的情况，比如信用卡欺诈、某些疾病的识别，或者是恐怖分子的判断等，都需要采用精确率 - 召回率来进行统计。

2023-10-10 09:26:52 320 2

原创数据挖掘实战（1）：信用卡违约率分析

今天我给你讲了随机森林的概念及工具的使用，另外针对数据挖掘算法中经常采用的参数调优，也介绍了 GridSearchCV 工具这个利器。并将这两者结合起来，在信用卡违约分析这个项目中进行了使用。很多时候，我们不知道该采用哪种分类算法更适合。即便是对于一种分类算法，也有很多参数可以调优，每个参数都有一定的取值范围。我们可以把想要采用的分类器，以及这些参数的取值范围都设置到数组里，然后使用 GridSearchCV 工具进行调优。。

2023-10-10 09:26:12 109 1

原创数据可视化实战：如何给毛*易的歌曲做词云展示？

数据可视化实战：如何给毛*易的歌曲做词云展示？1、掌握词云分析工具，并进行可视化呈现；2、掌握 Python 爬虫，对网页的数据进行爬取；3、掌握 XPath 工具，分析提取想要的元素。

2023-10-09 10:35:02 976 1

原创数据采集实战：如何自动化运营微博？

数据采集实战：如何自动化运营微博？学会编写微博自动化功能模块：加关注，写评论，发微博；

2023-10-09 10:09:31 991

原创 AdaBoost（上）：数据分析 | 数据挖掘 | 十大算法之一

AdaBoost（上）：如何使用AdaBoost提升分类器性能？

2023-10-07 17:08:36 2571

原创 AdaBoost（下）：数据分析 | 数据挖掘 | 十大算法之一

今天我带你用 AdaBoost 回归分析对波士顿房价进行了预测。因为这是个回归分析的问题，我们直接使用 sklearn 中的 AdaBoostRegressor 即可。如果是分类，我们使用 AdaBoostClassifier。另外我们将 AdaBoost 分类器、弱分类器和决策树分类器做了对比，可以看出经过多个弱分类器组合形成的 AdaBoost 强分类器，准确率要明显高于决策树算法。所以 AdaBoost 的优势在于框架本身，它通过一种迭代机制让原本性能不强的分类器组合起来，形成一个强分类器。

2023-10-07 17:08:12 385 1

原创 PageRank（下）：数据分析 | 数据挖掘 | 十大算法之一

PageRank（下）：分析希拉里邮件中的人物关系

2023-10-07 12:15:00 104

原创 PageRank（上）：数据分析 | 数据挖掘 | 十大算法之一

PageRank 的算法原理，对简化的 PageRank 模型进行了模拟。针对简化模型中存在的等级泄露和等级沉没这两个问题，PageRank 的随机浏览模型引入了阻尼因子 d 来解决。同样，PageRank 有很广的应用领域，在许多网络结构中都有应用，比如计算一个人的微博影响力等。它也告诉我们，在社交网络中，链接的质量非常重要。。

2023-10-07 07:45:00 491 1

原创关联规则挖掘（下）：数据分析 | 数据挖掘 | 十大算法之一

Apriori 算法的核心就是理解频繁项集和关联规则。在算法运算的过程中，还要重点掌握对支持度、置信度和提升度的理解。在工具使用上，你可以使用 efficient-apriori 这个工具包，它会把每一条数据中的项（item）放到一个集合（篮子）里来处理，不考虑项（item）之间的先后顺序。在实际运用中你还需要灵活处理，比如导演如何选择演员这个案例，虽然工具的使用会很方便，但重要的还是数据挖掘前的准备过程，也就是获取某个导演的电影数据集。。

2023-10-06 11:26:12 2472 2

原创关联规则挖掘（上）：数据分析 | 数据挖掘 | 十大算法之一

今天我给你讲了 Apriori 算法，它是在“购物篮分析”中常用的关联规则挖掘算法，在 Apriori 算法中你最主要是需要明白支持度、置信度、提升度这几个概念，以及 Apriori 迭代计算频繁项集的工作流程。Apriori 算法在实际工作中需要对数据集扫描多次，会消耗大量的计算时间，所以在 2000 年 FP-Growth 算法被提出来，它只需要扫描两次数据集即可以完成关联规则的挖掘。FP-Growth 算法最主要的贡献就是提出了 FP 树和项头表，通过 FP 树减少了频繁项集的存储以及计算时间。

2023-10-06 11:00:14 1034

原创 EM聚类（下）：用EM算法对王者荣耀英雄进行划分

今天我带你一起做了 EM 聚类的实战，具体使用的是 GMM 高斯混合模型。从整个流程中可以看出，我们需要经过数据加载、数据探索、数据可视化、特征选择、GMM 聚类和结果分析等环节。聚类和分类不一样，聚类是无监督的学习方式，也就是我们没有实际的结果可以进行比对，所以聚类的结果评估不像分类准确率一样直观，那么有没有聚类结果的评估方式呢？指标分数越高，代表聚类效果越好，也就是相同类中的差异性小，不同类之间的差异性大。

2023-10-02 13:34:08 2923 5

原创 EM聚类（上）：数据分析 | 数据挖掘 | 十大算法之一

EM 算法相当于一个框架，你可以采用不同的模型来进行聚类，比如 GMM（高斯混合模型），或者 HMM（隐马尔科夫模型）来进行聚类。GMM 是通过概率密度来进行聚类，聚成的类符合高斯分布（正态分布）。而 HMM 用到了马尔可夫过程，在这个过程中，我们通过状态转移矩阵来计算状态转移的概率。HMM 在自然语言处理和语音识别领域中有广泛的应用。在 EM 这个框架中，E 步骤相当于是通过初始化的参数来估计隐含变量。M 步骤就是通过隐含变量反推来优化参数。最后通过 EM 步骤的迭代得到模型参数。。

2023-10-02 13:21:06 1670

原创 K-Means（下）：数据分析 | 数据挖掘 | 十大算法之一

K-Means（下）：数据分析 | 数据挖掘 | 十大算法之一

2023-10-01 21:36:00 243

原创 K-Means（上）：数据分析 | 数据挖掘 | 十大算法之一

K-Means（上）：数据分析 | 数据挖掘 | 十大算法之一

2023-10-01 21:23:58 1514 2

原创 KNN（下）：数据分析 | 数据挖掘 | 十大算法之一

KNN（下）：数据分析 | 数据挖掘 | 十大算法之一

2023-09-29 20:12:21 1634 1

原创 KNN（上）：数据分析 | 数据挖掘 | 十大算法之一

KNN（上）：数据分析 | 数据挖掘 | 十大算法之一

2023-09-29 19:48:46 1141 1

原创 SVM（下）：如何进行乳腺癌检测？

SVM（下）：如何进行乳腺癌检测？

2023-09-28 15:44:58 818 1

原创 SVM（上）：如何用一根棍子将蓝红两色球分开？

SVM（上）：如何用一根棍子将蓝红两色球分开？

2023-09-28 15:32:02 990 2

原创 Python通过腾讯企业邮件自动发送邮件

Python通过腾讯企业邮件自动发送邮件

2023-09-27 18:18:54 286

原创朴素贝叶斯分类（下）：数据挖掘十大算法之一

朴素贝叶斯分类（下）：如何对文档进行分类

2023-09-27 18:09:47 555 1

原创朴素贝叶斯分类（上）：数据挖掘十大算法之一

学会朴素贝叶斯分类，让机器帮你判断男女

2023-09-25 07:30:00 78 1

原创决策树（下）：泰坦尼克号乘客的生存预测（完整代码）

决策树（下）：泰坦尼克号乘客的生存预测（完整代码）

2023-09-20 10:41:16 96 1

原创决策树（中）：数据挖掘十大算法之一

决策树（中）：数据挖掘十大算法之一

2023-09-20 10:11:46 672 1

原创决策树（上）：数据挖掘十大算法之一

决策树（上）：数据挖掘十大算法之一

2023-09-20 07:15:00 97 1

原创超详细！一次学会Python数据可视化的10种技能

超详细！一次学会Python数据可视化的10种技能

2023-09-18 12:49:24 102 1

原创 Python爬虫：汽车之家爬虫（完整代码）

Python爬虫：汽车之家爬虫（完整代码）

2023-09-15 16:47:02 4528 6

原创数据可视化：掌握数据领域的万金油技能

数据可视化：掌握数据领域的万金油技能

2023-09-15 15:48:20 64 1

原创数据变换：数据挖掘的准备工作之一

数据挖掘中数据变换比算法选择更重要

2023-09-15 11:43:20 759 1

原创数据集成：数据挖掘的准备工作之一

数据集成：数据挖掘的准备工作之一

2023-09-15 10:56:45 2336 1

原创数据清洗：数据挖掘的前期准备工作

数据科学家80%时间都花费在了这些清洗任务上？

2023-09-14 18:19:39 1946 1

原创 Python爬虫：如何下载懂车帝的电动车数据（完整代码）

Python爬虫：如何下载某车帝的电动车数据（完整代码）

2023-09-13 18:17:58 1722 2

原创数据采集：数据挖掘的基础

数据采集：数据挖掘的基础

2023-09-13 17:05:34 1777 1

原创用户画像的设计准则以及美团外卖用户画像的设计案例

详细讲述用户画像的相关知识，并提供经典实例：美团外卖的用户画像的设计

2023-09-11 17:38:13 397

数据可视化实战：如何给毛*易的歌曲做词云展示？歌词的数据集

数据可视化实战：如何给毛*易的歌曲做词云展示？歌词的数据集比如一些互联网公司会抓取用户的画像，或者每日讨论话题的关键词，形成词云并进行展示。再或者，假如你喜欢某个歌手，想了解这个歌手创作的歌曲中经常用到哪些词语，词云就是个很好的工具。最后，只需要将词云生成一张图片就可以直观地看到结果。 1、掌握词云分析工具，并进行可视化呈现； 2、掌握 Python 爬虫，对网页的数据进行爬取； 3、掌握 XPath 工具，分析提取想要的元素。

2023-10-09

java初始者尝试写应用类

java初始者尝试写应用类涉及java的方法、类使用以及变量的定义等等

2023-10-08

数据分析中PageRank算法使用的数据集：某个大人物的邮件中人物关系数据

数据分析中PageRank算法使用的数据集：某个大人物的邮件中人物关系数据详细的算法原理、案例和代码请看文章：《PageRank（上）：数据分析 | 数据挖掘 | 十大算法之一》https://blog.csdn.net/weixin_42108731/article/details/133610743

2023-10-07

kmeans数据集：20 支亚洲球队的聚类问题

2023-10-06

人工智能+数据分析的kmeans算法实践数据源：20 支亚洲球队的聚类问题

人工智能+数据分析的kmeans算法实践数据源：20 支亚洲球队的聚类问题具体分析原理+案例+代码可参考文章：《K-Means（上）：数据分析 | 数据挖掘 | 十大算法之一 https://blog.csdn.net/weixin_42108731/article/details/133469733

2023-10-06

Python直接插入排序算法

Python直接插入排序算法时间复杂度：O(n²) 空间复杂度：O(1) 稳定性：稳定

2023-09-15

Python爬虫：如何下载懂车帝的电动车数据（完整代码）

Python爬虫：如何下载懂车帝的电动车数据（完整代码）一、确定目标数据二、请求接口三、数据解析四、数据存储详情可看： https://blog.csdn.net/weixin_42108731/article/details/132860453

2023-09-13

数据分析教育培训机构的学生情况

2023-09-12

Django学生管理后台学生处理视图

2023-09-12

python+ocr识别图形验证码

2023-09-11

算法：移动石子直到连续 II

在一个长度无限的数轴上，第 i 颗石子的位置为 stones[i]。如果一颗石子的位置最小/最大，那么该石子被称作端点石子。每个回合，你可以将一颗端点石子拿起并移动到一个未占用的位置，使得该石子不再是一颗端点石子。值得注意的是，如果石子像 stones = [1,2,5] 这样，你将无法移动位于位置 5 的端点石子，因为无论将它移动到任何位置（例如 0 或 3），该石子都仍然会是端点石子。当你无法进行任何移动时，即，这些石子的位置连续时，游戏结束。要使游戏结束，你可以执行的最小和最大移动次数分别是多少？以长度为 2 的数组形式返回答案：answer = [minimum_moves, maximum_moves] 。

2023-09-10

算法题：求最大平均通过率，java答案

一所学校里有一些班级，每个班级里有一些学生，现在每个班都会进行一场期末考试。给你一个二维数组 classes ，其中 classes[i] = [passi, totali] ，表示你提前知道了第 i 个班级总共有 totali 个学生，其中只有 passi 个学生可以通过考试。给你一个整数 extraStudents ，表示额外有 extraStudents 个聪明的学生，他们一定能通过任何班级的期末考。你需要给这 extraStudents 个学生每人都安排一个班级，使得所有班级的平均通过率最大。一个班级的通过率等于这个班级通过考试的学生人数除以这个班级的总人数。平均通过率是所有班级的通过率之和除以班级数目。请你返回在安排这 extraStudents 个学生去对应班级后的最大平均通过率。与标准答案误差范围在 10-5 以内的结果都会视为正确结果。

2023-09-10

python的bool类，其中就包括了bool类的创建方式

2023-09-08

python四种数组模式的创建和相互转换

python数组四种表达方式，包含列表、元组、字典、集合代码展示了列表、元组、字典、集合等四种对应的创建方式，以及相互之间的转换形式。

2023-09-08

python数组四种表达方式，包含列表、元组、字典、集合

python数组四种表达方式，包含列表、元组、字典、集合代码展示了列表、元组、字典、集合等四种对应的创建方式

2023-09-08

python数组，包含列表、元组、字典、集合

python数组，包含列表、元组、字典、集合，本代码分别介绍了这四种数组的创建方式和输出结果

2023-09-08

python将列表list转数组tuple并输出

python将列表list转数组tuple并输出，采用了内置函数split()将字符串分割成列表list1，再通过函数tuple(list1)将列表转成元组

2023-09-08

python将字符串转数组并输出

python将字符串转数组并输出，采用了内置函数split()将字符串分割成列表list1，再通过函数tuple(list1)将列表转成元组

2023-09-08

决策树莺尾花的项目代码

决策树莺尾花的项目代码某研究随机抽取了生长在某地的鸢尾花的资料，这些鸢尾花共有三个种类：山鸢尾（Iris-setosa）变色鸢尾（Iris-versicolor）和维吉尼亚鸢尾（Iris-virginica）：获取了一份如图的数据集（数据在 data.txt 中）其中每行按顺序记录了鸢尾花的四个属性：花萼长度，花萼宽度，花瓣长度，花瓣宽度。数值为-1的代表缺失值。要求：对数据进行预处理，并自选两种分类方法（包括决策树、贝叶斯分类方法、BP神经网络和SVM），判断下面的鸢尾花属于什么种类，并比较两种分类方法的结果。（请在方法概述部分说明你选择的两种方法，并简述选择的理由） X1：6.4, 2.7, 5.3, 1.8 X2：4.5, 2.3, 1.3, 0.3 X3：5.5, 2.6, 4.4, 1.2 X4：5.1, 2.5, 3.0, 1.1 X5：6.7, 3.0, 5.0, 1.7 注：BP神经网络和SVM允许使用库完成，但必须写明所使用的库，以及在实验报告中用流程图、公式和文字描述算法。使用SVM必须说明对三个类别进行分类的思想。

2023-09-08

TA关注的人

数据可视化实战：如何给毛*易的歌曲做词云展示？歌词的数据集

java初始者尝试写应用类

数据分析中PageRank算法使用的数据集：某个大人物的邮件中人物关系数据

kmeans数据集：20 支亚洲球队的聚类问题

人工智能+数据分析的kmeans算法实践数据源：20 支亚洲球队的聚类问题

Python直接插入排序算法

Python爬虫：如何下载懂车帝的电动车数据（完整代码）

数据分析教育培训机构的学生情况

Django学生管理后台学生处理视图

python+ocr识别图形验证码

算法：移动石子直到连续 II

算法题：求最大平均通过率，java答案

python的bool类，其中就包括了bool类的创建方式

python四种数组模式的创建和相互转换

python数组四种表达方式，包含列表、元组、字典、集合

python数组，包含列表、元组、字典、集合

python将列表list转数组tuple并输出

python将字符串转数组并输出

决策树莺尾花的项目代码

svm支持向量机python代码

ChatGPT 对接到微信公众号

通过百度识图自动识别抖音小姐姐并点赞

基于 Flask 的后台管理系统

Python将txt文件转成pdf文件

小红书笔记数据爬虫代码

【数据分析机器学习专用】史上最全1999年至2019年全球地震数据

【JS逆向分享】某个网站社区信息，完整代码包含js文件

全国各省市行政区坐标（包含边界坐标点和中心坐标点）

英雄联盟LOL英雄图片和皮肤图片爬虫代码

Car_comment.py.zip

怎样快速增加粉丝，有什么窍门吗？

明明安装了bs4模块，总是报错：ModuleNotFoundError: No module named 'bs4'

MD5算法的解密方法