zou_gr-CSDN博客

原创利用格式化超简便地对个位数更改为两位数格式

方法：可以使用格式化的便利进行设置，如下。

2023-04-19 14:23:43 234

原创 Positive directional derivative for linesearch的四种解决方案

在使用spicy的minimize对规划问题进行求解时，如果未能成功求解问题的最优值，并且出现了Positive directional derivative for linesearch，那么可以尝试以下的四种方案，希望可以帮助到你。

2023-04-02 23:05:20 1402

原创 Anaconda3过往版本的下载网站和对应关系、稳定版本

Anaconda3过往版本的下载网站和对应关系、稳定版本

2022-07-22 17:14:01 5130

原创 pandas的dataframe批量保存到Oracle数据库

python的pandas的dataframe批量保存到Oracle数据库

2022-07-21 14:32:19 2238

多少人渴望在股市里实现财富自由，多少人又在股市折了腰。来来往往，不变的是人性。如果股票的涨你就会开心，股票的跌你就会郁闷。那可能这个玩法不太适合这类人。分享一个我一直使用的策略，不能算是量化交易，但是算是半量化。按照自己的策略编写代码，筛选掉不符合策略的股票，那可能会省事一点。当然这个策略得靠谱、正确，然后重复做。我也不知道是不是正确的，我也在探索，所以就分享我最新使用的这个策略，希望可以和大神们一起讨论。

2022-03-06 23:33:34 140

原创 python超简便实现讲指定文件或者所有文件复制到指定文件夹

前言在项目上想要实现程序复制指定文件到指定文件夹的功能，在网上找的都有点太过复杂了，对于想要实现该功能的读者来说，不够清晰和做起来不够快，因此写下这个文章做个记录。目的想要将指定名字的jpg格式的图片复制到另外的文件夹下。步骤第一步:无论是实现指定的文件复制还是所有，都需要获取到文件名，获取文件名可以通过python的glob库，非常方便。paths = glob.glob(r'D:\example\*.jpg')如上述代码，便可以获得在example的文件夹下的所有以.jpg结尾的文件，

2021-07-08 17:43:21 4299

原创集成学习（下）实战案例二——蒸汽量预测

背景介绍火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。我们如何使用以上的信息，根据锅炉的工况，预测产生的蒸汽量，来为我国的工业届的产量预测贡献自己的一份力量呢？所以，该案例是使用以上工业

2021-05-23 18:37:49 589 1

原创集成学习（下）实战案例一——幸福感预测

背景介绍幸福感是一个古老而深刻的话题，是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异，大如国计民生，小如路边烤红薯，都会对幸福感产生影响。这些错综复杂的因素中，我们能找到其中的共性，一窥幸福感的要义吗？另外，在社会科学领域，幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣；同时与大家生活息息相关，每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性，生活中是不是将多一些乐趣；如果能找到影响幸福感的政策因素，便能优化资源配置来提升国民的幸福感

2021-05-18 23:07:45 606 1

原创集成学习（下）Stacking集成学习方法原理与实战

导言上次我们介绍了Blending算法的优缺点，而Stack算法的出现就是解决了Blending的缺点并进行改进。原理简单来说，Stacking就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。我们举个例子来具体感受Stacking处理问题的细节。（1）将所有数据集生成测试集和训练集（假如训练集为10000条,测试集为2500条），那么第一层会进行5折交叉验证（折数可以自己定），使用训练集中的8000条作为训练集，剩余2000行作为验证集。（

2021-05-13 10:48:04 1249 3

原创集成学习（下） Blending集成学习算法原理和实战

导言Blending被称为简化版的Stacking，是属于集大成类的算法之一。我们通过原理和简单实战了解Blending是在做什么？原理学习方式(1) 将数据划分为大训练集和测试集，其中大训练集需要再次划分为小训练集和验证集（划分的比例取决于自己）；(2) 创建第一层的多个模型，这些模型可以使同质的也可以是异质的；（模型的选择可以说是监督学习的任何模型都可以接受）(3) 使用大训练集训练步骤2中的多个模型，然后用训练好的模型预测验证集和测试集得到val_predict, test_predict

2021-05-11 22:07:25 786 1

原创集成学习（中）——基于Boosting方式的集成方法简单原理及代码实战（上）

Boosting概述怎么理解Boosting？我觉得我们可以从回答问题出发，解决这个问题。第一个是每一轮学习应该如何改变数据的概率分布？第二个是如何将各个弱分类器组合起来如Adaptive Boosting（Adaboost）和 Gradient Boosting（GBDT）及其变体Xgboost、LightGBM以及Catboost都是在采用不同的方法去解答这个问题。同时也声明本文不做详细的数学原理推导AdaboostAdaboost可谓是Boosting最经典的算法，对于Adaboos

2021-04-18 07:16:22 450

原创集成学习（中）——投票法和bagging及代码实现

投票法讲bagging前就应该先谈到投票法，投票法是一种遵循少数服从多数原则的集成学习模型，通过多个模型的集成降低方差，从而提高模型的鲁棒性。举个例子，在预测泰坦尼克号的生死问题上，综合了logistics、Knn和决策树三个模型的预测结果，再决定出label的叫做投票。那么怎么综合这三个模型的预测结果便是关键问题了，第一种，直接使用预测的结果，如果三个模型中，一个预测死，两个预测生，那么便是生，这就是投票法的硬投票，第二种，使用模型预测的概率，可以做平均，也可以出现第四个模型讲三个模型的概率作为输入，再

2021-04-13 23:46:25 2642 2

原创 tensoeflow2 自定义训练CNN mnist

tf2的自定义训练简单来说，什么是自定义训练？我们使用过tensoeflow2都知道直接model.compile进行编译后，model.fit就可以直接进行训练。这样确实很方便，但是其实在某种程度限制了自身的灵活性。下面本文便以Mnist数据集为例，完成自定义项目的流程。项目流程第一步，读入数据，将数据维度转换标准格式(train_images, train_labels), (test_images, test_labels) = keras.datasets.mnist.load_data()

2021-04-08 16:22:17 282 3

原创 tensorflow2中损失函数四个交叉熵函数的异同点

交叉熵我们常用于分类问题的损失函数，具体的数学我们就不展开讲，这篇文章主要就是介绍在tensorflow2中，四个损失函数用起来有什么区别？四个交叉熵函数tf.keras.losses.BinaryCrossentropy()tf.keras.losses.binary_crossentropytf.keras.losses.categorical_crossentropytf.keras.losses.CategoricalCrossentropy首先我们从函数名就可以知道 BinaryCr

2021-03-29 15:32:00 318

原创 Cannot convert 1e-07 to EagerTensor of dtype int64报错解决方案

其实这个错误还是比较明显的，就是数据类型的问题，包括类似如此的报错都是这个问题，但是在深度学习项目里确搞得人半死，一直都发现不了哪里得数据类型不行。我们来看个例子：ls = tf.keras.losses.BinaryCrossentropy()ls([0,0,1,1], [1,1,1,1])如上的代码就是报错的，因为BinaryCrossentropy这个函数不接受整数的数据类型。把他修改为浮点数就不会报错了。ls([0.,0.,1.,1.], [1.,1.,1.,1.])...

2021-03-23 12:03:06 3304 3

原创集成学习（上）三之优化模型基础

背景在前面我们已经基本了解了机器学习项目的选择模型大致流程，

2021-03-21 23:33:09 313

原创超级详细证明感知机收敛性（Novikoff定理）

前提此文章是根据李航的《统计学习方法2》进行详解的，需要了解感知机的基本原理才能看懂下面的公式推导。感知机收敛性（Novikoff定理）

2021-03-20 12:11:50 1161 3

原创集成学习（上）二之构建完整的机器学习项

背景本章通过简单的实例来完成正常情况下我们需要完成一个机器学习项目需要进行哪些步骤。一般情况下，一个完整的机器学习项目分为以下步骤：获取数据集数据清洗特征工程（简单来说就是选择合适的特征）选择模型训练选择度量模型性能的指标并评估模型模型调参优化。在这些步骤中，我们大部分的时间都是在花在数据清洗上，但是本章的目的是为了了解机器学习的步骤，所以采用了干净的数据集——波士顿房价。构建流程由上一篇文章，我们已经知道波士顿房价的预测问题是回归问题，因此我们此次选择线性模型进行拟合。获取数据

2021-03-18 10:14:56 141 12

原创 Python 字符串大小写转换、全部转换成大写或小写等

把所有字符中的小写字母转换成大写字母str_ = “You are the best!”print(str_.upper())把所有字符中的大写字母转换成小写字母print(str_.lower())把第一个字母转化为大写字母，其余小写print(str_.capitalize())把每个单词的第一个字母转化为大写，其余小写print(str_.title())把所有字符的大小写互换print(str_.swapcase())依次打印的结果如下...

2021-03-15 15:37:18 16603

原创集成学习（上）之机器学习基础

背景关注datawhale这个团队挺久的了，最近参加了他组织的一个线上组队学习，第二十三期组队学习_集成学习（上），需要写点东西进行打卡，所以就在csdn进行简单的总结和回顾了。导论讲到机器学习最基础的东西，那肯定得问什么是机器学习？其实机器学习包括的东西太多了，我的理解其实就是机器学习就是像人学习一样，告诉一个人这个动物是狗，等见过很多狗的时候，下一次问他这是什么动物，他就可以答出这是狗，机器也是同样，我们给点数据他训练，然后机器就可以学习到我们想要的东西。这是我们白话上简单的理解机器学习，像数学

2021-03-15 12:54:07 174

原创 python并行实战——多线程

一、前言当爬取很多页的内容时候，爬取的单线程显得尤其慢，所以就在并行中，就可以使用多线程进行爬虫，可以大大提高效率。当然python的底层编码是不适合做多线程，因为存在GIL锁（想要了解这个网上也很多资料），但是对于发出请求多的并行任务，python的多线程还是优于多进程并行的（多进程并行主要应用于计算量大且复杂的场景）。所以今天我们就来使用两种方式对某个小说网站进行爬取《抗日之肥胆英雄》的章节。该小说网址是https://www.biquge.lol/book/9370/3118042.html。二、

2020-12-30 13:48:31 1340

原创 ls: Call From zougaunru-VirtualBox/127.0.1.1 to localhost:9000 failed on connection exception: java.

使用ubuntu出现的错误，百度一下看了看好像还挺麻烦的，后面自己才反应过来是自己的hadoop没有启动，所以写下这个简单的解答，需要需要的人快速解决问题。

2020-12-30 13:47:26 889

原创 python网络爬虫实战——利用逆向工程爬取动态网页

前言之前写过介绍过网络爬虫的文章，都是一些基础知识，所以打算再写几期实战

2020-12-04 16:08:20 1704

原创完美解决python dataframe多重索引的多个问题

有时由于数据需求，需要将数据做成二重index，但是对于二重索引和正常一重索引区别很大，下面就讲讲，关于多重索引的多个问题：

2020-10-20 00:47:09 9012

原创 python字典按位置索引或 ‘dict_values‘ object does not support indexing

python字典是无法按照位置索引的，只有寻找键对。a = {'0.jpg': 'cloudy', '1.jpg': 'cloudy', '2.jpg': 'cloudy', '3.jpg': 'sunny', '4.jpg': 'cloudy','5.jpg': 'cloudy', '6.jpg': 'cloudy', '7.jpg': 'cloudy', '8.jpg': 'sunny', '9.jpg': 'cloudy', '10.jpg': 'cloudy'} #创建一个字典type(a

2020-09-20 13:42:01 4249

原创 python网络爬虫（五）

前言这是学习爬虫文章的最后一篇，但不代表爬虫的知识就大概学习完了，只能说有基本的爬虫常识，严格意义爬虫技术本就不是简单的玩意，它关系到了计算机网络、编程基础、前端开发、后端开发、App 开发与逆向、网络安全、数据库、运维、机器学习、数据分析等各个方向的内容，它像一张大网一样把现在一些主流的技术栈都连接在了一起。这个章节我们来做个简单的实例，再好好的总结我们现在掌握的简单爬虫技术再实际应用中到底会面临什么问题？在酷狗音乐网页版下爬取eason的歌曲名和专辑我们大体的思路就是首先直接在网页版搜索“陈奕迅

2020-07-16 17:30:37 244

原创 python网络爬虫学习（四）

引言这个章节主要讲模拟登陆，因为在有些网站中，登录网页的表单数据如用户名、密码、验证码等的真实提交地址，它不一定是登录网页的地址，出于安全需要它可能会被设计成其他地址。所以我们有时就需要模拟登录网页才能使用编程控制。下面我们以模拟登录"http://www.tipdm.org"使用表单登录方法实现模拟登录打开网站，单击右上角登录链接，进入登录网页，如图所示：打开Chrome开发者工具后打开网络面板，勾选Preserve log（保持日志）。按"F5”键刷新网页显示各项资源，如图所示：在登录网页

2020-07-16 10:22:53 526 1

原创 python语言网络爬虫学习（三）

回顾前面我们学习了如何爬取一个静态网页和数据存储，那么这章我们就学如何爬取动态网页？区分动态与静态的区别在前面我们需要爬取的网址的源码，会出现我们要爬取的内容，这就是静态，但是，相反地，并不会出现我们想要爬取的内容的网站就是属于动态网页。那么我们会想这两个网页优缺点在哪，动态网页的优点有：以数据库为根基，工作量少；能够完成许多功效；内容更新快等等。而静态网页的好处是速度快，可以跨平台，跨服务器。逆向分析爬取动态网页所为逆向，就是把一个积木搭好，又参照原来搭好的途径拆开。想要利用这方法就得知道动态网

2020-07-13 10:36:53 441

原创 python语言网络爬虫学习（二）

内容简介这一章节主要写如何将python爬取的内容存储在json文件和mysql数据库。

2020-07-10 17:37:28 191

原创解决(pymysql.err.InternalError) (1049, “Unknown database ‘test‘“)报错问题

将dataframe写进mysql数据库报错这是我的dataframe：通过以下方式进行将我的dataframe写进数据库：from sqlalchemy import create_enginecon = create_engine('mysql+pymysql://root:123@localhost/test?charset=utf8')import pandas as pdpd.DataFrame({'names': names, 'href': href}).to_sql('tem

2020-07-10 17:35:14 10282 5

原创 python语言网络爬虫学习（一）

背景暑假的钟声已敲响了一个星期有余了，这个星期也是有意放松一下自己，这段时间也在忙着各种各样的事情，都还是挺轻松的，那接下来的时间也要安排自己的学习计划了。学习网络爬虫的初衷是因为自己想爬取一下景点、酒店、饭店的评论信息，分析景点、酒店、饭店的口碑，接下来就是开启我的网络爬虫之旅。爬虫简介我是通过泰迪科技的网络爬虫教学视频进行学习的，个人觉得讲得知识点还是比较清晰的，但是内容质量如何，我也还不知道，但是在后续学别的爬虫课程我会继续将爬虫知识补充完整的。网络爬虫就像一只蜘蛛一样在互联网上沿着URL的丝

2020-07-09 10:50:30 752

原创 logistics回归原理推导+纯代码实现泰坦尼克号预测

前言刚开始接触机器学习的时候，了解比较多的还是回归问题，但其实实际生活中，更多的是分类问题，例如人脸识别、目标识别、过滤垃圾邮件等等。而logistics可以说是最简单的分类算法。sigmoid函数sigmoid函数又称logistics函数，如图呈现s形，**sigmoid可以将线性回归函数值映射到区间 ( 0,1 ) ** ，作为概率输出，大于或等于0.5判为正类，小于0.5判为父类。那么又有疑问了？那是不是logistics只能做二分类呢？那肯定不是啦，只要能做二分类，那肯定就能做多分类，因为我

2020-06-27 15:29:00 620

空空如也

空空如也