自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

aaakirito的博客

在你生命的最初30年中,你养成习惯,在你生命的最后30年中,你的习惯决定了你.

  • 博客(184)
  • 资源 (2)
  • 问答 (3)
  • 收藏
  • 关注

原创 万里学院ACM宣传片

万里学院ACM宣传片,毕业之作,以纪念曾经参加acm竞赛的美好时光,也希望学校acm之路越来越好。https://www.bilibili.com/video/av52290775未来,加油!

2019-05-13 15:13:49 752

原创 趋势预测方法(八)Light GBM_决策树

Light GBMa基本原理:基本原理同XGBoost、GBDT决策树相同,属于在XGBoost的基础上的再一次的提升。在精度上和GBDT、XGBoost一致或更优的情况下,效率上大幅领先于XGBoost和GBDT。用多个回归树将来拟合训练集,拟合好的模型需要做到多个回归树的结果之和训练集的结果一致,将该模型保存起来,之后只需要将要预测的数据再过一遍模型,即可得到预测数据结果。b算法原理:对比GBDT和XGBoost来说,不需要通过所有样本计算信息增益了,而且内置特征降维技术,所以更快。

2021-05-24 16:12:43 1663 1

原创 趋势预测方法(七)XGBoost_决策树

XGBoosta基本原理:XGBoost算法预测时序数据的原理和GBDT算法原理类似,这里大致再提一下。用多个回归树将来拟合训练集,拟合好的模型需要做到多个回归树的结果之和训练集的结果一致,将该模型保存起来,之后只需要将要预测的数据再过一遍模型,即可得到预测数据结果。b算法原理:XGBoost(由陈天奇大佬开发,可以理解为X (Extreme) GBoosted)算法可以看作是GBDT算法的plus版本,本质上还是一个GBDT。XGBoost与GBDT的区别主要还是目标函数的不同,.

2021-05-24 16:06:32 1660 8

原创 趋势预测方法(六)梯度下降树GBDT_决策树

梯度下降树GBDTa基本原理:利用梯度下降(提升)树GBDT算法拟合出最优的决策树,将拟合好的决策树保存下来。若出现需要预测的数据,只要将数据过一遍决策树,就可以获得预测的数值结果。在下文我会写梯度下讲树的工作原理。b算法原理:回归树GBDT梯度下降树GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。如存在一个真实值为20(真实值在test中并不会给出,这里只是便于理解),第一个树得到的预测值是12,那就目前来看真实值和

2021-05-24 15:58:55 2630

原创 趋势预测方法(五)Holt-Winters模型_时序递推预测

Holt-Winters模型a基本原理:该方法有点类似于SMA(移动平均)的思路,是对SMA的优化。主要因为SMA的参数数量过多时,计算时间慢,且计算复杂。Holt-Winters利用三次指数平滑法,将历史时序数据输入三个递推序列,再由三个序列的递推值来推算出预测数据的值。该模型的目的是训练出三次指数平滑法三个因数的最有效的取值,之后就可以继续预测了。该方法可以有效的预测有线性趋势和周期波动的非平稳序列。b模型原理:简单指数平滑:二次指数平滑:三次指数平滑:在二次指数

2021-05-24 15:49:25 10121 8

原创 趋势预测方法(四)高斯过程回归_时序概率性预测

高斯过程回归(GPR)a基本原理:利用高斯过程回归将可能的数据趋势曲线都保存下来(每条趋势曲线都有自己的置信度,在区间内呈高斯分布),最后在一张图中显示出来,再判断总体的趋势情况。b算法原理:高斯过程GP高斯过程回归GPR核函数Kernel支持向量机(SVM)通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积.

2021-05-21 15:32:10 7605 1

原创 趋势预测方法(三)ARMA ARIMA SARIMA模型预测_时序递推预测

ARMA/ARIMA/SARIMA模型预测a基本原理:这三种模型都是用来预测时序性数据。其中ARIMA和SARIMA是由ARMA模型演变过来的,而ARMA是由AR模型(自回归模型)和MA模型(移动平均模型)组合出来的(AR模型和MA模型会在下文讲解)。假设有一个时间节点t。AR做的事是利用t之前的随机变量来预测t之后随机变量;MA做的事是利用t之前(包括t)的随机误差项和滞后误差项,来形成一个误差项模型。AR模型可以理解成ARMA模型的一种特殊的形式,相对而言ARMA功能更强大。A.

2021-05-17 18:11:34 8647

原创 趋势预测方法(二)其他函数拟合_函数拟合

其它函数拟合a基本原理:给出公式的大致情况,自动去拟合出最优的参数。这里的其它指的是除多项式以外的拟合情况,包括三角函数、对数,以及一些复杂的复合函数。b拟合原理:总体思路类似于最小二乘法的拟合思路的,只是要给出函数的大致情况,类似于多项式中的几次多项式拟合。c方法优缺点:优点: 思想简单,实现容易。建模迅速,对于小数据量、简单的关系很有效。 解决回归问题,拥有很好的解释性。 是很多非线性模型的基础。 缺点: 对于非线性数据或者数据特征..

2021-05-17 17:55:20 1776 4

原创 趋势预测方法(一) 多项式拟合(最小二乘法)_函数拟合

多项式拟合(最小二乘法)a基本原理:b拟合函数原理:c方法优缺点:优点: 思想简单,实现容易。建模迅速,对于小数据量、简单的关系很有效。 解决回归问题,拥有很好的解释性。 是很多非线性模型的基础。 缺点: 对于非线性数据或者数据特征间具有相关性多项式回归难以建模。 当样本特征n非常大的时候会变的很耗时,难以很好的表达复杂的数据。 需要做预测的话需要数据大致满足多项式函数。 d算法入口:该方法主要用到的函数是n..

2021-05-17 17:49:53 11375

原创 趋势检验方法(四)ADF稳定性检验

ADF稳定性检验a基本原理:使用ADF来检验时序数据中是否存在单位根,若存在单位根,则不稳定,否则稳定。为什么存在单位根不稳定?这个问题的答案可以参考知乎《为什么序列存在单位根是非平稳时间序列?》,解释起来有点复杂。大致来说就是平稳的定义是一阶二阶矩阵不随时间的改变而改变,而存在单位根则代表二阶矩阵随时间的改变而改变。b单位根检验:单位根是什么?单位根如何检验?假设H0为存在单位根,Ha为不存在单位根。如果得到的显著性检验统计量小于三个置信度(10%,..

2021-05-11 13:55:42 4752

原创 趋势检验方法(三)Cox-stuart趋势检验

Cox-stuart趋势检验a基本原理:Cox-Stuart是一种不依赖趋势结构的快速判断趋势是否存在的方法。该方法的理论基础是符号检验。先假设H0和Ha(共三组),然后间隔一个时间c,生成c对差值的符号,然后分别计算符号为正和符号为负的数量,最后再对三组假设进行检验统计量计算,再判断假设是否成立。b Cox-stuart算法理论:c方法优缺点:优点:不依赖趋势结构,可以快速判断出趋势是否存在。缺点:未考虑数据的时序性,仅仅只能通过符号检验来判断。d算法入口:目.

2021-05-11 11:21:12 10783

原创 趋势检验方法(二)MK趋势检验

MK(Mann-Kendall)检验a基本原理:使用MK算法检验时序数据大致趋势,趋势分为无明显趋势(稳定)、趋势上升、趋势下降。MK检验的基础:当没有趋势时,随时间获得的数据是独立同分布的,数据随着时间不是连续相关的。 所获得的时间序列上的数据代表了采样时的真实条件,样本要具有代表性。 MK检验不要求数据是正态分布,也不要求变化趋势是线性的。 如果有缺失值或者值低于一个或多个检测限制,是可以计算MK检测的,但检测性 能会受到不利影响。 独立性假设要求样本之间的时间足够大,这样在不同

2021-05-10 16:47:03 72874 24

原创 趋势检验方法(一)直线方程拟合

直线方程拟合a基本原理:设一条直线为y=kx+b,使用最小二乘法()来拟合出最优的k(斜率)。 设定一个阈值k0(k0>0),若|k|>k0则认为趋势有明显变化。当k>k0时,则认为 有上升的趋势;当k<-k0时,则认为有下降的趋势。 |k|<=k0时可以视情况考虑是否要进行趋势稳定性检测。b拟合函数原理:假设需要拟合的函数为y=kx+b那么最小二乘法的本质是要使每一个点到y=kx+b的垂直距离平方和最小,从而算出k和b具体实现步骤:c方.

2021-05-10 16:37:04 6762 1

原创 python进阶爬虫class 2(缓存)

下载缓存通过缓存已经下载好了的url网页,来检查是否有重复下载的情况将网页信息保存在本地磁盘上时,要注意不同操作系统的文件系统的合法字符和最大长度,以确保做到兼容,同时要注意替换后是否会产生同名现象。默认保存的网页名称为路径后的文件名,也可以使用哈希值来保存网页路径。但是也存在着文件名为空的可能性,那么文件名为空的文件默认为index可以同过 urllib.parse 里的 urlsplit(url)方法来实现对url的解析对下载的html网页进行压缩在二进制写文件下:.

2020-05-20 09:11:22 153

原创 python进阶爬虫class 2(Lxml)

lxmllxml.html.fromstring(str)将str转为lxml.html.HtmlElement类型的对象lxml.html.tostring(lxml.html.HtmlElement, pretty_print)将lxml.html.HtmlElement转化为str类型lxml使用css选择器tree.cssselect(css)css为选择器中的模式语句,如同re里头的compile此函数返回所有匹配的内容,以list形式存放的是lx...

2020-05-13 08:54:45 306

原创 python数据分析基础class 4(IPython的使用(2))

Ipython是一个加强版的python解释器Ipython中大多数Python对象被格式化为更可读、更美观的形式Ipython的补全功能使用<tab>键可以产生补全的效果,默认下不产生以下划线为开头的补全Ipython的内省功能在对象后面加?可以显示对象的具体信息在函数后面加?可以显示函数内部的字符串信息在函数后面加??可以显示函数的源代码...

2020-05-06 10:14:44 215

原创 python数据分析基础class 3

2020-05-06 09:18:24 128

原创 python数据分析基础class 2(引力波的绘制)

引力波数据https://www.python123.io/dv/grawave.html# 引力波import numpy as npimport matplotlib.pyplot as pltfrom scipy.io import wavfilerate_h, hstrain = wavfile.re...

2020-05-06 09:08:19 460

原创 python进阶爬虫class 1(对基础爬虫的补充)

识别网站所用的技术builtwith库,不一定完美支持python3,且有时会获取不到信息使用builtwith.parse(url)来获取

2020-05-03 19:23:42 922 1

原创 python数据分析基础class 1(图像素描)

图像素描,这里使用一张冷鸟的微博图来做示范import numpy as npfrom PIL import Imagea = np.asarray(Image.open('yousa.jpg').convert('L')).astype(np.float)depth = 12 # (0-100)grad = np.gradient(...

2020-04-29 17:05:07 184

转载 双曲函数讲解

写的很牛的文章https://zhuanlan.zhihu.com/p/20042215https://blog.csdn.net/qq_41601836/article/details/104264922(同一篇,防止链接失效)

2020-04-18 21:56:10 551

原创 scrapy爬取股票信息

这里讨论的股票信息没有隐藏在js当中的方法首先利用终端/cmd生成项目scrapy startproject pythonstocks在进入项目cd pythstocks生成stcok爬虫scrapy genspider stockhq.gucheng.com这时spider里头生成了爬虫的启动文件stocks.py,编写stocks.py# -*- co...

2020-04-06 17:06:49 688

原创 requests爬取股票信息

这里讨论的股票信息没有隐藏在js当中的方法主要利用requests来get每个股票的text再交替利用re和bs4来解析text里的信息最后再按照当前的时间来保存股票的信息由于requests的爬取速度慢,可以选择关闭每个界面编码的识别(假设每个界面的编码相同),可以略微提升速度显示了完成的进度状况生成的数据大概在2M左右# 股域网 https://...

2020-04-06 16:49:19 719

原创 python爬虫基础class 4(scrapy爬取股价)

stock.py# -*- coding: utf-8 -*-import scrapyimport refrom scrapy.selector import Selectorclass StocksSpider(scrapy.Spider): name = 'stock' start_urls = ['https:...

2020-04-06 16:39:20 244

原创 python爬虫基础class 3(爬取京东商品姓名和爬取股票信息)

# 京东笔记本import requestsimport reimport bs4num = 0def getHtmlText(url): try: hd = {'user-agent': 'Mozilla/5.0'} r = requests.get(url, headers=hd, timeout=...

2020-04-06 16:29:36 500

原创 python爬虫基础class 2(中国大学排名)

import requestsimport bs4def getdata(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding retur...

2020-04-06 16:05:37 166

原创 python爬虫基础class 1(图片视频爬取)

图片###################图片import requestsimport osurl = 'https://www.apple.com/v/macbook-air/f/images/meta/og__wmayxefn276q.png'root = '/Users/yu/Documents/python3/crawler/'path...

2020-04-06 14:59:20 308

原创 python基础 class9

2020-03-18 19:52:50 75

原创 python基础 class8(体育竞技分析)

# 体育竞技分析问题import randomdef printIntro(): print('''这个程序模拟两个选手A和B的某种竞技比赛程序运行需要A和B的能力值(以0-1之间的小数表示)''')def getInputs(): a = eval(input('请输入选手A的能力值(0-1):')) b = eva...

2020-03-18 19:46:18 293

原创 python基础 class7(自动轨迹绘制、政府工作报告词云)

# coding=utf-8# 自动轨迹绘制# (行进距离,转向判断[0左:1右️],转向角度,[r,g,b]rgb三色道,画笔粗细)import turtle as turfp = open('轨迹.txt', 'r')fp.readline()tur.pendown()tur.setup(1000, 800, 200, 200)for line in f...

2020-03-18 17:28:50 270

原创 python基础 class6(基本统计值计算、文本词频统计)

# 不定长度输入def getNum(): nums = [] iNumStr = input('输入数字:') while iNumStr != '': # 空字符结束 nums.append(eval(iNumStr)) iNumStr = input('输入数字:') return n...

2020-03-18 17:17:25 146

原创 python基础 class5(七段数码管、科赫雪花)

# 七段数码管import turtleimport timedef drawline(draw): if draw: turtle.pendown() else: turtle.penup() turtle.fd(50) turtle.right(90)def drawdigit(number):...

2020-03-18 16:13:53 135

原创 样本方差、母体方差、样本标准差、母体标准差

方差和标准差是概率与统计学里经常用到的知识在网上看到不少关于方差的研究和讨论,所以这里整合一下方差和标准差的区别一般来说方差的公式是(σ^2)S^2=……而标准差则是将方差开根号S(σ)=……由于方差和标准差差一个根号,所以接下来我主要介绍样本方差和母体方差,样本标准差和母体标准差的区别可以依样画葫芦样本方差和母体方差的区别这里我先举一个例子简单的说明...

2020-03-09 15:06:36 20481 1

原创 python基础 class4(蒙特卡罗法算圆周率)

from random import randomfrom time import perf_counterDARTS = 10000 * 10000hits = 0.0start = perf_counter()for i in range(1, DARTS + 1): x, y = random(), random() dist=...

2020-03-02 16:52:58 162

原创 python基础 class3(动态进度条)

import timescale = 100print('执行开始'.center(scale, '-'))start = time.perf_counter()for i in range(scale + 1): a = '*' * i b = '.' * (scale - i) c = (i / scale) ...

2020-03-02 16:43:52 162

原创 python基础 class2 (绘画蟒蛇)

代码# 绘制蟒蛇from turtle import *setup(650, 350, 200, 200)# speed(1)penup()fd(-250)pendown()pensize(25)seth(-40)for i in range(4): circle(40, 80) circle(-40, 80)c...

2020-02-19 16:54:10 165

原创 python基础 class1 (温度转换问题)

温度转换代码1(官方)x = input("输入华氏度/摄氏度:")if x[-1] in ['f', 'F']: C = (eval(x[0:-1]) - 32) / 1.8 print("{:.2f}C".format(C))elif x[-1] in ['c', 'C']: F = eval(x[0:-1]) * 1.8 + 32 ...

2020-02-19 16:46:39 256

原创 Atcoder Blue and Red Balls

https://atcoder.jp/contests/abc132/tasks/abc132_dD - Blue and Red BallsTime Limit: 2 sec / Memory Limit: 1024 MBScore :400pointsProblem StatementThere areKblue balls andN−Kred balls. T...

2019-06-30 15:48:26 603

原创 2018ICPC北京赛总结

地点:北京大学时间:2018年11月11日结果:铜牌北京赛总体还是比较欢快的,飞机晚点了,到北京已经星期六凌晨了,去酒店洗洗就睡了。第一天热身赛没太大意思,做了一道题睡觉了,醒来之后发现队友已经分别做了一题排70左右,我们就提前离场了(题目是去年北京赛的题)。第二天我们总共做了3题,其中有两道是数学规律题,最后一道题目是在比赛结束两分钟之前a的,当时觉得很惊险,后来才知道不a那题也可以...

2018-12-28 17:03:33 426

原创 2018ICPC青岛赛总结

好久没有写博客了,自从上次北京赛结束以后因为各种各样的事情,忙,所以打算今天先补上青岛的比赛总结,过几天后再补上北京的总结。比赛时间:2018年11月4日比赛地点:中国石油大学(青岛)比赛结果:铜牌我们队伍很早就来到了青岛,因为我们队内奉行一句话,要想比赛打的好,那就先要把自己伺候好。我们10月31日晚上飞机到的青岛,住在了黄岛区。11月1日,我们去海边沙滩,还开着快艇在海上冲...

2018-12-26 15:35:15 542

Android 编程权威指南word版

Android 编程权威指南word版,有需要的可以下载一下,值得一看

2017-11-11

背包问题九讲2.0 beta1.2

背包问题九讲 崔添翼

2016-08-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除