自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

翻滚的老鼠屎

我有这双脚, 我有这双腿, 我有这千山和万水。

  • 博客(30)
  • 资源 (6)
  • 问答 (7)
  • 收藏
  • 关注

原创 图注意力模型GAT代码分析(Keras版)

本文分享一个对Keras版GAT源码的分析。GAT原文:https://arxiv.org/abs/1710.10903,建议参考着知乎superbrother大神的文章进行理解。TensorFlow版可以看:https://github.com/PetarV-/GAT源代码 github:https://github.com/danielegrattarola/keras-gat1 u...

2019-10-28 21:35:41 7475 13

原创 地铁大数据挖掘之数据预处理——从原始一卡通数据提取城市地铁客流(二)

关于初步处理,请参考地铁大数据挖掘之客流数据预处理——从原始一卡通数据提取城市地铁客流(一)。 上一篇博客对数据进行了初步处理,得到结果如下图: ”_10min“字段代表所处的时间片(比如1代表0:00-0:10),inputnums代表进站客流,outputnums代表出站客流。 然而,这一结果在使用时存在两个问题:我们在计算地铁站时,大部...

2019-10-18 16:04:16 4112

原创 地铁大数据挖掘之数据预处理——从原始一卡通数据提取城市地铁客流(一)

这是很久以前写的一段代码,很简单很基础。最近突然用到,这里把它分享出来,希望可以为有需要的朋友提供帮助。 以及欢迎阅读这一系列第二篇:地铁大数据挖掘之客流数据预处理——从原始一卡通数据提取城市地铁客流(二)1 解压文件 这里以上海城市开放大赛提供的数据为样例(提取码zlsy),需要的朋友可以进行下载。把数据进行解压后,看到是一个个压缩文件: 接下来,可以...

2019-10-18 15:37:05 12184 42

原创 百度2020校招笔试:求最小公倍数与最大公约数之差

题目描述:输入输出描述:示例:题目解析:(一)投机取巧版 感觉题目本意是想让答题者用代码找最小公倍数和最大公约数的。但是根据观察,当a和b取n和(n-1)的时候,lcm(a,b)-gcd(a,b)的差就是最小的(最小公倍数是两者乘积,最大公约数是1)。所以代码如下:n=input()n=int(n)outputresult=n*(n-1)-1pri...

2019-09-25 09:51:38 1545 10

原创 SQL语句执行顺序

被小哥疯狂输出一晚上,大体讲明白了SQL语句执行顺序。这边总结一下。 NOTE:关于SQL基础知识,可以参考博文SQL零阶入门学习笔记(基础篇);关于SQL的函数应用,可以参考博文SQL函数学习笔记。一、书写顺序SELECT DISTINCT COLUMN_NAME FROM TABLE_NAME1(INNER/LEFT/RIGHT/FULL)JOIN TABLE_N...

2019-06-13 15:57:28 282

原创 SQL函数学习笔记

SQL 拥有很多可用于计数和计算的内建函数。 NOTE:关于SQL基础知识,可以参考博文SQL零阶入门学习笔记(基础篇);关于SQL语句的执行顺序,可以参考博文SQL语句执行顺序。1 简介1.1 函数的语法内建 SQL 函数的语法是:SELECT function(列) FROM 表1.2 函数的类型 在 SQL 中,基本的函数类型和种类有若干种。...

2019-06-11 16:30:09 281

原创 SQL零阶入门学习笔记(基础篇)

临时抱佛脚学SQL,在这边做一些整理。部分实例摘抄自W3School.由于是有PYTHON pandas的基础上看SQL,感觉两者胡同的地方是很多的。NOTE:关于SQL的函数应用,可以参考博文SQL函数学习笔记;关于SQL语句的执行顺序,可以参考博文SQL语句执行顺序。1 基本结构 可以把 SQL 分为两个部分:数据操作语言 (DML) 和 数据定义语言 (DDL)。...

2019-06-10 16:02:45 457

翻译 如何建立Multi-Step(多步预测)的LSTM时间序列模型(以对家庭用电预测为例)

译自How to Develop LSTM Models for Multi-Step Time Series Forecasting of Household Power Consumption~ 随着智能电表的兴起和太阳能电池板等发电技术的广泛应用,有大量可用的用电数据。这些数据代表了一系列与电力相关的多元时间序列,进而可以用来建模甚至预测未来的用电量。 与其他机器...

2019-05-29 17:11:22 25566 3

原创 Attention如何在Encoder-Decoder循环神经网络中见效(原理篇)

转眼间来到了二年级下学期,马上就要面临找工作的巨大压力。起风了,唯有努力生存~愿努力可以有所成效。 这一篇想要讲一讲Attention机制。文章框架主要翻译自How Does Attention Work in Encoder-Decoder Recurrent Neural Networks,也参考了一些笔者觉得比较不错的博客。 Attention(注意力机制)是为了提...

2019-03-26 15:52:37 4983 8

原创 如何理解Keras中的TimeDistributed层并在LSTM中使用

老规矩,主要框架译自How to Use the TimeDistributed Layer for Long Short-Term Memory Networks in Python~,中间加了一点点自己的理解。 长短时记忆网络(LSTMs)是一种流行且功能强大的循环神经网络(RNN)。它们很难配置和应用于任意序列预测问题,即使使用定义良好且“易于使用”的接口(如Python中...

2019-03-21 17:00:06 20118 13

原创 如何利用Keras在深度神经网络中进行堆栈集成(Stacking Ensemble)

译自Machine Learning Mastery~ 模型平均是一种集成技术,其中多个子模型对组合预测的贡献相等。 利用子模型的预期性能,加权各子模型对组合预测的贡献,可以改善模型平均。通过培训一个全新的模型来学习如何最好地组合来自每个子模型的贡献,可以进一步扩展这一点。这种方法被称为Stacked Generalization(堆栈泛化),或简称Stacking,可...

2019-01-18 21:24:23 5189 22

原创 修正的线性激活函数(Relu)如何避免梯度消失

2019年的第一篇博客。主要译自Machine Learning Mastery,加上了一点点自己的想法。如有问题,欢迎批评指正~ 消失梯度问题是在训练深度神经网络时可能遇到的不稳定问题之一。它描述了深度多层前馈网络或循环神经网络无法将有用的梯度信息从模型的输出端传播回模型输入端附近的层的情况。其结果是,具有许多层的模型通常无法在给定的数据集上学习或过早地收敛到较差的解决方案。...

2019-01-15 16:27:12 6344

原创 Keras实战:基于LSTM的股价预测方法

Hi,这里是一只殚精竭虑的老鼠屎。最近在处理公交数据,模型效果非常不理想。过程中学习了师兄留下的lstm做的金融数据预测,使用的是keras框架,这里整理一下。这篇博客里面交代了包括数据的处理、模型搭建、模型调参、模型评估等重要环节,十分适合新手入门。师兄留下的jupyter notebook出处不详。目录1 准备工作1.1 引入相关库1.2 引入参数2 构建模型...

2018-11-17 10:32:59 22522 38

原创 使用folium对地理信息可视化

    Hi,我是老鼠屎。最近在做地理信息可视化进度基本为龟速。但是探索的过程中发现了folium神器,在这里进行一些整理。    Folium可以让你用Python强大生态系统来处理数据,然后用Leaflet地图来展示。Folium内置一些来自OpenStreetMap、MapQuest Open、MapQuest Open Aerial、Mapbox和Stamen的地图元件(tilese...

2018-11-03 12:51:03 11631 8

原创 Python爬虫--爬取历史天气数据

写在前面:爬虫是老鼠屎在进入实验室后接触的第一个任务,当时刚刚接触代码的老鼠屎一下子迎来了地狱难度的爬微博签到数据。爬了一个多月毫无成果,所幸带我的师兄从未给我疾言厉色,他给与了我最大的包容与理解。尽管无功而返,但是那一个月也给了老鼠屎充足的学习时间,让老鼠屎对爬虫有了一点点的理解和执念。今天老鼠屎由于项目原因又需要爬天气数据,所以在这里把老鼠屎的一点经验写在这里,希望能给向曾经的我一样迷...

2018-11-02 16:08:06 13277 26

原创 pandas保存csv乱码问题解决方案

    老鼠屎使用pandas处理数据时,在to_csv时出现了小插曲。老鼠屎的数据格式如下:    然而保存至csv后出现严重乱码    这里,老鼠屎提供一下解决方案,在to_csv时,我们加上encoding="utf_8_sig"即可。即:df.to_csv("xxx.csv",encoding="utf_8_sig")     来看一下效果把...

2018-10-17 20:22:15 3457 1

原创 老鼠屎地理信息可视化第三弹:Plotly+Pyecharts绘制地理坐标系线图

    由于最近老鼠屎做的东西和地图上的线型图相关,因此在这里做一点简单总结。很多地方都调试得很不理想,希望成功的地方可以给大家带来一点点启发,不理想的地方也欢迎大神们赐教。1 Plotly1.1 地图上绘制线    有关pyplot的相关在老鼠屎的博文使用plotly神器绘制地图(Python版--demo虽易,操作不易,且学且珍惜)中有过简要介绍,这里老鼠屎根据自己的需要写了一个小...

2018-10-17 19:16:11 6112

转载 GBDT(MART) 迭代决策树入门教程 | 简介

    声明:这篇博客转自https://www.cnblogs.com/peizhe123/p/5086128.html和https://blog.csdn.net/w28971023/article/details/8240756。最近在看集成学习相关知识,小白对于公式较难理解,这里转载一下这篇博文,感觉比较好理解,希望可以帮助到需要的朋友们。  GBDT(Gradient Boos...

2018-10-09 21:11:18 279

原创 决策树原理及实战代码

目录1 定义2 基本流程3 划分选择 3.1 信息增益(ID3)​3.2 增益率(C4.5)3.3 基尼系数(CART)4 剪枝处理4.1 预剪枝4.2 后剪枝5 多变量决策树6 决策树优缺点6.1 优点6.2 缺点7 代码实践1 定义    决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率...

2018-10-06 22:05:09 1350

原创 威神传

    这个模块里面,不讲各种高大上的技术,只谈实验室的欢乐日常。尽管常常觉得科研枯燥无味,然而最美的年华里,有这群最好的小伙伴,每天都过得很快乐。接下来就是这一系列的第一篇:《威神传》。    李威,湖北荆门人也。素日寡言,言则惊人,故得名“威神”也。    威神初带师弟时,言辞严厉,动辄拒绝师弟之请教。一日,威神唤辰荣于其座前,曰:“辰龙吾弟,吾亲借书于图书馆与汝,望弟今后遇疑则问书耳,...

2018-09-29 20:08:22 405

原创 机器学习机试题及解析(一)

1.随机数列要多长才能使数字7出现的概率至少为9/10?答案:22.解析:初步分析,出现7的概率,包括1次 或者 2次 或者 3次 .,所以无法直接一步计算,我们利用对立事件转换,计算不出现7的概率来分析,有随机数每一位出现数字7的概率为0.1,不出现数字7的概率为0.9 设随机数要x位才能使数字7出现的概率 至少0.91-0.9^x≥0.90.9^x≤0.1xlg0.9≤-...

2018-09-27 20:17:21 3322

原创 使用plotly神器绘制地图(Python版--demo虽易,操作不易,且学且珍惜)

Hi,好久不见,我是翻滚的老鼠屎。步入二年级的老鼠屎看着师兄师姐找工作步履维艰,深感压力,然而无奈最近身体一直出问题,有心发奋却无力用功。回到CSDN发现多了好多小伙伴,惊喜的同时更加有了动力。谢谢大家一直以来对老鼠屎的支持和鼓励,你们的爱是我的翅膀,给我穿越风雨的力量 上学期写过一篇关于地图制作的博客,这里介绍第二种方法,利用plotly绘制地图。然而博主研究的过程中遇到很多问...

2018-09-27 15:47:04 14518 11

原创 Python内置类型性能分析

    从前使用python时,被叮嘱一些规则,如:尽量使用列表索引而非直接直接遍历列表内元素等。当时只是强行记住然而并不了解当中原因,如今稍有理解在此进行一点点总结。引子li=[]li.append()li.extend()    对于上面的代码,计算时间复杂度时不能单纯地认为li.append()这句话时间复杂度为O(1),因为list并不是基本步骤,它相当于python当中的一个函数,因...

2018-07-13 20:49:52 368

原创 2019校招华为机试小记:字符串加密(老鼠屎版)

    又到一年好几度的招聘季,实验室师兄们纷纷开始笔试。老鼠屎帮师兄们答题一点心得整理如下。题目一:字符串加密时间限制:C/C++1秒,其他语言2秒                                                                                                                         ...

2018-07-04 20:59:58 1443

原创 处理Jupyter Notebook报错:IOPub data rate exceeded

    近来,博主在使用jupyter notebook处理数据时遇到如下问题:    明明很简单的一个text,却无法正常显示。后查得这是jupyter内存的问题,调整过后即可正常显示。下面来介绍一下处理的方法吧STEP1    在cmd中输入:jupyter notebook --generate-config,可以看到生成一个路径STEP2    找到对应路径下的文件,从中找到iopub_d...

2018-06-15 15:04:59 58807 28

原创 SQL Server复制及修改表

    处理公交数据屡屡碰壁,主要是技己之前差太多。很鸡汤地安慰技己越是碰壁越是成长,且学且珍惜吧1 复制表SELECT * into 新的表格 FROM 旧的表格例:SELECT * into [web].[dbo].[cardcctry] FROM [web].[dbo].[ICCardGJJT03]    执行后刷新一下就可以看到结果。2 修改表2.1 修改字段名alter table 表...

2018-05-30 20:49:18 1351

原创 pandas操作SQL Server数据库

    最近处理公交数据,原数据存在SQL Server数据中。从前处理数据时师兄让导至csv中处理,然而能够处理的数据毕竟有限,因此尝试直接将python连至数据库,在这里将老鼠屎使用的方法和大家分享,如有错误也请看官批评指正。    在这里提前交代一下博主的使用环境。操作系统:windows7,python版本:python3.6。1 Python连接SQL Server数据库    博主使用...

2018-05-29 21:19:23 19644 2

原创 pandas求两个表格不相交的集合

    Hi,好久不见,我还是那颗翻滚的老鼠屎。处理数据时想求两个表格求不相交的部分,或许是对知识的匮乏限制了我的想象力,并未找到直接求的方法,在这里介绍老鼠屎技己使用的方法,希望对读者会有帮助。    阴影部分为所要求的部分    首先先造两个DataFrame来做示例。import pandas as pd a0={"number":range(10),"letter":["a","a...

2018-05-26 11:39:50 4556

原创 使用python将图片按标签分入不同文件夹

    给定图像集如下,所有类别的图片均在一个文件夹内:    给定与图片名相匹配的表格,声明每张图片对应的类别(共有20个类别):    那么,如何根据表格中所给的类别将图片分入对应的文件夹内呢?以我的情况为例,我想将图片分为20类(CATEGORY_ID有0-19共20类),可利用下面的代码进行分类(经细心网友指正,代码已做出修改)。#引入相关库import pan...

2018-05-09 15:56:20 8490 42

原创 使用EXCEL绘制三维地图(超简单的五分钟绘制地图方法,妈妈再也不用担心我不会画地图啦~)

    博主为从区域规划转行地图学的小学渣一枚,最近处理数据希望对结果进行三维可视化,意外发现从小用到大的EXCEL可以绘制地图且功能非常强大,在这里做一下简单介绍,希望可以给看官提供些许帮助。那下面就开始吧1 前戏1.1版本    Office2013及以上版本。1.2PowerMap下载    我使用的是Office2013,因此需要先下载插件PowerMap。(据说2016版本插入选项中自带...

2018-04-28 21:03:42 26396 7

基于Keras的LSTM股价预测代码

里面使用Keras搭建了了LSTM模型进行股价预测,详细介绍了模型的搭建、调试、评估等过程,在数据处理上包含了滑窗、归一化等步骤,是一份非常详细的代码。

2018-11-21

一文读懂GANs

GAN网络是近两年深度学习领域的新秀,火的不行,本资源旨在理解GAN,并附上各类GAN论文、代码等。现有GAN网络大多数代码实现使用Python、torch等语言,这里,后面用matlab搭建一个简单的GAN网络,便于理解GAN原理。

2018-10-31

吴恩达男神力作《Machine Learning Yearning》

吴恩达男神力作《Machine Learning Yearning》。对机器学习原理深入浅出地讲解。很不错的资源,你值得拥有。

2018-10-31

《神经网络与深度学习》+李宏毅ppt

《神经网络与深度学习》是深度学习的经典入门之作,里面包含了原理和手写识别等经典实战代码;李宏毅老师对深度学习的讲解深入浅出。是一份不错的资源。

2018-10-31

Python网络数据采集+python总结

该资源内包括《python网络数据采集》的pdf,是学习爬虫的经典入门之作。同时还有python的相关总结。很不错的资源。

2018-10-31

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除