自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Data _designer

专注数据挖掘,机器学习,数据库,后端开发等领域,开发语言多样。

  • 博客(271)
  • 资源 (6)
  • 收藏
  • 关注

原创 强化学习中的一些疑惑与求解

Q值和V值的互相转换:Q和V本质上可以通过Bellman方程相互转化Policy-Iteration & Value iteration:还是结合例子看比较直观;策略迭代(选定策略,更新策略),价值迭代(多次迭代直至收敛)

2021-04-11 15:05:14 1589

原创 动手学习深度学习-一些不能细想的问题(持续更新)

推荐系统有可能形成反馈循环:推荐系统首先会优先推送一个购买量较大(可能被认为更好)的商品,然而目前用户的购买习惯往往是遵循推荐算法,但学习算法并不总是考虑到这一细节,进而更频繁地被推荐。强化学习的目标是产生一个好的策略(policy)。 强化学习 agent 的选择的”动作“受策略控制,即一个从环境观察映射到行动的功能。当环境可被完全观察到时,我们将强化学习问题称为马尔可夫决策过程(markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机(context

2021-03-24 20:58:24 400

原创 数据分析-全流程(持续更新)

# 导入包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlineimport warningswarnings.filterwarnings('ignore')# 加载数据data = pd.read_csv()# 查看数据基本信息data.head()data.columnsdata.info()data.shape(.

2020-12-29 20:09:35 339

原创 MultiTask Learning Survey

原文链接:MultiTask Survey一、常见Multi-Task 架构Hard和Soft区分:Hard共享底层参数,在高层提取中相互独立;Soft使用十字绣的形式,使得不同的“独立”Task网络之间有交互;缺点:这两种方式都会随着Task增长模型的规模线性变大;在Hard中何处“分支”是一个较难解决的问题;Encoder-based和Decoder-based区分:在底层特征提取时可以结合使用Hard和Soft的架构,但是Encoder在高层特征预测时候相互独立,Decoder的在

2020-12-20 13:25:51 482

原创 小赵带你读论文系列14-阿里妈妈之Deep Interest Network for Click-Through Rate Prediction

前言鬼才知道我为什么要学管理经济学和管理数学,学不进去了,算了看看论文读读代码放松一下。这是阿里DIN系列的第一篇文章,文章读起来不是很难,不过工业上实现会考虑时延就很麻烦,主要的工作我觉得像是引入了Attention机制(他自己解释说有点差别)。以往都是根据用户的Profile,Behavior Sequence做一个用户的Embedding,然后根据这个Embedding来和待推荐的商品作比较,最终输出用户点击该商品的概率。阿里觉得不好,第一,这种对待所有商品用户的Embedding都一成不变,

2020-11-29 19:19:11 1985 6

原创 Graph-Embedding - 详解node2vec

目录前言核心创新点代码前言原文链接:Stanford Node2Vec概括:综合使用DFS和BFS的思想进行neighbours的搜索(因为要保证neighbours在embedding后的空间内足够的“近”),保证共现的neighbours(DFS,类比句子中相邻的单词)和结构相似(BFS)的节点都能足够的“相似”。注:结构近似一开始我也没看明白,后面发现是u和s6同样担任中心点的作用,我们认为其结构近似。换句话说,也就是不但要找到u的直接相邻的邻居s1,s2,s3,还

2020-11-21 00:25:52 380

原创 小赵讲堂系列1-特征工程这件小事

我们做算法的,一定不能成为调包侠,我们每做一个操作,每写一段代码都要知道为什么要写这段代码,最终要使模型的预测效果可解释,故有此篇。刷了三遍百面机器学习的总结和日常见到的一些小问题,加入了自己的理解,不足之处请见谅。为什么我们要使用数据归一化及其适用范围在学习速率相同的情况下,范围大的特征更新速度会大于范围小的特征,这样会导致找到最优解迭代次数增加。适用范围:包括线性回归,逻辑回归,支持向量机、神经网络,但并不适用于决策树,为什么呢?因为决策树每次选择特征只考虑一个变量,不考虑变量之间的相关性。

2020-11-06 10:09:07 3569 11

原创 Python算法实战-牛客刷题-剑指offer通关

目录二维数组中的查找替换空格从尾到头打印链表重建二叉树用两个栈实现队列旋转数组的最小数字斐波那契数列跳台阶变态跳台阶矩阵覆盖二进制中1的个数数值的整数次方调整数组顺序使奇数位于偶数前面链表中倒数第k个节点反转链表合并两个排序的链表树的子结构二叉树的镜像顺时针打印矩阵包含min函数的栈栈的压入弹出序列从上往下打印二叉树二叉搜索树的后序遍历序列二叉树中和为某一值的路径复杂链表的复制二叉搜索树与双向链表.

2020-05-30 12:11:48 1152

原创 数据分析实战-Kaggle-手把手Xgboost信用欺诈检测实例-超详细完整数据分析项目

这个实战并不是我自己纯手写的,其中很多想不明白的地方参考了诸多kaggle金牌得主的discussion和idea,其实数据分析本来就不是从0开始,嘿嘿。

2020-05-22 14:45:30 5647 1

原创 Python爬虫项目实战-Scrapy+Charles+MongoDB+Redis实现分布式京东全网信息爬取2020最新版

目录一、基础知识二、开发环境及项目结构三、结果展示四、实战源码4.1 数据模型-items.py4.2 存储操作(以MongoDB为存储数据库)-pipelines.py4.3 项目配置-settings.py4.4 中间件配置-middlewares.py4.5 分类信息抓取-jd_category.py4.6 抓取商品详细信息-jd_product.py4.7 分布式操作的实现-add_category_to_redis.py五、项目使用方法一、.

2020-05-14 15:27:00 2749 4

原创 Ubuntu 18.0虚拟机安装-VirtualBox和VMware哪家强

一、吐槽不要用VirtualBox,不要用VirtualBox,谁用谁傻子!!!!用VirtualBox安装了一下午,都是这个界面试了网上所有的办法,毫无卵用。听懂了吗,毫无乱用,别去试了。下面VM-Ware傻瓜式安装结果,只用一次就成功了!!!二、VMware安装步骤及相关修改下面是下载安装VMware步骤-Workstation Pro(这个网站好像需要先注册)...

2020-03-09 18:32:25 5672

原创 保研夏令营-南大、哈工、天大、中山、北理

应学校老师之邀,还是写一下自己的保研经历保研好比打怪,打怪你得有装备,赤膊上阵肯定是不行的。这些装备不需要氪金但是需要刷时间,无论是一张“充实”的简历,一份流利的自我中英文自我介绍还是联系导师的“套磁”邮件,都需要你用心的,慢慢的去做。我的打怪经历相比一些广撒网的同学来说并不是很丰富。保研之初我便明确了自己保研的方向和地域,东部沿海或发达城市的管理科学与工程(信息系统方向)或者大数据方向的...

2020-03-06 12:11:47 3598

原创 修改第三方源码

如果第三方库通过pip instal *或者conda install *安装,那么直接更改’…/site_packages/…’中相应的.py文件将不起作用(Python: how to edit an installed package?),这是因为使用pip安装库时已经自动编译了python代码,所以更改原始文件并没有改动编译内容。此时可以将该项目源码从GitHub中clone下来,更改源码,然后使用python setup.py build和python setup.py install手动安装。

2021-09-26 19:48:58 810

原创 VSCode PowerShell 提示“无法加载文件,因为在此系统上禁止运行脚本”的解决方法

这主要是Windows自身设置Restrict模式。管理员身份打开PowerShell,然后执行set-executionpolicy remotesigned然后回答:Yes就行了。

2021-09-14 09:56:02 433

原创 Parameter的使用

class Attention(nn.Module): """ 层级Attention,汇集某方玩家的轨迹为一个向量 """ def __init__(self): super(Attention,self).__init__() self.w_omega = nn.Parameter(torch.Tensor(32,32)) # hidden_layer self.u_omega = nn.Parameter(torch.Te

2021-09-08 10:09:35 954

原创 RuntimeError: mat1 dim 1 must match mat2 dim 0

多半需要dataloader是drop_last=True

2021-07-18 09:20:11 351

原创 git每次输入密码

ssh-keygen -t rsa -C 'email.com'# 下面一路回车,不然每次都要输入密码然后再重新设置github中的ssh key。对了,以前用http提交的已经不能用了,可以再git文件夹里修改config文件

2021-07-17 09:06:07 127

原创 Dataloader的一些BUG

Broken PiP ERROR:参考RuntimeError: unable to open shared memory object </torch_3212_4199725757> in read-write mode:参考

2021-06-30 11:43:15 1323

原创 tensorboard显示多个曲线

tensorboard --logdir_spec=h1:runs01/,h2:runs02/ --port=6006 --bind_alll

2021-06-28 12:57:30 1280

原创 GPU利用率低的解决办法

watch -n 0.1 -d nvidia-smi # 检查GPU利用率参数解决办法:1. dataloader设置参数2.增大batchsize3. 减少IO操作,比如tensorboard的写入和打印。4. 换显卡

2021-06-25 18:51:48 20257

原创 Pytorch分布式

nn.DataParallel的作用是将模型和数据分配到各个GPU上,让其在各自的GPU上训练。1. 首先检查batchsize是否是GPU数量的整数倍2. 以及dataloader是否设置了drop_last是否是true,如果没有drop_last,那么最后一个batchsize剩下的数量可能不是GPU数量的整数倍,会出现此错。3. 如果以上情况都不是报错原因,还有一个原因可能是:对模型进行传参时,有可能传递了标量。(!我就是这个原因无法进行训练,因为我每一个batch的都需要一组标量进行划

2021-06-25 10:00:08 240

原创 快速移动大量文件

mv比cp快的多,cp需要寻道多次

2021-06-24 09:30:29 460

原创 warning: LF will be replaced by CRLF in config/mem.sh.

往往出现在windows使用git提交linux开发机的代码时git config --global core.autocrlf false

2021-06-23 13:49:06 107

原创 pandas含有空列表

all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 7 has 1 dimension(s) ('Lengths must match to compare', 'occurred at index trajs_1')出现以上两个错误多半是你的数据里含有空列表,可以考虑先替换为None或者0然..

2021-06-22 15:44:27 531

原创 /bin/bash^M: bad interpreter: No such file or directory

死活搞不好,其实是换行符的问题,检查文件格式(大多是windows写好传到linux的问题)1.cat -A filename,如果输出结果中行末尾是^M$,则是dos格式,如果行末尾只是$,则是unix格式。2.vim filename,编辑文件,执行“:set ff”,若执行结果为fileformat=dos则为dos格式,若执行结果为fileformat=unix则为unix格式。3.od -t x1 filename,以16进制查看文件,若输出结果中存在“0d 0a”则为dos格式,如..

2021-06-22 10:48:00 260

原创 查看dataframe内存占用

## 查看df占内存的大小import timeitimport sys st = time.time()print('all_data占据内存约: {:.2f} GB'.format(df.memory_usage().sum()/ (1024**3)))st1=time.time()print('costtime: {:.2f} s'.format(st1-st))print('all_data占据内存约: {:.2f} GB'.format(sys.getsizeof(df)/(10.

2021-06-18 19:58:48 906

原创 多进程与多线程

https://blog.csdn.net/brucewong0516/article/details/86569707https://www.jianshu.com/p/2e6d72ae1770

2021-06-18 18:04:09 163

原创 Attention

老是看到下面的公式,以前没想过咋实现,现在

2021-06-17 13:19:05 119

原创 If using all scalar values, you must pass an index

# 错误场景import pandas as pddict = {'a':1,'b':2,'c':3}data = pd.DataFrame(dict)import pandas as pd#方法一:直接在创建DataFrame时设置index即可dict = {'a':1,'b':2,'c':3}data = pd.DataFrame(dict,index=[0])print(data)#方法二:通过from_dict函数将value为标称变量的字典转换为DataFrame对.

2021-06-09 21:17:40 118

原创 pandas时序图搞起-业务

# 创建simulator数据,暂时代替sql_process功能,模拟一种指标import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.dates as mdates%matplotlib inline# 仿真数据data_label_1 = { 'server_1': np.random.randn(67), 'server_2': np.random.ran.

2021-05-31 22:15:27 314

原创 missing operandTry ‘mkdir --help‘ for more information.

ubuntu系统版本问题mkdir -p "$system"

2021-05-30 19:15:18 2846 2

原创 SSH覆盖docker环境变量导致配置失效

https://www.cnblogs.com/xuxinkun/p/10531091.html

2021-05-28 17:52:53 330

原创 一次解决Pycharm服务器配置

第一步第二步注意:红框框那里使用which python # 查看conda配置的python解释器路径

2021-05-28 14:01:54 138

原创 ssh问题

ssh-service是否安装不是输入ssh有返回就行的service ssh status如果返回unrecongnized service

2021-05-28 11:23:29 99

原创 类别特征Embedding

输入数据是32*2,32个样本,2个类别特征,且类别特征的可能值是0到9之间(10个)。对这2个特征做one-hot的话,应该为32*20(multihot 编码),embedding就是使1个特征原本应该one-hot的10维变为3维(手动设定,也可以是其它),因为有2个类别特征这样输出的结果就应该是32*6model = Sequential()model.add(Embedding(10, 3, input_length=2))#构造输入数据input_array = np.random.ra

2021-05-27 10:44:21 796

原创 Pycharm统一换行符,防止脚本文件为CTRF

2021-05-26 15:46:06 212

原创 Pytorch-Training的一些高级操作

# 设置随机种子import torchimport randomimport numpy as npdef set_random_seed(seed=10,determinstic=False,benmark=False): random.seed(seed) np.random(seed) torch.manual_seed(seed) torch.cuda.manual_seed_all(seed) if determinstic: torch.backends.cudnn.d

2021-05-22 19:57:21 199

原创 强化学习-从MDP说到PPO

2021-05-19 18:56:55 205

原创 Linux Debug-Python

无脑Pycharm远程SSH服务器就够了,但是有些业务场景需要用到命令行调试。分享几个比较好的链接。PDB常见操作其他工具

2021-05-12 22:52:28 132

原创 推荐系统经典-BPR算法

理论:其实就是追求参数的最大后验概率数据集:movie_len的格式import numpy as np import pandas as pd import scipy.sparse as spimport torch.utils.data as dataimport torchimport torch.nn as nnimport osimport timedataset = 'ml-1m'main_path = './Data/'train_rating = main_p

2021-05-12 14:27:43 1176

Fraud Transaction.rar

Kaggle竞赛中的数据集,详见本人博客。本数据集从官网下载,该kaggle项目已经结束,公共资源,并不涉及侵权问题。

2020-05-22

数据库相关书籍

数据库常见书籍资源的上传,希望大家喜欢,对我很有用

2019-06-07

python.rar

常见python的书籍,包含很多有用的,高清的pdf,还希望大家喜欢,谢谢

2019-06-07

数学建模资料—算法,书籍pdf(获过国奖)

matlab算法,常见模型,智能算法!!楼主获得过两次国奖。

2019-04-23

数据库大作业Java---采购系统(满分)

采购管理系统是一款集公司各单位所需设备统计、供应商信息管理、采购订单信息管理功能为一体的信息系统。其在采购管理中操作方便、功能齐全,被广泛使用。此次采购管理系统用 java 语言实现,用MySQL作为后台的数据库进行信息的存储,用SQL语句完成对人员表、设备信息表、供应商信息表、采购信息表的增、删、改、查四个操作。用JDBC驱动实现前台Java与后台SOL数据库的连接。

2019-04-23

matlab常见源码

老师给的资源 自己买的资源 获得过国奖 东三省奖 校奖

2018-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除