自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 收藏
  • 关注

原创 mysql8.0之后修改密码

// 先进入mysqlALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '密码';

2022-02-24 16:53:32 454

原创 axios和vue的导入

<script src="https://unpkg.com/axios/dist/axios.min.js"></script><script src="https://cdn.jsdelivr.net/npm/vue@2/dist/vue.js"></script>这两个比较稳定

2021-10-26 13:23:44 175

原创 前端css

块级元素(block)特性:总是独占一行,表现为另起一行开始,而且其后的元素也必须另起一行显示;宽度(width)、高度(height)、内边距(padding)和外边距(margin)都可控制;内联元素(inline)特性:和相邻的内联元素在同一行;宽度(width)、高度(height)、内边距的top/bottom(padding-top/padding-bottom)和外边距的top/bottom(margin-top/margin-bottom)都不可改变,就是里面文字或图片的大小;块

2021-10-04 14:21:47 178

原创 google colab的数据加载和存储

1.启动云盘,即可看到如下from google.colab import drivedrive.mount('/content/drive')调整到当前目录 %cd /content/drive/My Drive!ls可以指从本地上传和下载,也可从网上直接下载!wget https://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip!unzip ngrok-stable-linux-amd64.zip

2021-09-29 20:03:22 326

原创 tqdm的简单用法

from tqdm import tqdmfrom random import random,randintimport time#设置进度条左边显示的信息pbar = tqdm(total = 100,desc='train',ncols=0,unit='step')for i in range(100): pbar.update() #设置进度条右边显示的信息 pbar.set_postfix(loss=random(),gen=randint(1,999),acc

2021-09-29 16:39:26 273

原创 model参数的存储和调用

# 模型的存储torch.save(xxx_model.state_dict(),'./model_param.pth')model = Net().to(device)model.load_state_dict(torch.load('./model_param.pth'))

2021-09-28 22:31:18 249

原创 resnet18的模型使用

输入图片格式为:(b,c,224,224)修改输出层的输出维度:import torchvisionresnet_model = torchvision.models.resnet18(pretrained=True)for param in resnet_model.parameters(): param.requires_grad = Falseresnet_model.fcclass Net(nn.Module): def __init__(self, mo

2021-09-28 22:14:42 1286

原创 图片数据的读取

#训练数据增强,测试和验证数据只需转化为tensortrain_transform = transforms.Compose([transforms.Resize((224,224)), transforms.RandomHorizontalFlip(),transforms.ToTensor(),transforms.Normalize([0.485, 0.456, -.406],[0.229, 0.224, 0.225

2021-09-28 22:10:23 136

原创 torchvision.models.resnet18(pretrained=True)的直接用法

2021-09-28 20:18:27 4619

原创 数据挖掘5(模型融合)

一、学习知识点概括模型融合可以集合各种模型,从而提高模型的准确率二、学习内容1.投票融合:Voting即投票机制,分为软投票和硬投票两种,其原理采用少数服从多数的思想。hard_vote = VotingClassifier(estimators=[('xgb', clf1), ('rf', clf2), ('svc', clf3)], voting='hard')eclf = VotingClassifier(estimators=[('xgb', clf1), ('rf', clf2), (

2021-09-15 17:36:36 175

原创 决策边界的绘制

clf.fit(xtrain,ytrain)from mlxtend.plotting import plot_decision_regionsplt.figure()fig = plot_decision_regions(X = xtrain,y = ytrain,clf = clf)plt.show()

2021-09-15 13:33:06 421

原创 归并排序+统计数组中的逆序对

class Solution: def InversePairs(self, data): self.cnt = 0 def merge(left,right): l1 = len(left) l2 = len(right) lis = [] i,j = 0,0 while i < 11 and j < l2: if left[i] < right[j]: lis.append(left[i]) i

2021-09-14 13:07:49 62

原创 数据挖掘4(建模调参)

一、学习知识点概括特征工程是建模之前最重要的步骤,主要包括:异常值处理,缺失值处理,特征归一化/标准化,特征构造,特征筛选,降维二、学习内容1.内存优化:通过调整每列的数据类型较少内存占用if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max: df[col] = df[col].astype(np.int8)2.长尾处理:通过线性回归得到model,利用mode

2021-08-29 13:54:14 149

原创 求二叉树的深度

def depth(self,root): if not root:return 0 return 1 + max(self.depth(root.left),self.depth(root.right))

2021-08-26 09:19:52 51

原创 数据挖掘笔记3(特征工程)

一、学习知识点概括特征工程是建模之前最重要的步骤,主要包括:异常值处理,缺失值处理,特征归一化/标准化,特征构造,特征筛选,降维二、学习内容1.异常值处理:箱线图,3-sigma,box-cox处理有偏分布,长尾截断2.缺失值处理:不处理(针对树模型),删除(缺失太多),填充法,分箱法3.数据分桶,独热编码:针对数值型数据分桶,针对无大小关系的类别型数据进行独热编码4.特征构造:时间特征,地理特征(分箱),各种特征组合等等5.特征筛选过滤法:分类问题通常用卡方检验,回归问题用相关性分

2021-08-25 21:00:36 131

原创 反转链表的方法

#反转链表:迭代法pre = Nonecur = slowwhile cur:nex = cur.nextcur.next= prepre = curcur = nexreturn pre

2021-08-25 13:45:29 61

原创 数据挖掘笔记2(EDA)

一、学习知识点概括EDA探索数据的过程是建模之前必不可少的,通过eda更好的了解数据的分布,数据的关系等等。二、学习内容1.数据总览:head(),info()查看类型和缺失信息,describe()查看统计信息2.了解数据缺失情况,异常值检测3.总体分布情况(无界约翰逊分布),查看skewness and kurtosis,查看预测值的具体频数4.特征分为数据特征和类别特征:数字特征:相关性分析查看几个特征得 偏度和峰值每个数字特征得分布可视化数字特征相互之间的关系可视化多变量互相

2021-08-24 21:02:17 100

原创 数据可视化与特征工程高效的图表

1.sns.FacetGrid():可以一次性画出每个特征的分布2.sns.pairplot():可视化各个属性之间的关系

2021-08-24 17:47:33 72

原创 数据挖掘笔记1

一、学习知识点概括数据挖掘之前需要充分理解需求和实际情况,对于题目要有深刻的理解,以便于开展接下来的挖掘工作。二、学习内容对于赛题的理解,评价指标的认识,数据的特征的分析,以及列举挖掘过程的大纲。三、学习问题与解答对于数据的特征理解相对比较繁琐与困难,不同领域的数据需要有相应的背景知识才有利于充分理解数据,以便于后续的特征工程。但是这一过程往往较耗时,需要仔细反复的推敲。四、学习思考与总结拿到数据或者题目后第一时间要做的不是急于建模,而是要理解数据,增强对数据的认识。...

2021-08-24 15:42:41 77

原创 pyecharts

问题:importError: cannot import name ‘xxx’ from ‘pyecharts’ (/Users/xx/anaconda3/lib/python3.7/site-packages/pyecharts/init.py)解决:from pyecharts.charts import Bar#直接from pyecharts import Bar会报错

2021-07-08 17:25:48 56

原创 sparkSQL的一些操作

修改列类型:df.withColumn('price',df.price.cast(IntegerType()))

2021-07-08 17:23:17 61

原创 2021-07-05

要从HDFS中删除文件:例:hadoop fs -rm -r result8.json

2021-07-05 21:28:22 115

原创 linux中运行spark报错

出现报错:JAVA_HOME is not set或者Exception: Java gateway process exited before sending its port number解决办法:插入下面语句import osos.environ['JAVA_HOME'] = '/usr/lib/jvm/jdk1.8.0_162'# 指向的是jdk的存储路径

2021-06-08 20:15:06 230

原创 zip和*列表的作用,以及矩阵的旋转

python列表前面加一个*作用:将列表分成独立的对象,*[a,b,c] -> a,b,c*[[1,2],[3,4]] -> [1,2] , [3,4]Zip的作用是将若干迭代对象对应位置的元素组成一个新的元组:list(zip(*[[1,2],[3,4]])) -> [(1,3),(2,4)]list(zip([1,2],[3,4],[5,6])) -> [(1,3,5),(2,4,6)]利用*【】、zip、倒序实现矩阵的旋转:matrix = [[1,2,3]

2021-06-01 14:43:29 522

原创 linux中用jupyter notebook加载pyspark

问题:no module named pyspark 或者 no module name py4j解决办法:1.shell中pip install findspark2.调用pyspark之前先指向spark的路径

2021-05-31 23:51:59 399 2

原创 决策树之CART

02|CART的生成:决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。分类树与回归树的一个区别是:如果目标变量是离散型变量则用分类树,如果目标变量是连续型变量则用回归树。2.1回归树的生成回归树是用于目标变量是连续型变量的情况下,假设X与Y分别为输入和输出变量,并且Y是连续型变量,给定数据即D={(x1,y1),(x2,y2),…(xn,yn)},根据训练数据集D生成决策树。前面说过,回归树的生成准则是平方差(总离差平

2021-05-24 12:59:06 224

原创 模型正则化之岭回归

模型正则化之岭回归:实际上就是在损失函数后面加一个惩罚函数,求J(theta)的最小值

2021-05-12 00:05:37 55

原创 多项式回归与pipeline

对数据先升维+再归一化+再线性回归 = 多项式回归pipeline将三个步骤封装到一起:

2021-05-10 15:45:08 92

原创 sns绘制柱状图

2021-05-09 23:06:00 453

原创 sns中小提琴图实例

2021-05-09 22:25:34 287

原创 sklearn中的pca

import numpy as npimport matplotlib.pyplot as plt### scikit-learn中的PCAfrom sklearn.decomposition import PCAx = np.empty((100,2))x[:,0] = np.random.uniform(0.,100,size = 100)x[:,1] = 0.75 * x[:,0] + 3. + np.random.normal(0,10,size = 100)pca = PC

2021-05-09 15:48:25 138

原创 PCA主成分分析

手写一个简单的求前n个主成分的pca算法:x = np.empty((100,2))x[:,0] = np.random.uniform(0.,100,size = 100)x[:,1] = 0.75 * x[:,0] + 3. + np.random.normal(0,10,size = 100)#目标函数:找w使得返回值最大def f(w,x): return np.sum((x.dot(w)**2)) / len(x)#梯度的求解方法:def df_math(w,x):

2021-05-08 21:29:04 86

原创 SGDRegressor

#简易的随机梯度下降:def dj_sgd(theta,x_b_i,y_i): return x_b_i.T.dot(x_b_i.dot(theta) - y_i) * 2def sgd(x_b,y,initial_theta,n_iters): t0 = 5 t1 = 50 def learing_rate(t): return t0/(t+t1) theta = initial_theta for cur_iters in

2021-05-07 23:20:32 921

原创 python中一些高效的包

1.from itertools import permutations返回可迭代对象的所有数学全排列方式for i in itertools.permutations(‘123’, 2):… print i…(‘1’, ‘2’)(‘1’, ‘3’)(‘2’, ‘1’)(‘2’, ‘3’)(‘3’, ‘1’)(‘3’, ‘2’)...

2021-05-07 19:58:21 64

原创 跳跃游戏

题目描述给出一个非负整数数组,你最初在数组第一个元素的位置数组中的元素代表你在这个位置可以跳跃的最大长度你的目标是用最少的跳跃次数来到达数组的最后一个元素的位置例如给出数组 A =[2,3,1,1,4]最少需要两次才能跳跃到数组最后一个元素的位置。(从数组下标为0的位置跳长度1到达下标1的位置,然后跳长度3到数组最后一个元素的位置)#贪心算法:每次只需要考虑i~i+A[i]范围内的最大值,找到一个范围内的最大值表示一跳class Solution: def jump(self , A

2021-05-06 18:33:45 55

原创 dataframe创建的几种方式

#way1: 列表加索引person_n = [i for i in range(1,101)]fortune = pd.DataFrame([100 for i in range(100)],index = person_n)

2021-05-05 15:52:03 65

原创 手写一个简单的多元线性回归

class LinearRegression: def __init__(self): self.interception = None self.coef = None self._theta = None def fit(self,xtrain,ytrain): assert xtrain.shape[0] == ytrain.shape[0],'error' x_b = np.hstack([np

2021-04-26 14:57:21 244

原创 scikit-learn中的standardscaler(均值方差归一化)

from sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerdata = datasets.load_iris()data.keys()data_x = data.datadata_y = data.targetxtrain,xtest,ytrain,ytest = train_test_spli

2021-04-24 20:49:11 1300

原创 有关sklearn中knn的网格搜索: Grid Search

from sklearn.model_selection import GridSearchCVparam_grid = [{'weights':['uniform'], 'n_neighbors':[i for i in range(1,11)]}, {'weights':['distance'], 'n_neighbors':[i for i in range(1,11)], 'p':[i f

2021-04-24 17:18:32 272

原创 sklearn中测试及和训练集分离及选取

sklearn中的train_test_split:from sklearn.model_selection import train_test_splitdata_train,data_test,label_train,label_test = train_test_split(x,y,test_size=0.3,random_state=123)test = KNeighborsClassifier(n_neighbors=4)test.fit(data_train,label_train)

2021-04-23 17:00:54 265 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除