夏目家的小妖精-CSDN博客

原创 2021-06-11

求助贴：excel导入workbench失败基础设置excel已经改为csv格式，如下：workbench：8.0版本过程1.选定数据库，右击-table data import wizard然后…闪退了！！！有没有小伙伴碰见过这种情况啊~~~

2021-06-11 13:11:44 88 1

统计语言模型中常用的词向量模型有：One-hot编码，Word2Vec和GloVe等。One-Hot编码可用于机器学习，将类变量转换为多维向量的形式.。One-Hot采用N位状态寄存器来对N位状态进行编码，每个状态都是由独立的寄存器表示，在任意时候只有一位寄存器有效。One-Hot 采用二进制编码，寄存器的状态由0或1组成，因为只有一位寄存器有效，所以在任意时候，只有一个寄存器的编码为1，其余...

2020-04-08 09:13:35 267 1

原创 python基础之random模块

import random# randrange(start,end) ==> 生成start到end的随机整数# randrange(a,b) ==> a<= N < bprint(random.randrange(0, 2))# randint(a,b) ==> 生成 a <= N <= b# 等价于 randrange(a,...

2020-03-28 21:03:26 82

原创 python基础之os模块

import os# getcwd() 打印当前工作路径print(os.getcwd())print(os.listdir()) # 列出当前文件夹里所有的文件os.chdir('../') # 修改当前的工作目录print(os.getcwd())print(os.listdir())print(os.cpu_count())print(os.name)print(o...

2020-03-28 21:02:03 69

原创 python基础之math模块

import math# 阶乘print(math.factorial(10))print(math.pi)print(math.e)print(math.cos(math.pi / 3)) # cos60° = 1/2 180° = π# ceil:向上取整print(math.ceil(12.34)) # 13# floor:向下取整print(math.floor...

2020-03-28 21:00:40 98

原创 Git提交项目

运行环境 ubuntu16.0django-admin startproject aaacd aaa初始化仓库git init提交到githubgit add .此时项目文件缓存在暂存区（暂存区的文件以镜像的方式存储在 .git/objects里面）git commit -m '第一次提交'‘’里面记录了相关操作信息方便后来查阅此次做了哪些事打开文件（这一步骤在提交...

2020-03-09 23:30:25 66

原创 K近邻算法之电影分类（二）

分类过程数据准备阶段读取数据特征抽取数据切割数据的训练数据的测试数据的模拟sklearn调用API进行电影分类import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.neighbors import KNeighbo...

2020-03-06 22:17:49 558 1

原创 k近邻算法(KNN)预测入住位置(一）

定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。算法实例数据来源：kaggle数据分享：9fwr步骤：数据预处理分割数据集对数据集进行标准化进行分类预测数据预处理特征值：row_id:等级的idx,y:坐标accuracy:准确度time:时间戳place_id:位置import panda...

2020-03-05 14:44:24 623

原创数据降维之特征选择——Filter（过滤式）

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中的一部分特征。流程初始化VarianceThreshlod，指定阀值方差调用fit_transformVariance Threshold 语法VarianceThreshold(threshold = 0.0)删...

2020-03-04 21:50:19 1346

原创 sklearn数据集介绍

数据集sklearn.datasets加载获取流行数据集datasets.load_*()获取小规模数据集，数据包含在datasets里datasets.fetch_*(data_home=None)获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是 ~/scikit_learn_data/获取数据集返回的类型load和fet...

2020-03-04 21:44:38 537

原创数据降维之特征选择——PCA(二)

kaggle案例分析数据来源：kaggle网站百度云分享：提取码：bt3t说明：products.csv 商品信息order_products__prior.csv 订单与商品信息orders.csv 用户的订单信息aisles.csv 商品所属具体物品类别import sklearn.decomposition import PCAimport pandas as pd...

2020-03-04 11:33:46 365

原创数据降维之特征选择——PCA(一)

主成分分析特征数量达到上百的时候考虑数据的简化数据会改变特征会减少目的数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。作用可以削减回归分析或者聚类分析中特征的数量PCA流程初始化PCA 指定减少后的维度PCA(n_components=None)将数据分解为较低维数空间n_components小数 0~1 90%整数减少后的特征数量...

2020-03-04 10:52:03 344

原创 Anaconda安装xgboost

1.打开Anaconda Prompt，进入anaconda下的scripts C:\Users\haru1> cd F:\Anaconda3\Scripts;2.输入如下安装命令F:\Anaconda3\Scripts> pip install xgboost;也试过跳过第一步，但是没成功。...

2020-03-04 10:46:42 140

原创决策树——id3算法

我们假设训练集合包含10个样本：其中s、m和l分别表示小、中和大。设L、F和H表示日志密度、好友密度、是否使用真实头像，下面计算各属性的信息增益。# 从目标值看信息的分布熵是多少# 3个no 7个yesinfo_D = -(.3*np.log(0.3)+.7*np.log(0.7))info_D输出：0.6108643020548935# 从日志密度这一个特征来看账号是否真实...

2020-03-03 21:25:02 529 1

原创 matplotlib识别不了中文

问题描述想用matplotlib做折线图，x轴坐标设置如下# 调整x轴刻度 _x = list(x)_xtick_labels = ['10点{}分'.format(i) for i in range(60)]_xtick_labels += ['11点{}分'.format(i-60) for i in range(120)]结果显示如下：文字没有任何显示，变成了方块...

2020-02-27 11:17:20 503

weixin_43964679的博客