自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 问答 (1)
  • 收藏
  • 关注

转载 数据搜索引擎整理

人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载ImageNet挑战赛中超越人类的计算机视觉系统微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力。他们的系统在ImageNet 2012分类数据集中的错误率已降低至4.94%。这个数据集包含约120万张训练图...

2019-06-19 15:10:01 5439

原创 python绘图常见问题整理

plot绘图颜色和标志设定x轴数据,y轴数据,format_string控制曲线的格式字串format_string 由颜色字符,风格字符,和标记字符实例d = tsne[r[u'类别数目'] == 0] #找出聚类类别为0的数据对应的降维结果plt.plot(d[0], d[1], 'r.') #红色小点d = tsne[r[u'类别数目'] == 1]plt.plot...

2019-06-19 15:02:51 627

转载 常用数据集整理

常用数据集本文整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间。这篇文章涵盖以下10个领域的数据集下载资源:在这里插入代码片金融交通商业推荐系统医疗健康图像数据视频数据音频数据自然语言处理社会数据处理后的科研和竞赛数据1金融美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datas...

2019-06-16 22:18:36 1330

原创 剑指offer-(第一个只出现一次的字符)

题目描述在一个字符串(0<=字符串长度<=10000,全部由字母组成)中找到第一个只出现一次的字符,并返回它的位置, 如果没有则返回 -1(需要区分大小写).解题思路:1、采用字典存储字符和出现的次数2、将字典存入list中3、遍历列表找value值中为1的在原字符串中找到其索引代码实现class Solution: def FirstNot...

2018-08-25 22:12:44 129

原创 剑指offer---把数组排成最小的数

题目描述输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个。例如输入数组{3,32,321},则打印出这三个数字排成的最小数字为321323。解题思路1、将数组转化为字符串数组2、当str1+str2>str2+str1时将str1插入到str2后面3、对整个字符串数组做相同操作对于python2.x的版本可以直接使用so...

2018-08-25 17:23:32 160

原创 机器学习(三)----决策树

模型任务接受波士顿地区的房价特征,一共13个,根据特征预测房子售价数据载入import sklearn.datasets as sd #标准样本数据集housing = sd.load_boston()#使用housing.feature_names查看房价特征#通过housing.data查看特征矩阵,测试集和训练集划分#打乱原数据集,保证数据随机性#随...

2018-08-06 20:58:18 440

原创 机器学习篇(岭回归)

数据读入数据读入&形成特征矩阵x,y = [],[]with open('abnormal.txt','r') as f: for line in f.readlines(): data = [float(substr) for substr in line.split(',')] #遍历每行的数据添加到data x.append(d...

2018-08-06 15:25:41 653

原创 机器学习初探---线性回归器

数据载入x,y = [],[]with open('single.txt','r') as f: for line in f.readlines(): data = [float(substr) for substr in line.split(',')] #遍历每行的数据添加到data x.append(data[:-1]) #特征矩阵 ...

2018-08-06 12:52:46 552

原创 机器学习初探---数据预处理

机器学习中对于数的预处理都在sklearn的preprocessing中下面整理了基本的数据预处理方法均值移除为了统一样本中不同特征的基准值和分散度,可以将各个特征的平均值调整为0,标准差调整为1,这个过程为均值移除实现过程import sklearn.preprocessing as sp均值移除后样本 = sp.scale(原始样本)import sklearn.prep...

2018-08-05 15:01:27 190

原创 常见numpy子模块整理

线性代数子模块(linalg)np.linalg.inv(a,b) 求矩阵的逆np.linalg.solve(a,b) 解线性方程组,返回结果np.linalg.lstsq(a,b)[0] 解线性方程组,返回的第一行是解结果np.linalg.eig() 返回特征值和特征向量np.linalg.svd(M) 返回M矩阵的奇异值分解的矩阵 U Vnp.linalg.det(...

2018-08-05 14:17:26 490

原创 数据分析中篇(数据清洗&特征处理常见手法)

向量卷积

2018-08-05 13:59:53 913

原创 数据分析初探(一)----线性拟合

任务目标预测收盘价,时间窗口设置为5,即采用5天的收盘价格,建立线性方程组,预测最后一天的收盘价格模型原理采用线性拟合,现在假设有一组数据(a,b,c,d,e,f)那么根据目前的数据趋势请给出后面的数据是多少那么这就可以总结为线性拟合,根据已知的数据建立线性方程组如下 d = aA+bB+cC e = bA+cB+dC ...

2018-08-04 16:37:42 1019

原创 数据分析中篇(numpy通用函数)

文件操作读入文件numpy.loadtxt(文件名,delimiter=分隔符,usecols=选择列,unpack=是否解包, dtype=目标类型, converters=转换器)->二维数组(unpack=False)/列一维数组集(unpack=True)保存文件numpy.savetxt(文件名,二维数组,delimiter...

2018-08-04 15:45:25 217

原创 数据分析前篇二(数据可视化)

导入绘图工具包import matplotlib.pypolt as mp基本绘图函数mp.plot(水平坐标(数组),垂直坐(数组),linestyle = '线型',linewight = '线宽',color = '颜色')x = np.linspace(-np.pi, np.pi, 1000) #产生-pi到pi的1000个均匀分布的样本点cos_y = np...

2018-08-04 15:31:47 474

原创 数据分析前篇(numpy数组的简单使用)

导入numpy第三方库import numpy as np多维数组numpy中的多维数组是numpy.ndarray类类型的对象,可用于表示数据结构中的任意维度的数组;numpy中的创建的数组在内存中时连续的创建数组np.arrange(起始,终止,步长):创建一维数组np.array(任何可以被解释为数组的容器)改变数组类型ndarray.dtype...

2018-08-04 10:50:04 310

原创 pip安装的超时问题

关于解决pip install xx过程中的遇到的一万个吐血超时问题解决方案一:找到pip文件夹新建pip.ini文件添加如下内容[global]timeout = 60000index-url = https://pypi.tuna.tsinghua.edu.cn/simple[install]use-mirrors = truemirrors = https://py...

2018-07-25 22:44:20 3132 2

原创 python3学习笔记八(TCP/UDP套接字编程)

本文记录python网络编程中关于TCP套接字编程的客户端和服务端的框架,以及UDP套接字编程的客户端和服务端的框架TCP套接字编程TCP套接字编程是基于TCP三次握手和四次挥手的基础上,因此在数据传输前需要建立连接,那么TCP套接字编程的服务端和客户端端的工作流程如下所示 基础服务端框架'''服务端框架1.0'''import socket...

2018-07-20 09:22:27 551

原创 剑指offer(丑数)

题目 把只包含因子2、3和5的数称作丑数(Ugly Number)。 例如6、8都是丑数,但14不是,因为它包含因子7 求按从小到大的顺序的第N个丑数。 * 思路: * 1、数字因式分解 * a、寻找1-n的质数 * b、因式分解 * 2、判断是否是丑数思路 1、数字因式分解 a、寻找1-n的质数 b、因式分解 2、判断是否是丑数 3、按照...

2018-07-07 15:55:01 244

原创 剑指offer(寻找最小数)

题目输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个。则打印出这三个数字能排成的最小数字为321323。思路 * 1、此采用递归实现数组的全排列,拼接每组全排列成为新的数字保存至数组 * 2、比较每组数字,输出最小值实验代码package com.offer;import java.util.ArrayList;imp...

2018-07-07 13:24:55 191

原创 python学习记录七(高级函数)

python3中有很多比较别致的函数定义方式,让没有见过的同学总是很头痛,这一堆表达式到底是想干什么呀ヽ(#`Д´)ノ,本篇就总结一下python中出现的别致函数定义lambda 表达式定义:创建一个匿名函数对象,不提供函数名lambda [参数1,,参数2,...]:表达式让给定的参数执行表达式的操作然后返回操作结果表达式的调用与函数的调用相同myadd = lambda a...

2018-07-02 21:28:42 205

原创 python学习记录六(函数基础补充)

在学习完函数编程后,发现又有一个很小但是很重要的问题,那就是python变量的作用域,本文整理了python中变量的作用(全局变量和局部变量)作用域既然要谈到局部变量和全局变量,那么就不可避免的需要说一下python中的作用域划分python中主要有4个作用域分别为Local function:局部作用域(函数内部)enclosing function locals:外部嵌套函数...

2018-07-02 19:46:03 126

原创 python学习笔记五(函数基础)

博主在学完python基本数据类型后就开始迫不及待的去编写自己的程序去了,但是写出来的程序总是和大神的差了不是一星半点,后来发现那是因为我和大神之间差了n个函数w(゚Д゚)w,因此勤学努力的博主又去学习了帮助python高逼格编程的函数^_^函数定义python 定义函数的格式如下:def function_name(形参列表): function_body return...

2018-07-02 17:54:42 306

原创 python学习笔记四(字典&集合)

本篇文章主要记录python中量大容器字典和集合,不要说什么列表、元组这俩是序列,虽然都是用来存储数据的但是其本质是不同。但是在python中序列和容器的使用感受差别实在是太小了,主要是看存储的数据的特征选取合适的数据类型就可以了字典定义表现形式:{'key1':value1,'key2':value2}字典是一种可变的容器,字典中的数据采用key-value对进行映射存储(和m...

2018-06-27 20:04:25 188

原创 剑指offer习题记录二

题目描述输入一个字符串,按字典序打印出该字符串中字符的所有排列。例如输入字符串abc,则打印出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba。解题思路此题可以用递归解决,问题可以分解为:1、首先固定第一个字符2、对剩下的字符进行全排列3、将固定的字符分别与已经求出全排列的字符串进行每位交换程序代码package co...

2018-06-12 20:08:19 114

原创 python学习笔记(三)

关于List的一些记录list 是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置。list是一个可变的数据存储结构创建方法list的创建方式主要有三种直接创建构造函数创建推导式创建# 直接创建方式 L = [] L = [1,2,3,4] L = ['beijing','shanghai'...

2018-06-09 20:30:48 183

原创 剑指offer习题记录(一)

题目描述 求出1~13的整数中1出现的次数,并算出100~1300的整数中1出现的次数? 为此他特别数了一下1~13中包含1的数字有1、10、11、12、13因此共出现6次,但是对于后面问题他就没辙了。 ACMer希望你们帮帮他,并把问题更加普遍化,可以很快的求出任意非负整数区间中1出现的次数。解题思路假设所求的区间位[n,m],1的个数为count,可以将区间改写为[1,m]-...

2018-06-08 20:53:34 128

原创 python学习笔记(二)

python 学习笔记(二)基于python3.X的字符串&格式化字符串的相关应用,不定期更新添加python 转义字符及其应用

2018-06-07 20:38:17 209

原创 Python学习笔记(一)

python学习笔记用python来写推荐系统中间涉及数据处理pandas、numpy、sklearn等包的使用创建用户项目评分矩阵 zeros()的使用创建一个一定类型用0填充的数组, shape:指定数组的类型eg:(5)-长度为5的一维数组;(2,1)-2*1的矩阵 dtype:数据类型 order:代表行有限还是列优先举个例子 : train_data_...

2018-06-07 19:35:08 398

原创 使用线性回归构建混凝土抗压预测系统

第一步:收集数据系统目标为预测混凝土抗压强度:数据集地址第二步:加载数据import pandas as pdfrom sklearn import preprocessing,linear_model #导入模型from sklearn.metrics import r2_score #性能评价得分接近1模型性能越好from sklearn.model_selection ...

2018-05-22 18:15:27 1770 15

原创 使用tensorflow构建基础电影推荐系统

使用jupyter 可以方便调试第一步:收集数据https://grouplens.org/datasets/movielens/第二步 准备数据import pandas as pdimport numpy as npimport tensorflow as tfratings_df = pd.read_csv('ratings.csv')ratings_df.tail(...

2018-05-22 17:11:47 4906 2

原创 菜鸟日记——R中xgboost文档解析

特征重要度计算 xgb.importance(colnames(agaricus.train$data), model = bst)Feature:在模型中用到的特征名称 Gain:每个特性对模型的贡献。对于增强的树模型,每个树的每个特征的每一个增益被考虑在内,然后每个特征的平均给整个模型的视觉。最高百分比意味着预测培训所使用的标签的重要功能(仅适用于树模型) Cover:与此特性相关的

2017-12-14 17:04:47 7165 1

原创 菜鸟日记——每天一个小实验(day1)

用R做了几天的数据分析,觉得处理数据的想法是无限的,而处理数据的手法是唯一的——always for循环(ε=(´ο`*)))唉),这样将大量的时间花费在构建循环上就会有些本末倒置,因此专门花费时间整合R语言中处理数据的利器,请让我脱离永远的for循环!!!!!!!!!!!!(本文实验是借鉴实验楼的)强大的apply家族 R中对于复合数据的数据类型的子集进行处理的时候有它自己封装好的一套数据处理

2017-12-04 21:27:29 575

原创 菜鸟日记——k-means聚类实现并绘图

最近正在做客户细分模型,利用K-means将客户信息划分成多个组并进行特征刻画使得同一簇内的客户相似度较高,不同簇间的相似度比较低。目前只做到了客户信息聚类。数据准备 原本的数据是一些客户的注册基本信息大部分为离散型数据因此考虑到K-means模型对数值类的数据处理效果要比文本类要好因此将注册信息进行重新编排,用ID类型的数据代替原本的数据,比如注册地点:东莞市<——>01,广州市<——>03

2017-11-27 11:17:23 14935 1

原创 菜鸟日记——R中装包常见错误&解决方法

装包一直是贯穿整个R的学习和使用,不过常见的情况是装包一小时,编程5分钟,陷入install.package ——error——百度——library——error——Google的死循环,最后包是装成功了but装包是为了干啥全忘了!!!为了不再被虐因此整理了自己在学习过程中装包遇到的问题和已经解决的办法。(本博文会不定期更新,毕竟R的本体是装包~〒▽〒~)R七大神器之一——数据处理包:dplyr

2017-10-15 22:08:00 680

原创 R中文分词、绘制云图笔记

1. 准备工作(配置Java环境、安装分词包Rwordseg、rJava、tm,操作顺序如下) (1). 安装JDK、配置Java环境 JDK的安装就按照提示一直next下去就行了,不过安装中一定要注意:JDK安装过程中会出现两次选择路径,第一次是安装JDK,第二次是安装Jre,一定要将这两个的安装路径分开,否则那么jre包中的内容会覆盖掉jdk中的内容,因此,在你安装完成之后,会发

2017-09-30 17:16:53 974

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除