自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小哲数据

记录小哲探索数据的路上,各种摸爬滚打~~

  • 博客(68)
  • 资源 (2)
  • 收藏
  • 关注

原创 统计学 | 3.概率与概率分布

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import normfrom scipy.stats import binomfrom scipy.stats import poissonfrom collections import Counterimport warningswarnings.filterwarnin.

2020-05-24 20:19:40 632

原创 Seaborn | 初识Seaborn

import matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline# 使用默认的seaborn主题sns.set()tips小费数据集total_bill: 总金额tip: 小费金额sex: 性别smoker: 是否抽烟day: 周几time: 午饭(Lunch), 晚餐(Dinner)size...

2020-04-07 22:52:30 312

原创 SparkSQL | 表生成函数

lateral view与 explode函数按理说是不应该在数据库里存在的,因为他违背了第一范式(每个属性不可再分)。但是实际的场景,如一些大数据场景还是会存在将一些低频使用但又不能丢失的数据存成json,这种场景下就需要解析json,将里面的数组和多key值展开。初始化一份数据# 随意造的一份数据,毫无意义data = [ { "id": 1, "...

2020-04-06 17:13:32 653

原创 集成学习初识

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets%matplotlib%matplotlib inline%config InlineBackend.figure_format = 'retina'Using matplotlib ba...

2020-03-29 22:57:02 265

原创 初识机器学习 | 6.逻辑回归

import numpy as npimport matplotlib.pyplot as plt%matplotlib%matplotlib inline%config InlineBackend.figure_format = 'retina'Using matplotlib backend: MacOSX逻辑回归(Logistic Regression), 是使用回归的实现...

2020-03-24 18:38:19 422

原创 初识机器学习 | 5.梯度下降

import numpy as npimport matplotlib.pyplot as plt%matplotlib%matplotlib inline%config InlineBackend.figure_format = 'retina'Using matplotlib backend: MacOSX梯度下降求解一元二次方程y=(x−2.5)2−1y = (x-2....

2020-03-23 12:41:19 207

原创 SparkSQL | 窗口函数

import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.conf import SparkConffrom pyspark.sql.types import *from pyspark.sql import functions as F, Window# 配置集群config = SparkConf()...

2020-03-01 13:29:34 3845

原创 pyspark | 数据处理基本操作

import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.conf import SparkConffrom pyspark.sql.types import *from pyspark.sql import functions as F, Window初始化与配置环境# 配置集群config = Spa...

2020-02-29 21:21:08 833

原创 SparkSQL | 行转列与列转行

df = spark.createDataFrame([ {'id': 1, u'姓名': u'张三', u'分数': 88, u'科目': u'数学'}, {'id': 2, u'姓名': u'李雷', u'分数': 67, u'科目': u'数学'}, {'id': 3, u'姓名': u'宫九', u'分数': 77, u'科目': u'数学'}, {'id'...

2020-02-22 19:47:08 5298

原创 初识机器学习 | 8.聚类算法

import pandas as pdimport numpy as npimport matplotlibimport matplotlib.pyplot as pltfrom sklearn import datasets%matplotlib%matplotlib inline%config InlineBackend.figure_format = 'retina'U...

2019-12-29 22:20:13 103

原创 初识机器学习 | 7.决策树

import numpy as npimport matplotlibimport matplotlib.pyplot as plt%matplotlib%matplotlib inline%config InlineBackend.figure_format = 'retina'Using matplotlib backend: MacOSX莺尾花数据集,当前选取后面两个维...

2019-12-22 16:28:19 247

原创 KNN基本实现

源码连接:https://github.com/clelandgt/machine_learning/blob/master/ml_algorithms/KNN.ipynbimport numpy as npimport matplotlibimport matplotlib.pyplot as pltfrom sklearn import datasets%matplotlib%m...

2019-12-20 01:52:15 239

原创 加州房价预测模型

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib%matplotlib inline%config InlineBackend.figure_format = 'retina'Using matplotlib backend: MacOSX读取数据集并观察数据特点字段...

2019-12-08 19:11:23 2660

原创 初识机器学习 | 4.线性回归

import numpy as npimport matplotlib.pyplot as plt%matplotlib%matplotlib inline%config InlineBackend.figure_format = 'retina'Using matplotlib backend: MacOSX简单线性回归的实现a=∑i=1m(x(i)−xˉ)(y(i)−yˉ)...

2019-12-06 00:17:59 278

原创 numpy | numpy100练习题上篇1-50

题目来源于:https://github.com/rougier/numpy-100/blob/master/100_Numpy_exercises_no_solution.ipynb参考:https://www.jianshu.com/p/385d47d03cfb1. Import the numpy package under the name np (★☆☆)import nump...

2019-11-24 16:35:42 1909

原创 初识机器学习 | 2.如何评价模型好坏

对应评分方法对应的实现待补充。

2019-11-17 23:51:47 210

原创 初识机器学习 | 1.用代码打开AI的大门

什么是机器学习机器学习是从数据中自动分析获得模型,并利用模型对未知的数据进行预测。其中数据集构成:特征值 + 目标值。监督学习有目标值。输入数据由输入特征值与目标值组成。函数输出一个连续的值(称为回归),或是输出有线个离散值(称为归类)。回归:线性回归、岭回归分类:k-近邻算法、贝叶斯分类、决策树、随机森林、逻辑回归无监督学习无目标值。输入数据只有特征值。聚类:K-means...

2019-11-10 23:42:56 112

原创 统计学1 | 数据的图表展示

待补充:使用pandas,tableau, excel分布实现以上图形。

2019-11-10 23:11:03 410

原创 数据科学第2周 | 基于Python实现数据的描述性统计

配置环境pip3 install matplotlibpip3 install pandasimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltdf = pd.read_csv('salaries_10000.csv')df.head() emp_...

2019-07-28 23:49:04 272 1

原创 统计学 | 2.数据的描述性统计

0x00: 前言感谢居士创建了微信群【数据自习室】,组织大家一起系统化学习数据科学,这次一定不能掉队了,坚持到最后。这一章主要讲数据的描述性统计,利用手里已有的数据,分析数据的集中趋势和离散趋势。当前只是到处copy,补充了理论框架,后面补充每个知识点对应的经典场景。0x01: 描述性统计理论知识整理大佬【木东居士】:微信:mdjs91知识星球:https://t.zsxq.com/u...

2019-07-21 20:07:06 619

原创 hadoop 高级 | hadoop队列管理与资源隔离

功能点配置 配置ResouceManager使用CapacityScheduler设置队列队列属性队列属性配置修改配置文件设置任务的优先级其他组件使用hadoop队列 Hive补充参考功能点Hierarchical Queues(队列可分层)Capacity GuaranteesSecurity(安全性)ElasticityMulti-t...

2018-05-17 20:40:51 2904

原创 Tableau 高级 | 优化数据提取

本文TableauServer基于win10环境 增加后台进程数以管理员身份进入TableauServer的bin目录,并停止Servercd [安装目录]\Tableau\Tableau Server\10.3\bin tabadmin stop打开Configure Tableau Server(Tableau Server配置使用工具) 点击Servers(服...

2018-05-16 23:54:17 6625 1

原创 Tableau 高级 | TabPy使用

Tableau桌面版10.1以上的版本支持使用TabPy。TabPy简介TabPy安装与配置 安装TabPy启动TabPy服务TabPy的使用 TableauDesktopTableauServerTabPy的使用调试与打印日志参考TabPy简介TabPy实现了tableau的计算字段里嵌入python或R代码(可加入一些机器学习或数据处理的库)。它是一个...

2018-05-16 23:31:45 10238 1

原创 网站资源清单

论坛程序员素养 PythonRJavaLinux网站后台开发算法爬虫 爬虫学习资料免费代理IP数据 数据集数据库大数据可视化工具在线教育技术分享会论坛codeproject 博客codinghorror程序员素养Pythonpython 资源库python 资源大全中文版python 编码规范pypiv...

2018-04-10 13:44:58 849

原创 pyenv管理python虚拟环境

安装环境为macos安装pyenv自动安装pyenv$ curl -L https://raw.githubusercontent.com/yyuu/pyenv-installer/master/bin/pyenv-installer | bash安装成功后在.bash_profile(.bashrc)中添加三行添加自动补全。export PATH="$HO...

2018-03-22 23:27:55 896

原创 Hive | hive使用压缩

hive中的数据使用压缩的好处(执行查询时会自动解压):可以节约磁盘的空间,基于文本的压缩率可达40%+;压缩可以增加吞吐量和性能量(减小载入内存的数据量),但是在压缩和解压过程中会增加CPU的开销。所以针对IO密集型的jobs(非计算密集型)可以使用压缩的方式提高性能。主流的压缩算法查看集群的支持的压缩算法.hive -e "set io.compressi...

2018-03-11 18:59:44 2114

原创 Tableau 基础 | tableau连接hive

本文介绍使用tableau连接hive做一些大数据的分析。 软件环境mac sierratableau10.3 hive(集群使用的是阿里云的E-MapResuce)下载安装ODBC打开ODBC官网下载链接,选择相应操作系统对应的版本,本文下载的是mac版本的odbc。下载完成后,和一般软件一样点击安装即可。ps: 需要登录后,方可下载,所以需要注册一个c...

2018-02-06 00:56:39 11409

原创 使用Hexo快速搭建个人博客

作为一枚程序猿,可以通过写博客对最近一段时间工作和学习进行总结,同时也了提高表达能力。更重要的是在分享过程中,可以结交一些朋友,所以最近打算搭建一个博客网站。通过调研,使用Hexo(基于node.js的静态博客框架)+Github.io(用于部署网站的空间资源)可快速部署博客网站。本文基于MacOS环境搭建,自带Git,所以不需要再下载安装。 申请GitHub并创建相应的代码仓库He

2018-01-21 19:12:31 713

原创 电影《战狼2》的可视化分析

《战狼2》真心堪称中国的好莱坞大片,不管是打斗场景的展现,还是在特效的细节处理。吴京的那句“我只会花钱在武器上,花在取景上,永远不会花在小鲜肉上!”,也是近年来,观众对小鲜肉霸屏一种情怀的共鸣。基于对《战狼2》这么高热度的好奇,所以想爬取豆瓣电影上《战狼2》的评论,并做成词云,可视化展示观众对它的实际评论到底如何。核心流程分为3步:爬取评论,评论分词,绘制评论词云。知乎原文:网页链接 源码详见Gi

2017-09-03 17:09:53 3354

原创 关于拖延症的一些小思考

关于拖延症的一些小思考今天看了TED短片”你有拖延症吗?”,里面将有拖延症的大脑抽象为三个事物:及时行乐的猴子(来自于原始社会留下来的本能反应,是拖延症的罪魁祸首),理性决策人(做出合理的计划,和理性的判断),恐惧怪兽(在截止日期出现,给你带来对计划未完成的恐惧)。拖延症简介和对个人影响拖延症分为以下两种情况: 1. 有明确的截止日期:一般是短时间需要完成的事:一个工作任务,或别人的一个请求。在这

2017-04-30 00:43:16 692

原创 systemd

systemdLinux 操作系统的启动首先从 BIOS 开始,接下来进入 boot loader,由 bootloader 载入内核,进行内核初始化。内核初始化的最后一步就是启动 pid 为 1 的 init 进程。这个进程是系统的第一个进程。它负责产生其他所有用户进程。 大多数 Linux 发行版的 init 系统是和 System V 相兼容的,被称为 sysvinit。这是人们最熟悉的 i

2017-02-22 00:45:43 736

原创 Python 虚拟环境的搭建

Virtualenv virtualenvwrapperpython 虚拟环境

2016-11-06 23:04:44 852

原创 Tango学习笔记(1)

Tango 这个项目来源于 how to tango with django,内容比较基础,适合初学入门。官方解释说这是地球上最好的学习Django的教程。为什么选择这个项目省时提供最有效的信息,让你的大脑不必过滤一些无关紧要的内容。把精力花在最核心的事情上。优化学习路线使用Django框架进行web开发,可以大大地节省时间和避开一些问题。但是前提是你必须知道怎么使用它们。这个项目就是让你快速掌握它

2016-04-28 21:53:25 1035

原创 Tango学习笔记(二)

这一章节主要包含了Django 框架的安装和创建一个简单的基于Django的项目。开发环境是Windows,如果基于其他平台,命令有细小的差异配置环境安装Pip为了比较快捷的安装django,需要安装Pip工具,然后通过Pip可以快速的安装和管理Python的插件。首先我们需要下载 setuptools, 然后通过以下命令安装$ cd setuptools-1.1.6

2016-02-03 23:51:52 600

原创 Tango学习笔记(一)

今天开始通过学习搭建Tango这个项目来学习Django。据说这是地球上最好的Django动手教材。原文教材: How to Tango With Django 1.7Tango是什么?Tango是一个用户自定义的分类网站。主要功能如下:网站主页: 5个人气最高的网页5个人气最高的分类网页搜索当用户选择一个分类进入: 类别名,访问的人数相关的网页可基于Bing搜索网页和其他的流行的

2016-01-31 12:10:50 1123

原创 托管与非托管的混合编程

托管与非托管混合编程最直接的实现托管与非托管编程的方法就是使用C++/CLI源代码介绍项目存档一直是企业的采用的做法,而是事实证明他们也是对的!对于一个程序员,这是几千men-days的工作量。为什么不开发一小段代码去重新利用那段代码,项目。 现在提供了一个渐渐的转向C#的新技术: 使用托管与非托管的混合编程。这是一个可行的方案在top-down issue(from UI to

2015-12-12 21:49:30 6713 3

转载 C 语音 位运算详解

C语言提供的位运算符列表:运算符 含义 描述& 按位与 如果两个相应的二进制位都为1,则该位的结果值为1,否则为0| 按位或 两个相应的二进制位中只要有一个为1,该位的结果值为1^ 按位异或 若参加运算的两个二进制位值相同则为0,否则为1~ 取反 ~是一元运算符,用来对一个二进制数按位取反,即将0变1,将1变0>> 右移 将一个数的各二进制位右移N位,移到右端的低位被舍

2014-08-17 20:32:34 599

转载 51单片机最小系统

单片机最小系统,或者称为最小应用系统,是指用最少的元件组成的单片机可以工作的系统.对51系列单片机来说,最小系统一般应该包括:单片机、晶振电路、复位电路.下面给出一个51单片机的最小系统电路图.说明复位电路:由电容串联电阻构成,由图并结合"电容电压不能突变"的性质,可以知道,当系统一上电,RST脚将会出现高电平,并且,这个高电平持续的时间由电路的RC值来决定.典

2014-07-25 15:37:12 2398

原创 C# 串口通信相在资料链接(转贴) .

看看这些?希望对你有帮助。1、在C#中使用SerialPort类实现串口通信 遇到多线程问题  http://blog.21ic.com/user1/1949/archives/2010/66360.html2、C#基于事件驱动的多串口多线程串口通讯软件架构设计http://hi.baidu.com/rambochow/blog/item/b662cfc417887da58326a

2014-06-18 08:40:04 608

转载 舵机的相关原理与控制原理

舵机的相关原理与控制原理在机器人机电控制系统中,舵机控制效果是性能的重要影响因素。舵机可以在微机电系统和航模中作为基本的输出执行机构,其简单的控制和输出使得单片机系统非常容易与之接口。舵机是一种位置(角度)伺服的驱动器,适用于那些需要角度不断变化并可以保持的控制系统。目前在高档遥控玩具,如航模,包括飞机模型,潜艇模型;遥控机器人中已经使用得比较普遍。舵机是一种俗称,其实是一

2014-05-18 11:52:04 4542

Google C++ Style Guide

Google的c++编码规范,主要是关于代码编写的规范,如命名规范,注释规范等

2015-03-30

LinuxC语言编程

linux环境下的C语言编程,里面有大量的linux C 语言编程的实例

2014-01-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除