炫炫有牛腩-CSDN博客

原创 Rstudio-server、Rshiny-server、ggplot2中文乱码解决方法

气人的中文乱码今天将R代码迁移到一个新的服务器上，之前用ggplot2画的图中文都是乱码，还弄了半天，就像下面的位置，现在已经处理好了。本文记录一下这一次解决环境问题的乱码所用的方法。安装环境系统：unbuntu 16 R语言版本：3.4.4方式一：直接安装中文字体1、建立文件夹：/usr/shared/fonts/chinese 2、将windows的字体（c/win...

2018-05-25 22:59:41 6002 1

转载 SVN安装配置

一，安装svn服务器在Linux中安装了服务端， $ apt-get install subversion二、创建svn版本库2.1 根目录cd / mkdir svn svnadmin create /svn/code 创建代码版本库2.2 svnadmin create /svn/code创建文档版本库2.2.1 修改代码版本库配置文件vim /svn/...

2018-05-25 21:48:31 459

原创 ggplot2_聚类结果可视化

聚类结果图# load datdata("iris")iris = as.data.table(iris)# Seeking boundaryhulls <- iris[, .SD[chull(Sepal.Length, Petal.Length)], by = "Species"]# ggplotggplot() + geom_point(data = iris, aes(x

2017-11-06 22:51:20 7734

原创 unbuntu下R包安装报错问题

闲着将R升级到最近的3.4.1，然后出现了一个之前从未遇到过的一个问题，以此做记录。R版本R.version()[1] "R version 3.4.1 (2017-06-30)"问题描述安装 plotly包时出现问题报错报错内容：Package installation error: "C++11 standard requested but CXX11 is not defined"解决方

2017-09-24 12:30:15 1935

原创 R与Jupyter（windows）

安装安装anaconda（python 和 jupyter）在R中安装IRkernel安装anaconda很简单，主要记录IRkernel所需要的基础包安装IRkernel包（1）安装IRkernel 目前只能从github进行安装，所以需要先安装完所有的基础包。install.packages(c('repr', 'IRdisplay', 'evaluate', 'crayon', 'pb

2017-04-30 09:26:15 6018

原创特征-学习总结

总流程对于近期阅读进行整理归纳，仿照部分比赛PPT的特征构建过程进行总结，一般过程分为以下三个过程。特征构建特征筛选

2017-03-28 23:17:03 916

原创遗传算法--粗略理解

遗传算法案例： http://blog.csdn.net/qq_27755195/article/details/56597467编码常见的编码方法有：二进制编码、浮点编码、自然数编码、格雷编码、实数编码。。个人理解：编码指表现型到基因型的映射方法，根据求解问题的特点，将一种问题的解表达成字符串的方式。所以其实根据问题合理选择一个比较合适的字符串来表达自己问题就好，每个基因能准确的表达意义

2017-03-23 12:01:11 1358

原创 R语言-引用函数对象作为参数

问题描述如何在在R的函数中通过字符串调用别的函数。以下面为例子：testFun <- function(Fun){ x <- 1:100 Fun(x)}解法这个问题没什么其实很笨，就是想记录一下。#1. 直接调用testFun <- function(Fun){ x <- 1:100 Fun(x)}testFun(sum) # 5050testFun(Fun =

2017-03-17 17:41:22 8500 2

原创算法理解-模拟退火

求解函数以求解以下这么一个函数为例子，实现代码为R语言 f(x)=x∗sin(10∗π∗x)+2x∈[−1,2]f(x) = x*sin(10*\pi*x)+2 \\x \in[-1, 2] 其函数图像为：求解流程与概念初始解的产生又称做状态产生函数，通常由两部分组成： 1）第一次产生候选解的分布函数。 2）第一次产生候选解不满足条件的情况下，再次产生解的分布函数。下面采用的是标准

2017-03-16 23:50:50 7948 1

原创算法理解-粒子群算法（一个计算例子）

沿用上一篇中遗传算法的求解例子，其中代码参考游皓麟的R语言预测实战（这是一本好书）：遗传算法：http://blog.csdn.net/qq_27755195/article/details/56597467求解函数通过下面函数的求解，对粒子群算法进行学习： f(x)=x∗sin(10∗π∗x)+2x∈[−1,2]f(x) = x*sin(10*\pi*x)+2 \\x \in[-1, 2]

2017-03-15 10:38:14 50558 7

原创整数规划-求解方法整理

对于规划类问题的求解方法进行梳理，单解类解法指的是在搜索过程中维持单一解，种群类解法，在搜索过程中维持多个解。

2017-03-13 17:18:23 7806

原创加速R运算的简易方法-MRO

近期微软出了一个开源版本的R（Microsoft R OPEN），其运算速度据称有百分之40左右的提高，搭配上Visual Studio ide的环境感觉还不错。不过在快捷键上有些不适应，线下自己尝试了一下。新添加了不少功能：对于矩阵运算，速度上确实加快了不少，感觉与OPEN BLAS相当。但是更为重要的可能是，他提供了多线程的数学库，这意味着并行运算速度会有所提升。Microsoft R Se

2017-02-25 10:40:05 3016

原创算法理解-遗传算法（Genetic Algorithm）（一个带计算过程的例子）

想要快速的了解一个算法，最好的方式便是拿个例子手动进行实现算一遍。这里借鉴了网络上的一个例子，求解如下的一个函数： f(x)=x∗sin(10∗π∗x)+2x∈[−1,2]f(x) = x*sin(10*\pi*x)+2 \\x \in[-1, 2] 其函数图像为：例子来源： http://blog.csdn.net/emiyasstar__/article/details/6938

2017-02-23 01:49:40 107228 33

都到了17年的2月底才开始对2016年的一些人和事开始记录。2016年16年初我依旧欢快的沉醉在大三的生活里，每周五周日晚7点到9点都固定的去舞队的常规看着他们刻苦训练，纯粹的想看看他们认真的样子。大学到底是一个怎样的过程？大学四年估计我也没过个明白，但是我大概知道有那么几件事我可以不眠不休的做而且还很高兴，有那么几个人可以畅谈各种各样的事情，常见但是从不觉得油腻，有那么个集体，让你感到温馨舒服，像

2017-02-21 22:42:51 609

原创深入了解R语言-S4

R语言中的S4相比S3的具有层次结构，它有着明确的类定义、参数定义以及参数检查、继承关系、接口函数等，其编程特点都是基于泛型函数的面向对象编程。趁着假期整理一下近期对S4的学习整理。什么时候使用S4当自己想写一条具有泛化性的泛型函数。例如，我想建立一个简单的数值对战模拟：两个人物用普通攻击互砍，看HP先降为0。那么我们希望有一个泛型CommonAttack函数表达他们各自的普通攻击计算方式。即人

2017-02-02 16:48:52 5789 2

原创 TureSkill-实力评估

基础知识因子图对于节点个数和边数较多的图，无论是有向图还是无向图，图模型的分解性都很难直接从图中得到。而factor图为图模型提供了另一种表示方法，它是一种偶图，用于表示一种带有factor节点 f∈Ff \in F 和变量节点 v∈Vv \in V 的分解函数。图中每个factor节点对应函数中的一个因子，每个变量节点对应随机变量。通常，一个factor图可以被一个概率分布表示: p(V)

2017-01-10 19:05:08 914

原创 R语言-加快混合整数规划求解速度试验（1）

R语言中使用哪个求解器比较快最近尝试了不少的免费最优化求解器，其中包括Rglpk、Rsymphony、 gurobi等求解包进行求解混合整数规划问题。以windows、8G内存、i7处理器进行方程的求解。以一个625个变量，481个约束的问题分别进行求解测试。其中gurobi的不调整参数下求解时间最快大约61s，Rglpk和Rsymphony分别为393s,342s 。相比之下，gu

2017-01-08 16:04:35 3819 2

原创 R语言-大规模优化器（gurobi）

gurobi简介大规模优化器一般针对问题规模比较庞大，变量和约束数量达到几十万或者以上级别的问题。当前运筹学领域公认主流的大规模优化器中，商业优化器包括 Gurobi, Cplex, Xpress；免费优化器包括 SCIP, CBC, GLPK 等。其中Gurobi有提供学术免费版本，并且现在支持特定广义约束，可以直接输入Min, Max, Abs, 逻辑条件（AND, OR）等约束，而不必人为转换

2017-01-04 13:39:21 9695 1

原创一个0-1规划的建模例子

记录一个关于0-1规划问题（指派问题）模型的建立、实现、求解的过程。方便以后自己进行查阅。问题描述（基础）考虑这么一个分配问题有9个数，让他们其中分成2组每组不超过6人，每组又分成A、B两队，每队不超过3人。目标使得每组A、B两队和之差最小。用比较数学题的语言进行描述该问题，那么一般有2*2*3（一共3组、每组2队、每队最多3人）个位置可以进行工作安排，现有9人，如何安排才能使得每组AB两队比较平衡

2017-01-01 20:47:01 41202 4

原创 R语言-最优化_整数规划、线性规划求解（Rsymphony）

Rsymphony包简介Rsymphony，混合整数线性规划SYMPHONY 求解器，其中主函数有： Rsymphony_solve_LP(obj, mat, dir, rhs, bounds = NULL, types = NULL, max = FALSE, verbosity = -2, time_limit =

2016-12-27 14:23:01 18801

原创贪心算法

基本概念贪心算法是指，在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，他所做出的仅是在某种意义上的局部最优解。贪心算法解决的问题本身具有最优子结构性质，它可以用动态规划算法求解。但用贪心算法会更加的高效、简单、直接，所以其解体效率更高。因为贪心算法利用了问题的一些特殊的性质。贪心算法没有固定的算法框架，算法设计的关键是贪心策略的选择。必须注意的是，贪心算法不是对所有

2016-12-24 10:54:02 1077

原创 R语言-条件约束最优化_整数规划、线性规划求解（Rglpk）

Rglpk包简介Rglpk包中主要的函数有： Rglpk_solve_LP((obj, mat, dir, rhs, bounds = NULL, types = NULL, max = FALSE,control = list(), ...)) 其中参数：参数作用 obj 规划目标系数 mat 约束向量矩阵 dir 约束方向向量，有’>’、’<’、’=’构成

2016-12-20 09:51:00 24567 5

转载 Hadoop学习路线

Hadoop基础 Hadoop是一个能够对大量数据进行分布式处理的软件框架，它是一种技术的实现，是云计算技术中重要的组成部分，云计算的概念更广泛且偏向业务而不是必须拘泥于某项具体技术，云计算的存在只是一种新的商业计算模型和服务模式。因此，云计算才会出现“横看成岭侧成峰，远近高低各不同”，各种各样层出不穷的理解。对于初学hadoop的朋友来说可能基于迫切寻找一本入门的书，我个人觉得不用于急于寻找书，

2016-12-14 19:26:39 400

转载 Linux-基本操作-查找文件

Linux查找文件内容的常用命令方法。从文件内容查找匹配指定字符串的行： $ grep “被查找的字符串” 文件名例子：在当前目录里第一级文件夹中寻找包含指定字符串的.in文件 grep "thermcontact" */*.in从文件内容查找与正则表达式匹配的行： $ grep –e “正则表达式” 文件名查找时不区分大小写： $ grep –i "被查找的字符串" 文件名查找匹配

2016-12-14 17:05:43 303

原创 R语言-linux下devtools包、SparkR包安装

安装SparkR有两种方法，一种是通过devtools进行安装，一种是自行进行解压安装在安装之前SparkR之前需要安装： rjava; spark; R; Rstudio;一、通过devtools进行安装1. 安装devtools在安装devtools包前先执行如下命令：sudo apt-get install gfortransudo apt-get install build

2016-12-13 15:00:07 10089 1

原创 R语言-快速提取所有的组合

以 1， 2，3为例，要提取他们的所有组合的可能性，那么一共有C16+C26+C36C^1_6+C^2_6 + C^3_6 种情况，计算结果为：considerNum <- sapply(1:3, function(x) choose(3,x))# 3 3 1sum(considerNum)# 7为快速提取他们所有组合，用矩阵的思考方法，利用Bit矩阵进行提取。原理以1，2，3为例子。需用矩

2016-12-08 16:35:51 12769 1

原创 R语言-rjava安装(windows,linux)

总的来说2个步骤 1. 配置java 2. 配置rJava配置rJava配置rjava：设置环境变量，涉及java调用R（我的电脑右键-属性-高级设置-环境变量） CLASSPATH=R_HOME\library\rJava\jri; PATH=R_HOME\bin\x64 R_HOME=~\R-3.2.2第三步：~\R-3.2.2\library\rJava\jri的3个类包,

2016-12-05 23:33:22 4839

转载 R语言-字符串处理

摘自：http://www.biostatistic.net/thread-195-1-1.html用于字符串分割的函数：如strsplit('123abcdefgabcdef','ab')[[1]][1] "123" "cdefg" "cdef" 字符串连接：paste() #paste(..., sep = " ", collapse = NULL)字符串分割：strsplit()

2016-11-26 17:32:46 938

原创 python-ID3（理解）

来自机器学习实战一书# !/usr/bin/python# -*- coding: utf-8 -*-from math import logimport operatordef createDataSet(): dataSet = [[1, 1, "yes"], [1, 1, "yes"], [1, 0, "No"],

2016-11-19 21:37:57 1228 1

原创 python-knn（简版理解）

来自机器学习实战一书代码。### 函数板块import numpy as npimport operatordef creatDataSet(): group = np.array([[1.0, 1.1], [1.0, 1.0], [0,0], [0,0.1]]) labels = ['A','A','B','B'] return group, labelsdef cla

2016-11-18 11:00:26 619

原创分类问题中的类别不平衡-总结

问题形式该问题一般指的是训练集中正负样本数比例相差过大，其一般会造成以下的一些情况： 1. 类别少的误判惩罚过低，导致有所偏袒，当样本不确定时倾向于把样本分类为多数类。 2. 样本数量分布很不平衡时，特征的分布同样会不平衡。 3. 评价指标不可靠，例如常见解决方法进行重采样，过采样或欠采样人工合成新的数据。 1）基于经验，对属性值进行随机采样，生成新的样本。2）基于贝叶斯理论，对属性值

2016-11-13 14:31:05 5021

原创数据挖掘-鄙视问答题、面试题（整理）

基础概念异常值是指什么？请列举1种识别连续型变量异常值的方法？　　异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。　　Grubbs’ test 是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。　　未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉

2016-10-22 23:37:46 1836

原创 R语言-dplyr

主要函数函数作用 filter() 进行子集筛选，类似subset() arrange() 数据框重新排列 select() 进行变量的筛选，可以对starts_with、ends_with、contains、matches、num_range、one_of、everything等函数进行传递 mutate() 添加新列 transmute() 类似

2016-10-22 22:19:15 5084

原创数据挖掘鄙视题-数据库(查询)

1、如何写sql查询语句查找11位手机号码所有后四位尾数符合AABB或者ABAB或者AAAA形式的电话号码？设表PhoneNumselect phone from PhoneNum where (SUBSTRING(phone, 11)=SUBSTRING(phone, 10, 1) and SUBSTRING(phone, 9, 1)=SUBSTRING(pho

2016-10-15 10:42:11 1451 2

转载数据挖掘鄙视题-整理（多选）

通过数据挖掘过程所推倒出的关系和摘要经常被称为：(A B) A. 模型 B. 模式 C. 模范 D. 模具寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示，这个过程包括了以下哪些步骤？ (A B C D) A. 决定要使用的表示的特征和结构 B. 决定如何量化和比较不同表示拟合数据的好坏 C. 选择一个算法过程使评分函数最优 D. 决定用什么样的数据管理

2016-10-14 00:53:41 9100

转载数据挖掘鄙视题-判断题

数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。 (对)数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。（对）3. 图挖掘技术在社会网络分析中扮演了重要的角色。（对）模式为对数据集的全局性总结，它对整个测量空间的每一点做出描述；模型则对变量变化空间的一个有限区域做出描述。（错）寻找模式和规则主要是对数据进行干扰，使其符合某种规则以

2016-10-14 00:08:08 11950

原创数据挖掘鄙视题-整理（单选）

1、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理2、以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Reca

2016-10-14 00:04:31 9241 2

原创 python学习-基础命令

以数据df为例import pandas as pd;import numpy as np;date = pd.date_range('20140729', periods=6)df = pd.DataFrame(np.random.randn(6,4), index=date, columns=list('ABCD'))df A B

2016-10-08 17:12:03 467

原创线性回归-周期性表达

线性回归-周期性表达利用线性回归对周期性时间序列进行回归预测时，常用的一种表达方式是使用0-1哑变量进行表达。以星期为周期的数据进行举例说明：# 数据简介# rst：需拟合的值; date：日期data.example rst date 1: 112 2016-07-04 2: 118 2016-07-05 3: 132 2016-07-06 4: 129

2016-08-07 22:36:40 3461 2

原创 R语言-数据离散化与合并对象

cut函数cut函数可以快速的将连续型数据转变成离散数据。基本形式：cut(x, breaks, labels = NULL, include.lowest = F, right = T, dig.lab = 3, ordered_result = F)参数含义：参数描述 x 数值向量 breaks 指定分割点的数量的整数，或者制定分割点位置的向量 l

2016-08-04 16:02:25 6027

空空如也

空空如也