自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 Seatunnel及web安装搭建部署流程

如有需要可以访问https://seatunnel.apache.org/docs/seatunnel-engine/deployment/#6-config-seatunnel-engine-client。从https://seatunnel.apache.org/download/下载apache-seatunnel-2.3.3-bin.tar.gz。将相关jar包复制到/opt/seatunnel/web/apache-seatunnel-web-1.0.0-bin/libs。

2023-11-15 16:16:53 5239 10

原创 seatunnel及web安装常见问题与解决方法

替换脚本中的${SEATUNNEL_HOME}/mvnw为mvn,即可使用本地mvn,配合阿里云的mvn源,可加速下载。修改其安装插件相关脚本,复制install-plugin.sh重命名为install-plugin-mvn.sh。seatunnel安装的时候,居然要使用mvnw来下载jar包,而且是从。然后执行install-plugin-mvn.sh即可。下载,速度及其缓慢,改用自己本地的mvn下载。

2023-11-13 20:04:01 5336 21

原创 【无标题】

DataSophon官方网站大数据管理平台DataSophon-1.1.1安装部署详细流程Datasophon添加第三方组件–FLINKSTANDALONE大数据管理平台DataSophon-1.1.1安装部署详细流程

2023-07-19 10:52:43 177

原创 flink 股票

1.今日指数项目之FlinkCEP介绍_flink cep的优势_Maynor996的博客-CSDN博客.2基于 Flink 流计算实现的股票交易实时资产应用_flink 股票_Apache Flink的博客-CSDN博客Flink代码之窗口函数,求最大最小,平均值(三)_flink window窗口数据取最大值_Hi Xiu Hui的博客-CSDN博客 3.Flink旁路输出特性简单实例:按照股价对股票进行数据分流并写出到文本文件_2020GetGoodOffer的博客-CSDN博客4.第5章-实时计算

2023-06-04 23:40:11 178

原创 VC维的图像解释

VC理论是一个于1960年代到1990年代由弗拉基米尔·万普尼克(Vapnik)及Alexey Chervonenkis建立的一套机器学习理论,使用统计的方法,因此有别于归纳学习等其它机器学习方法。看了几篇文章,可能由于自己的理解能力有问题,还是没有搞明白什么是VC维,但是当我把文章中的论述画到图上的时候,忽然间豁然开朗。蛋疼的数学描述!定义传统的定义是:对一个指标函数集,如果存在H个...

2019-04-23 17:10:27 273

原创 最通俗易懂的解释卷积神经网络

什么是卷积神经网络?为什么它们很重要?卷积神经网络(ConvNets 或者 CNNs)属于神经网络的范畴,已经在诸如图像识别和分类的领域证明了其高效的能力。卷积神经网络可以成功识别人脸、物体和交通信号,从而为机器人和自动驾驶汽车提供视力。在上图中,卷积神经网络可以识别场景,也可以提供相关的标签,比如“桥梁”、“火车”和“网球”;而下图展示了卷积神经网络可以用来识别日常物体、人和动物。最...

2019-01-17 18:51:45 9236 3

原创 机器学习最佳实践,Google机器学习43条军规:

本文是对Rules of Machine Learning: Best Practices for ML Engineering一文的翻译和解读。看过我翻译文章的同学知道我翻译文章一般都不太老实,没有那么“忠于原著”,本篇也不例外,本篇对于原文的解读大概有三种形式:原文翻译。对于作者本身阐述的比较好,而我也没什么可补充的部分,基本会原文翻译。半翻译半解读。有的条目我觉得有些自己的经验和感想可以和大...

2018-05-23 14:31:07 2663

原创 用python参加Kaggle的些许经验总结

最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。Step1: Exploratory Data AnalysisEDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括:每个feature的意义,feature的类型,比较有用的代码如下df.describe()df['Category'].

2016-11-08 15:39:21 1756

原创 机器学习-树类模型总结

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

2016-03-07 19:52:07 685

原创 Java性能调优以及jvm相关知识

1.Java内存调试工具http://itzoo.info/?p=2562.Java内存调试案例http://www.cnblogs.com/zhengyun_ustc/archive/2013/03/18/tda.html3.Java内存组成http://www.cnblogs.com/jackyrong/archive/2010/01/21/

2016-03-03 14:08:17 1068

原创 java日志丢失故障处理导致的死锁问题

从报表A中发现数据丢失,然后找到程序运行的日志,发现日志只有一小部分,平常12G,今天只有243M但是报表B中发现程序运行完毕。因此可以推断程序在运行,但是日志丢失了。 根据proc文件系统来找相关的信息发现几个log文件打开文件发现确实是今天丢失的文件,Tail –f一下文件发现,有一个线程一直在等待说明文件中的线程发生了死

2016-03-02 21:06:03 1586

原创 推荐博客文章收藏

LinkedIn Feed: 更少的 JVM 垃圾收集更快的速度1. ArrayList 使用 get(i) 简单的进行随机访问,节省了迭代器开销2. 使用明确的大小初始化 HashMap 可以避免重新调整大小的开销。初始容量使用输入数组的大小除以载荷因子 0.73. 延迟表达式求值4. 预先编译正则表达式模式将会节省每次编译所耗费的 CPU 和内存5. 尽可能多的缓存:不过我

2016-02-19 13:10:36 367

原创 vimdiff 使用比较

1.vimdiff切换窗口的焦点(vimdiff 光标切换)  在两个窗口直接切换光标ctrl+ww (必须是双击w)

2016-02-18 11:50:40 849

原创 信息提取工具资料列表

在数据挖掘与推荐系统中,经常需要对许多非结构化的信息进行处理,其中一个很重要的工作就是信息抽取,本篇就中文信息提取的相关资料做一个简单列表。全文和文章元数据抽取开源Python库:newspaperPython-goose:用于文章提取的Python库IEPY总结Python正文提取的工具包BoilerPipe ——

2016-01-22 21:06:08 533

原创 shell获取指定日期前(后)N天日期

shell获取指定日期前n天的数据:shell获取指定日期前1天的数据:date -d "20151001 1 days ago " "+%Y%m%d"date -d "20151001 1 days ago " "+%Y%m%d"shell获取指定日期后n天的数据:shell获取指定日期后1天的数据:date -d "201510

2015-12-09 18:16:33 30125 4

原创 在windows下面调试linux代码

方式1:映射网络:输入映射的网络位置:输入用户名和密码在指定的服务器上使用  samba  搭建共享目录在windows下访问

2015-06-25 16:06:44 810

原创 常见机器学习算法总结

机器学习算法主要分为以下2种:有监督与无监督。再细分可分为四种:分类,聚类,回归,关联四大类算法。分类与回归属于有监督学习。聚类与关联属于无监督学习。分类算法主要有KNN,决策树,朴素贝叶斯,SVM,逻辑回归,Adaboost算法。        KNN算法:基于距离进行分类,选取前K个最相似的样本,看这K个样本中,那个类别多,则预测结果就是哪一类样本。  

2015-06-16 19:18:35 1054

原创 基础算法之一(算法概论)

常见的基础算法有:分治、动态规划、贪心、回溯与分支限界等,常用的技巧方法有:递归,递推,空间时间互换,缓存,重叠子问题,记忆化。算法的本质是:状态,状态的转移,问题的定义,以及子问题的定义。分治算法思想: 分而治之,大事化小小事化了。一句话:化繁为简。动态规划思想:由前一个或者几个状态得到得到最优状态,而不管这个最优状态是如何得到的(最优子结构+无后效性)。

2015-06-16 19:10:02 750

原创 机器学习算法使用原则

在网络上看到一个很好的例子来说明机器学习的算法的大致的使用原则:

2015-05-19 13:19:05 539

原创 Linux下调试c++之gdb

GDB概述GDB是一个强大的命令行调试工具。大家知道命令行的强大就是在于,其可以形成执行序列,形成脚本。UNIX下的软件全是命令行的,这给程序开发提代供了极大的便利,命令行软件的优势在于,它们可以非常容易的集成在一起,使用几个简单的已有工具的命令,就可以做出一个非常强大的功能。于是UNIX下的软件比Windows下的软件更能有机地结合,各自发挥各自的长处,组合成更为强劲的功能。而W

2015-05-11 18:01:46 511

原创 C++读写文件

linux下的C++读写文件和Java类似只是读写文件更加方便#include #includ

2015-05-06 15:09:00 571

原创 hadoop的HDFS之增删改查基本操作

1 查找列出某个目录下的文件名称,hdfs命令如下所示:hdfs dfs –ls/usr/appjava代码片段:public void list(String srcPath) { Configuration conf = new Configuration(); LOG.info("[Defaultfs] :" +conf.get

2015-05-04 16:02:27 1314

原创 hadoop的hdfs文件常用命令操作

在工作中最常用的就是使用hdfs提供的命令:使用hadoop fs -help 就能显示出所有的命令,并将其参数和用途显示出来。hadoop命令可以直接当做是shell命令,其结果也可以使用shell命令进行操作,比如使用awk进行一些简单的统计。将hadoop   fs  -help的结果显示出来的所有命令熟悉以后,基本上日常的一些基本操作都能满足。

2015-05-04 15:42:16 706

原创 22条创业军规,让你5分钟读完《创业维艰》

本·霍洛维茨,硅谷资深创业者,“硅谷最牛的50个天使投资人”之一。  1999年他与网景之父马克·安德森共同创立Loudcloud公司,后转型为Opsware公司,在互联网泡沫的恶劣大环境下,数次带领公司起死回生,并最终成功以16亿美元的高价将公司出售给惠普。  多年以后他用这样一句话总结他的创业时光:“在担任CEO的8年多时间里,只有3天是顺境,剩下的8年几乎全是举步维艰。”  大多

2015-04-15 19:39:09 1082

原创 Linux中C++基础

1.局部变量,全局变量。  当局部变量与全局变量重名时,以局部变量为准,此时如果要使用全局变量,要用::全局变量2.常量   定义方式:#define 常数名=常数值   #define constance_name = constance_value3.声明常量   Const 类型 常量名 常量值  Const   type const_name

2015-04-15 17:42:05 414

原创 Linux下C++的Helloword

1.  进入linux环境2.  编写linux的hello程序3.  编译文件,生成可执行文件4.  执行程序,查看效果

2015-04-15 14:06:24 674

原创 机器学习实践中的7种常见错误

统计建模非常像工程学。在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很多分类器构建算法,每个算法构造一组不同的关于数据的假设集合。当处理少量数据时,尝试尽可能多的算法,然后挑选最好的一个的做法是比较合理的,因为此时实验成本很低。但当遇到“大数据”时,提前分析数据,然后设计相应“管道”模型(预处理,建模,优化算法,评价,产品化)

2015-04-14 10:30:32 469

原创 linux 定时任务

1. linux的定时任务设置在/etc/crontab文件中,使用命令查看cat /etc/crontab在/etc目录下有一个crontab文件,这里存放有系统运行的一些调度程序。每个用户可以建立自己的调度crontab。2. 定时任务的用户设置在/etc/cron.deny 和 /etc/cron.allow 文件中/etc/cron.deny 表示不能使用c

2015-03-19 16:16:09 754

原创 开发中windows 使用常用技巧

1.在windows所在文件夹中直接打开所在的位置的命令行:按下shift键+鼠标右键   不按下shift时候鼠标右键如下图:   按下shift时候鼠标右键如下图:  然后点击在此处打开命令窗口就直接打开目前所在文件夹的命令行了:

2015-03-10 10:21:15 374

原创 word常用的小技巧

在日常工作中,我们常常需要使用office写报告,word是最常用的。下面就介绍一下常用的word使用技巧。1.word吃字   一般来说,word吃字主要是因为我们将插入状态变为改写状态了只需要用鼠标点击这里,就能修改状态了,或者按键盘上的 Inert键,也能修改状态。

2015-03-04 13:05:13 438

原创 CTR评估标准及ROC与AUC

在CTR的评估标准中,一般使用AUC和ROC来进行评估,而不是使用传统意义上的准确率,精确率和召回率等评估标准。具体原因在相关的资料中有详细说明auc和roc相关的资料:ROC和AUC介绍以及如何计算AUC:http://www.douban.com/note/284051363/AUC与ROC - 衡量分类器的好坏:http://beader.me/2013/12/1

2015-03-04 09:50:11 1578

原创 ubuntu 只显示当前路径的目录

在Ubuntu的默认设置中,在终端命令行中每次都会显示绝对路径注意:有的Ubuntu的bashrc设置在 /etc/bash.bashrc 中想要将Ubuntu的终端,中的绝对路径的显示,变成当前路径(文件夹)的话,则需要去修改自己的.bashrc,将其中的小写的w,改为大写的W即可:gedit ~/.bashrc然后 source ~/.bashrc

2015-03-03 15:00:58 4486

原创 visualsvn serve 管理

1.安装2.添加repository3添加代码和用户4.迁移repository    直接拷贝又有的repository,然后在svn管理器中import就行了

2015-02-05 18:44:22 456

原创 liblinear与libsvm官方论文翻译

本为是对Liblinear和Libsvm的官方实践文档的初略翻译:Liblinear是一个可快速进行计算的大规模线性分类库。A  Practical Guide to Liblinear1.什么时候使用线性分类(Liblinear)而不是非线性分类器(Libsvm)2.数据准备   典型的数据有如下两个特点:1)特征数量的多(成千上万维特征)。2)每一个示例

2015-02-03 21:17:19 933

原创 liblinear与libsvm学习资源

1.首先第一个资源就是官方网站了:liblinear : http://www.csie.ntu.edu.tw/~cjlin/liblinear/libsvm    : http://www.csie.ntu.edu.tw/~cjlin/libsvm/在官网上面可以看到很多原汁原味的论文和原理,使用说明,例子等2.本站博客:       LibLinear(SVM包

2015-01-29 15:09:10 660

原创 java 奇技淫巧

1.import 与 import static   import   org.apache..... 指 导入某个java类,基本程序员都知道什么意思   import static   org.apache......*(注意后面的点星)指 导入 某个类里面的静态方法和静态变量   在当前的类中可以直接使用那些静态方法和静态变量

2015-01-22 17:14:51 1530

原创 maven 安装及常用命令和调试

现在许多项目都使用maven进行管理,下面就maven的常用的知识做一个简单的介绍 预备知识 本文假设您以掌握如下的知识  JDK 的安装及使用   eclipse 的安装及使用   简单的命令行方式 Maven安装与配置安装安装maven前,请确保已经安装了jdk和Eclipse,并做好了相应的配置。 到maven官网http://maven.

2015-01-22 14:36:22 1151

原创 java 反射机制及其应用

java反射机制属于java的高级功能,两年前就学习过了,当时感觉非常明白,但是现在好多东西都想不起来,因此再从头学习一遍,并做一些简单的记录。最常见的方法:Class.forName(className).newInstance() 对于带有构造函数和参数的对象,使用下面的方法来创建对象 Class cls = Class.forName(classNam

2015-01-21 19:29:37 479

原创 J2SE系列之IO流(不断更新)

写了这么几年java了,好多东西天天在用,但是没有系统的总结,因此应该把所学所用的东西多总结一下了,这是java基础系列的J2SE部分java的io部分主要的类或接口如下:从上表可以看出主要有字节,字符,输入,输出,文件这几类,然后组合成 字节(字符)输入流,字节(字符)输出流,文件的输入输出均为随机存取文件类。字节流和字符流的区别:1.字节流单位为一个字节,字

2015-01-21 15:28:55 571

原创 cmake 使用 杂记

1.查看是否按照cmake   cmake -version

2015-01-19 17:17:59 430

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除