自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (2)
  • 收藏
  • 关注

原创 IK 分词器空格支持

IK 分词器,支持带空格的分词背景ES 用到 中文(IK) 分词;IK分词器 词典是不支持空格的! 尝试在词典中 加入带空格的 关键词, 也不能正确分词。思路直接修改源码步骤下载代码,refer: elasticsearch-analysis-ikidea 导入工程,切换到对应分支或者 tag(version 要求和 ES完全匹配)org.wltea.analyzer.core.CharacterUtil 做如下修改:org.wltea.analyzer.dic.Diction

2021-02-14 17:28:36 782 1

原创 redash on spark-thriftserver

 redash 的 数据源中不包括spark-thriftserver, 而spark-thriftserver 的出现是为了替代 hiveserver2 直接执行sql。尝试修改 redash 中 hive 相关的逻辑 以此来支持spark-thriftserver。1. 测试环境: centos 7 spark2.4.3 hadoop2.102. 安装redash新建文件:docker-compose.yamlversion: '2'servi...

2020-06-18 17:27:40 858 1

原创 aws s3 授权方式

refer:https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html#Authenticating_with_S3

2020-05-09 21:02:24 835

原创 clickhouse 执行计划查看

clickhouse-client -u xxxx--password xxxxxx--send_logs_level=trace <<< 'your query sql' > /dev/null

2020-05-05 17:23:24 2516

原创 clickhose 基本知识点

2020-05-04 20:24:54 476

原创 clickhouse's zookeeper

2020-04-09 10:34:37 356

原创 git 常用命令

2020-03-06 21:10:35 126

原创 java 模拟telnet 发动http 请求

1. telnet 方式:1.1 telnet map.baidu.com1.2 输入:Alt + ]1.3输入:GET /?qt=ipLocation HTTP/1.11.4 输入:HOST:map.baidu.com1.5 输入:Cookie:BAIDUID=AAAA两次回车2. java Socket s = new Socket("m...

2019-08-22 15:38:36 2251

原创 基于腾讯api 语言识别

功能: 录音文件的识别准备:https://cloud.tencent.com/document/product/1093/35800 注册帐号, 申请SECTET_Id, SECRET_KEY1. 发送请求import org.apache.commons.codec.binary.Base64;import org.apache.http.client.methods.Ht...

2019-08-02 16:25:10 2879

原创 微信域名拦截检测

微信域名拦截采用云拦截的机制, 那么如果检测一个域名是否被拦截那?1. 第一步:浏览器打开地址:https://wx.qq.com/登录网页微信2. 打开浏览器调试模式, 一般为F12, 找到:找到Cookie 和User-agnet3. 代码 用第二部的参数替换代码中的cookie, useragent 测试: public boolean isBloc...

2019-07-26 09:56:22 7008 1

原创 跨域多站点独立用户分析

问题:如何把不同站点的用户进行关联起来A、B、C、D 多个站点可能是一级域名相同, 可能是完全两个不同的域名, 如何把多个站点儿的用户关联起来那?实例:假设要计算A、B、C、D的独立用户数1. 准备cookeicenter 服务import org.springframework.web.bind.annotation.*;import javax.servlet.htt...

2019-07-24 11:06:48 3110

原创 frp 基于阿里云跳板 暴露内网机器作为服务器调试、提供服务

背景:把内网研发机器(没有公网)暴露在公网上提供服务:真实提供服务,小程序、公众号码测试环境: linux, 阿里云机器(A), 本地内网机器(B)1. 下载 frpwget https://github.com/fatedier/frp/releases/download/v0.21.0/frp_0.21.0_linux_386.tar.gz解压2. 编辑服务器(A)配置:f...

2019-05-27 10:10:56 9166

原创 个人建站基本流程

背景:基于阿里云搭建个人小站1. 注册阿里云账号:阿里云注册填写昵称、密码、手机号即可。这里有一个限制, 也是个人不喜欢的, 就是手机号不能使用阿里云小号2. 首先需要一个自己的域名, 购买一个自己的域名, 便宜的大约10元左右。这里一般购买未注册域名,当然有钱人可以收购一个已经注册的域名。域名购买3. 域名备案,在国内, 没有备案的域名是不能使用的。备案周期大约为2...

2019-05-22 12:59:32 16615 3

原创 短网址简介

1. 什么是短网址?短网址也就是比较短的网址,其功能是把短网址压缩,例如:把https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E4%BA%94%E4%B8%80%E6%94%BE%E5%81%87&oq=react%2520color&rsv_pq=9...

2019-04-23 16:13:28 9811 1

原创 scrapy hello world

1. 安装:pip install Scrapy2. 新建工程scrapy startproject myspider3. 测试spiders 目录下新author_spider.py:import scrapyclass AuthorSpider(scrapy.Spider): name = 'author' def start_requests(sel...

2019-04-01 10:04:04 17492

原创 tesseract 训练数据基本步骤

unbunt 18.04 安装tesseractjar 包:jTessBoxEditor 下载1. 生成tifjTessBoxEditor -> tools -> merge tif2. 生成box 文件tesseract chi_sfz.normal.exp0.tif chi_sfz.normal.exp0 -l chi_sim batch.nochop makebox...

2019-03-27 10:14:33 20818

原创 mysql 导入大数据文件

1. 切割文件, 把文件按照每200W行拆分一个文件split -l2000000 -d all.csv part_ --verbose2. 逐个文件导入load data infile '/var/lib/mysql-files/mg/part_00' ignore into TABLE yourTablefields TERMINATED by ',' ENCLOSED BY '...

2019-03-20 17:29:24 23588

原创 查询公网出口ip, 命令行查询公网出口ip

1. 浏览器:http://api.online-service.vip/ip/me2. 命令行: curl api.online-service.vip/ip/me 

2019-02-19 17:30:11 61429 1

原创 selenium 动态填充表单, 模拟鼠标右键保存图片

1. 下载驱动,解压驱动(测试环境ubuntu 18.04)http://npm.taobao.org/mirrors/chromedriver/ 2. 代码import org.openqa.selenium.*;import org.openqa.selenium.chrome.ChromeDriver;import org.openqa.selenium.chrom...

2019-02-15 14:25:59 59976

原创 csdn 访问刷榜

原理: 通过访问文章的次数,提高访问次数,从而提高积分和排名环境: ubuntu 18.04,  scrapy 框架目的: 纯属好奇1. 创建爬虫:csdnblog_spider.py# coding: utf8import scrapyclass CsdnblogSpider(scrapy.Spider): name = 'csdn' def start_r...

2019-01-31 09:16:26 80957 2

原创 数的深度广度优先遍历

import java.util.Queue;import java.util.concurrent.LinkedBlockingQueue;class TreeNode{ int item; TreeNode left; TreeNode right;}public class test1 { public static void walkDeep...

2018-12-10 15:57:15 80773

原创 寻找第i 小的数

思想借鉴快排, 但是时间复杂度是快排的一半public class test1 { public static int serarch(int[] array, int low, int high, int findIndex){ int lowHis = low; int highHis = high; if(low &gt;= ...

2018-12-10 14:31:38 81404

原创 BST 二叉搜素树, 排序算法一种

1. 二叉2. 根大约整个左字数, 小于整个右子数class Node{ int num; Node left; Node right;}public class BST { public static void bstSort(Node node, int item){ if(node.num &lt; item){ ...

2018-12-07 17:46:11 80594

原创 求解最长公共子序列:动态规划, 子问题分解

求解最长公共子序列:动态规划, 子问题分解 public String LCS(String str1, String str2){ if(str1.length() == 0 || str2.length() == 0) return ""; if(str1.charAt(str1.length() -1) == str2.charAt(str2.le...

2018-12-06 17:48:14 81022

原创 trie 字典树构造

import org.junit.Test;import java.util.ArrayList;public class MyTest { // 单词 class Word{ char lastChar; // 单词最后一个字符 int wordCount = 0; // 词频 } // 字典树 class Tre...

2018-12-04 17:54:57 81353

原创 基本的排序算法

1. 冒泡排序 public static int[] SmallBubbleSort(int[] array){ for(int i = 1; i &lt; array.length; i++){ for(int index = array.length - 1; index &gt;= i; index --){ i...

2018-11-20 14:32:35 80084

原创 Flume TailDir 基本流程

taildir 工作流程

2016-10-27 15:41:10 82769

原创 Flume 安装, 测试

1. 安装选择适合自己的版本:[下载](https://flume.apache.org/download.html)2. 解压gunzip flume-ng-1.6.0-cdh5.5.1.tar.gz3. 测试 3.1 mkdir test 3.2 cd test && mkdir logs 3.3 touch flume-conf.propertiestest.

2016-10-26 17:59:35 78772

原创 spark 源码分析

spark 整体架构 spark 四块最重要的:sparkSqlspark流处理机器学习图计算spark 2.0 源码结构 spark最核心的代码:https://github.com/apache/spark分析源码的方法从bin 文件夹开始,我们同常会打开一个spark-shell, 提交任务spark-sbumit, 加入我们执行spark-submit, 那么打开

2016-09-29 15:07:23 78057

原创 hive streaming

1. hive 的streaming 包括:    map(), reduce(), transform(), 常用的为transform2. 恒等变换select transform(name, salary) using "/bin/cat" as new_name, new_salary from employees where country = 'CHINA';

2016-05-10 20:40:46 75568

原创 Hive 调优

1. 使用 explain 查看执行计划explain extended select count(distinct(name)) from employees;2. 调整limit 相关参数一条查询语句如果有limit 限制, 他也会扫描整个表3. 严格模式修改hive-site.xml     hive.mapred.mode    

2016-05-10 11:03:54 74990

原创 Hive 分区

1. 建立多个表,每个表导入不同的数据create table test_1 (id int);create table test_2 (id int);create table test_3 (id int);............2. 创建分区表create table test(id int) partitioned by (name sting);

2016-05-10 08:28:41 75989

原创 HiveQL 查询

1. 创建表CREATE TABLE employees (name STRING,salary FLOAT,subordinates ARRAY,deductions MAP,address STRUCT)PARTITIONED BY (country STRING, state STRING)ROW FORMAT DELIMITEDFIELDS TE

2016-05-10 08:28:10 75948

原创 hive 基本操作

一. 简单的表操作1. 创建一个表   create table test(id int);2. 从本地导入数据   LOAD DATA LOCAL INPATH '/opt/hive/current/testdata/a.txt' INTO TABLE test;   其中a.txt 内容为:   1   2   3   43. 测试数据是否导入   

2016-05-06 17:11:31 76962

原创 Hive 安装

1.先决条件  要先安装hadoop, 官网下载hadoop-2.7.2.tar.gz2.安装hive1)下载hive apache-hive-2.0.0-bin.tar.gz2)解压 tar -zxzf apache-hive-2.0.0-bin.tar.gz3)修改/etc/profile文件,添加如下:  export HIVE_HOM

2016-05-06 09:54:04 77667

原创 vim 常用命令

1. 编辑模式   :I 光标移动到当前行首进行编辑   :i  在当前位置进行编辑2.  保存相关操作   :w     将缓冲区写入文件,即保存修改   :wq     保存修改并退出   :x     保存修改并退出   :q     退出,如果对缓冲区进行过修改,则会提示   :q!     强制退出,放弃修改3. 批量操作    1

2016-02-24 14:17:52 77906

原创 创建自己的gem

1. 创建下面的目录结构   myfirst_gem/├── lib│   └── myfirst_gem.rb└── myfirst_gem.gemspec2. 修改myfirst_gem.rb   class MyfirstGem     def self.hello_world        puts "Hello world!"     end   

2016-02-24 11:00:14 78496

原创 scala------类型参数

1. 泛型类   class Test1[T](val p1: T){    def t1():Unit = {        println("there is " + p1)    }}object Test {    def main(args: Array[String]): Unit = {      val t1 = new Test1("haha")

2016-02-22 17:16:43 79007

原创 scala------match

1. 普通match object Test {    def main(args: Array[String]): Unit = {      val a = "c"      a match {          case "a" => println("a")          case "c" => println("c")           case _

2016-02-22 11:22:10 79063

原创 scala------集合

1. 集合    序列(seq):有先后次序的序列                           val l = List(1, 2, 3)    集合(set):没有先后顺序的序列                          val s = Set(1, 2, 3)    映射(map):键值对数据                           var 

2016-02-22 11:21:46 79705

中国5级省市编码爬去整理(统计用区划和城乡划分代码)

中国5级省市编码爬去整理(统计用区划和城乡划分代码)

2019-01-07

PHP开发手册

pHp开发手册,面对php的初级学习者,希望对大家有所帮助

2011-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除