eiffel_0311-CSDN博客

原创 IK 分词器空格支持

IK 分词器，支持带空格的分词背景ES 用到中文（IK）分词;IK分词器词典是不支持空格的！尝试在词典中加入带空格的关键词，也不能正确分词。思路直接修改源码步骤下载代码，refer: elasticsearch-analysis-ikidea 导入工程，切换到对应分支或者 tag(version 要求和 ES完全匹配)org.wltea.analyzer.core.CharacterUtil 做如下修改：org.wltea.analyzer.dic.Diction

2021-02-14 17:28:36 782 1

原创 redash on spark-thriftserver

　redash 的数据源中不包括spark-thriftserver, 而spark-thriftserver 的出现是为了替代 hiveserver2 直接执行sql。尝试修改 redash 中 hive 相关的逻辑以此来支持spark-thriftserver。1. 测试环境： centos 7 spark2.4.3 hadoop2.102. 安装redash新建文件：docker-compose.yamlversion: '2'servi...

2020-06-18 17:27:40 858 1

原创 aws s3 授权方式

refer：https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html#Authenticating_with_S3

2020-05-09 21:02:24 835

原创 clickhouse 执行计划查看

clickhouse-client -u xxxx--password xxxxxx--send_logs_level=trace <<< 'your query sql' > /dev/null

2020-05-05 17:23:24 2516

原创 clickhose 基本知识点

2020-05-04 20:24:54 476

原创 clickhouse's zookeeper

2020-04-09 10:34:37 356

原创 git 常用命令

2020-03-06 21:10:35 126

原创 java 模拟telnet 发动http 请求

1. telnet 方式：1.1 telnet map.baidu.com1.2 输入：Alt + ]1.3输入：GET /?qt=ipLocation HTTP/1.11.4 输入：HOST:map.baidu.com1.5 输入：Cookie:BAIDUID=AAAA两次回车2. java Socket s = new Socket("m...

2019-08-22 15:38:36 2251

原创基于腾讯api 语言识别

功能：录音文件的识别准备：https://cloud.tencent.com/document/product/1093/35800 注册帐号，申请SECTET_Id， SECRET_KEY1. 发送请求import org.apache.commons.codec.binary.Base64;import org.apache.http.client.methods.Ht...

2019-08-02 16:25:10 2879

原创微信域名拦截检测

微信域名拦截采用云拦截的机制，那么如果检测一个域名是否被拦截那？1. 第一步：浏览器打开地址：https://wx.qq.com/登录网页微信2. 打开浏览器调试模式，一般为F12, 找到：找到Cookie 和User-agnet3. 代码用第二部的参数替换代码中的cookie, useragent 测试： public boolean isBloc...

2019-07-26 09:56:22 7008 1

原创跨域多站点独立用户分析

问题：如何把不同站点的用户进行关联起来A、B、C、D 多个站点可能是一级域名相同，可能是完全两个不同的域名，如何把多个站点儿的用户关联起来那？实例：假设要计算A、B、C、D的独立用户数1. 准备cookeicenter 服务import org.springframework.web.bind.annotation.*;import javax.servlet.htt...

2019-07-24 11:06:48 3110

原创 frp 基于阿里云跳板暴露内网机器作为服务器调试、提供服务

背景：把内网研发机器(没有公网)暴露在公网上提供服务：真实提供服务，小程序、公众号码测试环境: linux，阿里云机器（A）, 本地内网机器(B)1. 下载 frpwget https://github.com/fatedier/frp/releases/download/v0.21.0/frp_0.21.0_linux_386.tar.gz解压2. 编辑服务器（A）配置:f...

2019-05-27 10:10:56 9166

原创个人建站基本流程

背景：基于阿里云搭建个人小站1. 注册阿里云账号：阿里云注册填写昵称、密码、手机号即可。这里有一个限制，也是个人不喜欢的，就是手机号不能使用阿里云小号2. 首先需要一个自己的域名，购买一个自己的域名，便宜的大约10元左右。这里一般购买未注册域名，当然有钱人可以收购一个已经注册的域名。域名购买3. 域名备案，在国内，没有备案的域名是不能使用的。备案周期大约为2...

2019-05-22 12:59:32 16615 3

原创短网址简介

1. 什么是短网址？短网址也就是比较短的网址，其功能是把短网址压缩，例如：把https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E4%BA%94%E4%B8%80%E6%94%BE%E5%81%87&oq=react%2520color&rsv_pq=9...

2019-04-23 16:13:28 9811 1

原创 scrapy hello world

1. 安装：pip install Scrapy２. 新建工程scrapy startproject myspider３. 测试spiders 目录下新author_spider.py:import scrapyclass AuthorSpider(scrapy.Spider): name = 'author' def start_requests(sel...

2019-04-01 10:04:04 17492

原创 tesseract 训练数据基本步骤

unbunt 18.04 安装tesseractjar 包：jTessBoxEditor　下载1. 生成tifjTessBoxEditor -> tools -> merge tif2. 生成box 文件tesseract chi_sfz.normal.exp0.tif chi_sfz.normal.exp0 -l chi_sim batch.nochop makebox...

2019-03-27 10:14:33 20818

原创 mysql 导入大数据文件

１. 切割文件，　把文件按照每200W行拆分一个文件split -l2000000 -d all.csv part_ --verbose２. 逐个文件导入load data infile '/var/lib/mysql-files/mg/part_00' ignore into TABLE yourTablefields TERMINATED by ',' ENCLOSED BY '...

2019-03-20 17:29:24 23588

原创查询公网出口ip，命令行查询公网出口ip

1. 浏览器：http://api.online-service.vip/ip/me2. 命令行： curl api.online-service.vip/ip/me

2019-02-19 17:30:11 61429 1

原创 selenium 动态填充表单，模拟鼠标右键保存图片

1. 下载驱动，解压驱动（测试环境ubuntu 18.04）http://npm.taobao.org/mirrors/chromedriver/ 2. 代码import org.openqa.selenium.*;import org.openqa.selenium.chrome.ChromeDriver;import org.openqa.selenium.chrom...

2019-02-15 14:25:59 59976

原创 csdn 访问刷榜

原理：通过访问文章的次数，提高访问次数，从而提高积分和排名环境: ubuntu 18.04, scrapy 框架目的: 纯属好奇1. 创建爬虫:csdnblog_spider.py# coding: utf8import scrapyclass CsdnblogSpider(scrapy.Spider): name = 'csdn' def start_r...

2019-01-31 09:16:26 80957 2

原创数的深度广度优先遍历

import java.util.Queue;import java.util.concurrent.LinkedBlockingQueue;class TreeNode{ int item; TreeNode left; TreeNode right;}public class test1 { public static void walkDeep...

2018-12-10 15:57:15 80773

原创寻找第i 小的数

思想借鉴快排，但是时间复杂度是快排的一半public class test1 { public static int serarch(int[] array, int low, int high, int findIndex){ int lowHis = low; int highHis = high; if(low >= ...

2018-12-10 14:31:38 81404

原创 BST 二叉搜素树，排序算法一种

1. 二叉2. 根大约整个左字数，小于整个右子数class Node{ int num; Node left; Node right;}public class BST { public static void bstSort(Node node, int item){ if(node.num < item){ ...

2018-12-07 17:46:11 80594

原创求解最长公共子序列：动态规划，子问题分解

求解最长公共子序列：动态规划，子问题分解 public String LCS(String str1, String str2){ if(str1.length() == 0 || str2.length() == 0) return ""; if(str1.charAt(str1.length() -1) == str2.charAt(str2.le...

2018-12-06 17:48:14 81022

原创 trie 字典树构造

import org.junit.Test;import java.util.ArrayList;public class MyTest { // 单词 class Word{ char lastChar; // 单词最后一个字符 int wordCount = 0; // 词频 } // 字典树 class Tre...

2018-12-04 17:54:57 81353

原创基本的排序算法

1. 冒泡排序 public static int[] SmallBubbleSort(int[] array){ for(int i = 1; i < array.length; i++){ for(int index = array.length - 1; index >= i; index --){ i...

2018-11-20 14:32:35 80084

原创 Flume TailDir 基本流程

taildir 工作流程

2016-10-27 15:41:10 82769

原创 Flume 安装, 测试

1. 安装选择适合自己的版本：[下载](https://flume.apache.org/download.html)2. 解压gunzip flume-ng-1.6.0-cdh5.5.1.tar.gz3. 测试 3.1 mkdir test 3.2 cd test && mkdir logs 3.3 touch flume-conf.propertiestest.

2016-10-26 17:59:35 78772

原创 spark 源码分析

spark 整体架构 spark 四块最重要的：sparkSqlspark流处理机器学习图计算spark 2.0 源码结构 spark最核心的代码：https://github.com/apache/spark分析源码的方法从bin 文件夹开始，我们同常会打开一个spark-shell, 提交任务spark-sbumit, 加入我们执行spark-submit, 那么打开

2016-09-29 15:07:23 78057

原创 hive streaming

1. hive 的streaming 包括: map(), reduce(), transform()，常用的为transform2. 恒等变换select transform(name, salary) using "/bin/cat" as new_name, new_salary from employees where country = 'CHINA';

2016-05-10 20:40:46 75568

原创 Hive 调优

1. 使用 explain 查看执行计划explain extended select count(distinct(name)) from employees;2. 调整limit 相关参数一条查询语句如果有limit 限制，他也会扫描整个表3. 严格模式修改hive-site.xml hive.mapred.mode

2016-05-10 11:03:54 74990

原创 Hive 分区

1. 建立多个表，每个表导入不同的数据create table test_1 (id int);create table test_2 (id int);create table test_3 (id int);............2. 创建分区表create table test(id int) partitioned by (name sting);

2016-05-10 08:28:41 75989

原创 HiveQL 查询

1. 创建表CREATE TABLE employees (name STRING,salary FLOAT,subordinates ARRAY,deductions MAP,address STRUCT)PARTITIONED BY (country STRING, state STRING)ROW FORMAT DELIMITEDFIELDS TE

2016-05-10 08:28:10 75948

原创 hive 基本操作

一. 简单的表操作1. 创建一个表 create table test(id int);2. 从本地导入数据 LOAD DATA LOCAL INPATH '/opt/hive/current/testdata/a.txt' INTO TABLE test; 其中a.txt 内容为： 1 2 3 43. 测试数据是否导入

2016-05-06 17:11:31 76962

原创 Hive 安装

1.先决条件要先安装hadoop, 官网下载hadoop-2.7.2.tar.gz2.安装hive1）下载hive apache-hive-2.0.0-bin.tar.gz2）解压 tar -zxzf apache-hive-2.0.0-bin.tar.gz3）修改/etc/profile文件，添加如下： export HIVE_HOM

2016-05-06 09:54:04 77667

原创 vim 常用命令

1. 编辑模式 :I 光标移动到当前行首进行编辑 :i 在当前位置进行编辑2. 保存相关操作 :w 将缓冲区写入文件，即保存修改 :wq 保存修改并退出 :x 保存修改并退出 :q 退出，如果对缓冲区进行过修改，则会提示 :q! 强制退出，放弃修改3. 批量操作 1

2016-02-24 14:17:52 77906

原创创建自己的gem

1. 创建下面的目录结构 myfirst_gem/├── lib│ └── myfirst_gem.rb└── myfirst_gem.gemspec2. 修改myfirst_gem.rb class MyfirstGem def self.hello_world puts "Hello world!" end

2016-02-24 11:00:14 78496

原创 scala------类型参数

1. 泛型类 class Test1[T](val p1: T){ def t1():Unit = { println("there is " + p1) }}object Test { def main(args: Array[String]): Unit = { val t1 = new Test1("haha")

2016-02-22 17:16:43 79007

原创 scala------match

1. 普通match object Test { def main(args: Array[String]): Unit = { val a = "c" a match { case "a" => println("a") case "c" => println("c") case _

2016-02-22 11:22:10 79063

原创 scala------集合

1. 集合序列（seq）：有先后次序的序列 val l = List(1, 2, 3) 集合（set）：没有先后顺序的序列 val s = Set(1, 2, 3) 映射（map）：键值对数据 var

2016-02-22 11:21:46 79705

中国5级省市编码爬去整理(统计用区划和城乡划分代码)

PHP开发手册

空空如也