打怪的蚂蚁-CSDN博客

转载 Mysql primary key主键冲突的可能性与解决方案

在mysql中，数据的存储其实相当于Oracle的IOT表。主键和其他列的值以b+tree的形式组织在一起，在其叶子节点上不仅包含了主键，还包含了其他列的值。所以，我们在访问以主键作为where条件的查询时，极大的提高了效率。当然，这也存在一个缺点，主键和其他列存在一起，导致主键作为index比其他二级index需要的空间开销更大，所以当我们做recover index scan时，就会需要sc...

2018-10-24 10:50:15 2211

转载 Twitter的分布式自增ID算法snowflake (Java版)

概述分布式系统中，有一些需要使用全局唯一ID的场景，这种时候为了防止ID冲突可以使用36位的UUID，但是UUID有一些缺点，首先他相对比较长，另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID，并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求，最初Twitter把存储系统从MySQL迁移到Cassandra，因为Cassandra没...

2018-10-23 14:54:03 366

转载 MySQL双主一致性架构优化

一、双主保证高可用MySQL数据库集群常使用一主多从，主从同步，读写分离的方式来扩充数据库的读性能，保证读库的高可用，但此时写库仍然是单点。在一个MySQL数据库集群中可以设置两个主库，并设置双向同步，以冗余写库的方式来保证写库的高可用。二、并发引发不一致数据冗余会引发数据的一致性问题，因为数据的同步有一个时间差，并发的写入可能导致数据同步失败，引起数据丢失：如上图所述，假...

2018-10-23 14:47:31 714

原创 MySQL中有关TIMESTAMP和DATETIME的总结

一、MySQL中如何表示当前时间？其实，表达方式还是蛮多的，汇总如下：CURRENT_TIMESTAMPCURRENT_TIMESTAMP()NOW()LOCALTIMELOCALTIME()LOCALTIMESTAMPLOCALTIMESTAMP() 二、关于TIMESTAMP和DATETIME的比较一个完整的日期格式如下：YYYY-MM-DD HH:...

2018-10-23 14:43:17 343

转载 windows MySQL 5.6.38 安装步骤

下载去MySQL官网下载：https://dev.mysql.com/downloads/mysql/5.6.html#downloads 我下载的是5.6 windows 64位版本或者访问下面地址，并选择相应版本下载。https://downloads.mysql.com/archives/community/ 安装服务1.解压MySQL压缩包...

2018-10-23 14:35:44 2439

转载 Can't connect to X11 window server的问题研究

情境：java web程序中，页面包含图形的展示，是使用jfreechart来开发的。war包部署在RHEL 5.5环境下的tomcat中。1 在服务器（服务器默认启动为图形界面）本机上启动tomcat，在客户端浏览器上查看jfreechart图形正常；2 远程通过ssh启动服务器上的tomcat，在客户端浏览器上查看jfreechart图形为小红叉；先将异常部分贴出：...

2018-10-09 17:19:05 15346 1

转载 maven神器插件enforce查找重复类

背景通过maven的GAV完全可以避免同一个构件在项目中使用===》也就是打包出来最终同一个GA的构件一定只有一个但是除了这种GA构件唯一我们在java项目中还经常碰到class完全相同的场景比如典型的就是mail参考邮件无法发送之maven项目引入新依赖问题像这种构件名称不一样导致出现class重复的问题也不再少数对于这种问题怎么解决呢？？？对策其实说难不难说易...

2018-10-08 09:32:21 2725

原创 fastJson的@JSONField和jackson的@JsonProperty使用

一、jackson的@JsonProperty使用<dependency> <groupId>com.fasterxml.jackson.core</groupId> <artifactId>jackson-databind</artifactId> <version>2.5.3</vers...

2018-09-12 16:29:47 22498 2

转载 Btrace入门到熟练小工完全指南

原文地址：http://calvin1978.blogcn.com/articles/btrace1.html?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io BTrace是神器，每一个需要每天解决线上问题，但完全不用BTrace的Java工程师，都是可疑的。BTrace的最大好处，是可以通过...

2018-08-31 16:45:07 250

转载 Python多进程编程中进程池锁共享问题

python多进程编程使用进程池非常的方便管理进程，但是有时候子进程之间会抢占一些独占资源，比如consol或者比如日志文件的写入权限，这样的时候我们一般需要共享一个Lock来对独占资源加锁。lock作为一个不可直接打包的资源是没有办法作为一个参数直接给Pool的map方法里的函数传参的。为了解决这个问题，有两种解决方法，一种是使用多进程的管理器Manager()，并使用偏函数的办法传递对象Man...

2018-08-11 10:13:19 4575 3

转载理解和实现自然语言处理终极指南

根据行情，只有21%的数据目前是结构化的。谈话、发推文、在 WhatsApp上发信息以及其他各种各样的活动，都在持续不断的产生数据。而大多数这种数据都是以非结构化的文本形式存在的。最著名的例子有：社交媒体上的推文/帖子、用户到用户的聊天记录、新闻、博客、文章、产品或服务测评和医疗行业的病人记录。最近的例子有聊天机器人和其他声音驱动的机器人。尽管我们有高维数据

2017-12-20 11:18:06 911

转载教你分分钟学会用python爬虫框架Scrapy

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。Scratch

2017-12-20 11:16:35 794

转载 Elasticsearch—记录一次mapping field修改过程

本文记录一次Elasticsearch mapping field修改过程团队使用Elasticsearch做日志的分类检索分析服务,使用了类似如下的_mapping1234567891011121314{ "se

2017-12-12 14:36:02 3502

转载 Elasticsearch5-启动检查（Bootstrap Checks）

在Elasticsearch启动时，会对重要的配置进行检查，在不同的模式下，es会进行不同的提示：- 开发模式下es将错误信息打印到日志中（warnning）- 在生产环境下，es会直接启动报错，启动不了！## 开发模式 vs. 生产模式默认情况下，Elasticsearch是绑定到本机（network.host: 127.0.0.1），这样es可以进行正常的开发和使用！但是在生产

2017-12-12 14:34:59 6717

转载 Elasticsearch5.3.1 IK分词，同义词/联想搜索设置

--题外话：最近发现了一些问题，一些高搜索量的东西相当一部分没有价值。发现大部分是一些问题的错误日志。而我是个比较爱贴图的。搜索引擎的检索会将我们的博文文本分词。所以图片内容一般是检索不到的，也就是说同样的问题最好是帖错误代码，日志，虽然图片很直观，但是并不利与传播。希望大家能够优化一部分博文的内容，这样有价值的东西传播量可能会更高。本文主要是记录Elasticsearch5.3.1 IK

2017-12-12 14:23:14 780

转载 Elasticsearch5.x Head插件安装

在5.0版本中不支持直接安装head插件，需要启动一个服务。由于head插件本质上还是一个nodejs的工程，因此需要安装node，使用npm来安装依赖的包。（npm可以理解为maven）1、安装Node.js官网nodejs，https://nodejs.org/en/download/wget https://nodejs.org/dist/v6.10.2/

2017-12-12 11:14:02 4057

转载 Python 资源大全中文版

我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理。awesome-python 是 vinta 发起维护的 Python 资源列表，内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。由伯乐在线持续更新。Awesome 系列虽然挺全，但基本只对收录的资源做了极

2017-12-08 10:27:41 720

转载 python访问hive2

HiveServer2为客户端在远程执行hive查询提供了接口，通过Thrift RPC来实现，还提供了多用户并发和认证功能。目前使用python的用户可以通过pyhs2这个模块来连接HiveServer2，实现查询和取回结果的操作。1.安装pyhs2pip install pyhs2yum install cyrus-sasl-plainyum install cyr

2017-12-08 10:25:53 537

转载十分钟学会 tmux

tmux 是一款终端复用命令行工具，一般用于 Terminal 的窗口管理。在 macOS 下，使用 iTerm2 能应付绝大多数窗口管理的需求。如上图所示，iTerm2 能新建多个标签页（快捷键 ⌘T），也能在同一个窗口中分割出多个窗格（快捷键 ⌘D 或 ⌘⇧D）。tmux 相比 iTerm2 的优势在于：iTerm2 的窗格切换快捷键（⌘⌥→）

2017-11-24 11:29:49 711

转载 paramiko 远程执行命令

有时会需要在远程的机器上执行一个命令，并获得其返回结果。对于这种情况，python 可以很容易的实现。1 工具Python paramiko1) Paramiko模块安装　　在Linux的Terminal中，直接输入pip install paramiko 命令安装。2）确定paramiko安装成功　　在python命令行输入import param

2017-11-06 09:06:18 4915

转载 hadoop2.7.1不重启，动态删除节点和新增节点

摘要: 看网上介绍的都是介绍的hadoop老版本的动态删除和新增节点的方法，在2.7.1版本中，我看到hadoop的datanode的进程主要有两个datanode和nodemanager，和网上介绍的datanode和tasktracker不一样啊，于是自己去官网研究了一下。hadoop重启太麻烦了，需要暂停当前所有的任务。所以动态的删除和新增节点就很重要了。先说动态删除节点：

2017-11-03 17:01:10 2006 1

转载 Hadoop datanode磁盘扩容

摘要: 看网上介绍的都是介绍的hadoop老版本的动态删除和新增节点的方法，在2.7.1版本中，我看到hadoop的datanode的进程主要有两个datanode和nodemanager，和网上介绍的datanode和tasktracker不一样啊，于是自己去官网研究了一下。hadoop重启太麻烦了，需要暂停当前所有的任务。所以动态的删除和新增节点就很重要了。先说动态删除节点：

2017-11-03 16:57:00 2229

转载 Kafka分区分配策略（Partition Assignment Strategy）

Kafka分区分配策略（Partition Assignment Strategy）参考：https://www.iteblog.com/archives/2209.html1.问题2.Range Strategy3.RoundRobin Strategy问题用过Kafka 的同学用过都知道，每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息，我们也

2017-11-03 16:54:53 2454

转载 Java通过HttpProxy实现穿越

需求描述在正常的项目开发需求中，连接远程服务器的场景一般有二： 1 自家实现的http服务器，api接口都已经约定好； 2 开发平台服务，通常如新浪、百度云等平台提供的restful接口；以上的两种场景通过原生的URLConnection或是apache提供的httpclient工具包都可以方便的实现调用。

2017-11-03 16:53:43 6768

转载 python进程池：multiprocessing.pool

阅读目录例1：使用进程池例2：使用进程池（阻塞）例3：使用进程池，并关注结果例4：使用多个进程池在利用Python进行系统管理的时候，特别是同时操作多个文件目录，或者远程控制多台主机，并行操作可以节约大量的时间。当被操作对象数目不大时，可以直接利用multiprocessing中的Process动态成生多个进程，十几个还好，但如果是上百个，上千个目标，手动的去限制进程数量却又太

2017-11-03 16:51:31 488

转载 Linux自动批量建立SSH互信脚本

但是在实际工作中，往往机器很多，如果一台一台的去建立互信，则也需要耗费巨大的人力。在网上看到一个自动化批量建立互信的脚本，在此分享给大家。一、脚本在主机上建立sh文件，名称随意，然后在文件中输入以下内容：#!/bin/shDEST_USER=$1PASSWORD=$2HOSTS_FILE=$3if [ $# -ne 3 ]; then echo "U

2017-09-21 17:44:23 3428

转载实现文本相似度算法（余弦定理）

最近由于工作项目，需要判断两个txt文本是否相似，于是开始在网上找资料研究，因为在程序中会把文本转换成String再做比较，所以最开始找到了这篇关于距离编辑算法 Blog写的非常好，受益匪浅。于是我决定把它用到项目中，来判断两个文本的相似度。但后来实际操作发现有一些问题：直接说就是查询一本书中的相似章节花了我7、8分钟；这是我不能接受…… 于是停下来仔细分析发现

2017-09-18 20:15:07 2329 2

转载 python编程中的if name == 'main': 的作用和原理

在大多数编排得好一点的脚本或者程序里面都有这段if __name__ == 'main': ，虽然一直知道他的作用，但是一直比较模糊，收集资料详细理解之后与大家分享。 1、这段代码的功能一个python的文件有两种使用的方法，第一是直接作为脚本执行，第二是import到其他的python脚本中被调用（模块重用）执行。因此if __name__ == 'main': 的作用

2017-09-18 20:03:34 697

转载知识库构建前沿：自动和半自动知识提取

编者按：在过去几十年，人们曾尝试采用直接编辑知识、利用大众智慧、自动或半自动知识抽取三类方法来构建知识库。随着时代发展，直接编辑知识由于受时间和经济成本的约束，这种方式很难实现大规模知识库的构建。而利用大众智慧是指利用互联网众包机制，过于依赖激励机制将降低知识库运行稳定性。微软亚洲研究院主管研究员史树明在本文中重点讨论第三类方法——自动或半自动知识抽取，其基本思想是设计自动或半自动的算法，从现有的

2017-09-12 19:43:56 2548 1

转载告诉你一个搜索服务优化方案：基于RDF的知识图谱管理

2010 年 Google 利用知识图谱优化了其搜索服务以来，知识图谱得到了迅速发展。无论是工业界还是学术界，都出现了各种各样的知识库。为了灵活共享知识图谱，使其具有一定可读性，同时保证机器也能够方便理解知识，事实上，大部分的开放的知识图谱，都是以 RDF 形式对外开放。那么什么是 RDF？RDF 有什么优点？我们整理了来自明略数据的 SCOPA 技术顾问邵蓥侠老师在 AI 前线微信群做过的的分享

2017-09-06 10:55:21 3084

转载索引的本质是排序

索引是经常用到的技术，但有些程序员对索引的原理了解不深，发现数据查询性能有问题立刻就想起建索引，但效果常常也不尽人意。那么到底什么时候该用索引以及该怎么用？我们来分析索引清理背后的技术原理就知道了。基本原理索引技术的初衷是为了快速从一个大数据集中找出某个字段等于确定值（比如按身份证号找出某个人）的记录。一个规模（行数）为N的数据集，用遍历查找则需要比较N次，

2017-09-06 10:54:13 5322 4

转载 CCKS-2017 行业知识图谱构建与应用-下篇

上篇文章推出之后，大家反应非常热烈，因此给了我们更大的动力将下篇加紧赶出来。这篇是PPT的下半部分，更加偏重于实战中关键技术的难点剖析，以及我们在PlantData平台实践中相应的解决方案描述。如果你曾有听完一场介绍知识图谱应用的讲座，感觉讲的很有道理，但仍有各种疑惑的情况，比如“他们用什么工具来构建知识图谱的？”，“为什么不选择XXX？”，“他们的可视化做的好漂亮，我该怎么做才能

2017-09-05 11:38:53 8669

转载 CCKS-2017行业知识图谱构建与应用-上篇

本次Tutorial主要包括以下三方面内容：行业知识图谱概述，包括行业图谱简介，行业知识图谱的应用及挑战，以及行业知识图谱生命周期管理。行业知识图谱关键技术，包括行业知识图谱生命周期中各过程的相关技术、现有可用的工具，以及各过程中的最佳实践及相关组件。行业知识图谱应用实战，以金融证券行业应用为例，演示知识图谱从知识建模、知识抽取到行业应用的全过程。

2017-09-02 15:39:08 5216 2

转载 MongoDB aggregate，mapreduce，聚合命令的区别

在mongodb中想要完成聚合操作，可以使用以下三种方式；但是很多时候这三个真是傻傻分不清楚，本文是来总结以下三种方式的区别滴～1. 聚合框架aggregate pipeline2. mapreduce3. 聚合命令group，distinct，count聚合框架 aggregate pipeline（聚合管道）aggregate 聚合框架是基于数据处理管道模型

2017-08-28 17:01:07 3359

转载一图读懂JVM架构解析

每个Java开发人员都知道字节码由JRE（Java运行时环境）执行。但许多人不知道JRE是Java Virtual Machine（JVM）的实现，它分析字节码，解释代码并执行它。作为开发人员，我们应该知道JVM的架构是非常重要的，因为它使我们能够更有效地编写代码。在本文中，我们将更深入地了解Java中的JVM架构和JVM的不同组件。什么是JVM？Virtual Machine是物

2017-08-26 10:34:49 334

转载技术团队，如何更高效地开会？

会议目标混乱不堪，与会人员莫名其妙，会议冗长且无趣，浪费时间耗费生命，咋整？写在前面相信很多做技术的朋友都一样，我们都是非常讨厌开会的人。我们只希望能够静下心来，沉醉在自己的代码世界中，为了让世界变得更加美好，而付出自己的青春，这才是我们程序员的梦想，这才是我们最应该去做的事情。为何讨厌的会议总是来纠缠我们？我们不想开会，我们只想静静。其实我们都知道，会议是必不可少，尤其是需要当面

2017-08-24 20:35:03 1033

转载探求ETL本质

ETL的考虑做数据仓库系统，ETL是关键的一环。说大了，ETL是数据整合解决方案，说小了，就是倒数据的工具。回忆一下工作这么些年来，处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量，使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中，ETL上升到了一定的理论高度，和原来小打小闹的工具使用不同了。究竟什么不同，从名字上就可以看到

2017-08-17 15:15:02 349

转载带好团队的7个步骤，不然就自己干到死

柳传志认为“带队伍”要做好三件事：充分调动员工的积极性；提高员工能力；使员工队伍有序，协调、效率高。文中给出了10条带团队的实践性建议，可以很好地帮助领导者提升领导力和执教能力。在信息社会这个大背景下，人人都会经历许多大悲大喜！虽然，一个人的聪明才智是无限的，但是，一个人的精力却是有限的。有人说：“一个篱笆三个桩，一个好汉三个帮”，在一个组织或部门之中，团队合作精神显得尤为重要。那么，怎样

2017-08-17 09:09:40 1957

转载【neo4j图数据库】基础入门&案例整理

neo4j有社区版本和企业版。社区版本是免费的，只支持单机版；企业版是付费的，是分布式的。整理了一些不错的参考资料分享给大家。neo4j官网：https://neo4j.com/Cypher是类似SQL的查询语言，支持做基础的图挖掘项目，属于轻量级。腾讯的QQ、微信社交关系挖掘，是基于spark的Graphx做计算引擎，Hbase来存储关系链。Cyp

2017-08-17 09:03:57 5206 2

转载 Pentaho 数据集成工具——Kettle（一）

简介 Pentaho是一个以工作流为核心的、强调面向解决方案的开源商业智能（Business Intelligence, BI）套件，以构成全面的数据集成和业务分析平台。这些套件各自为独立产品，之间为松耦合可插拔式设计，用户可根据自身需求进行灵活选择。Kettle是Pentaho整个产品体系中的数据集成模块，使用突破性的元数据驱动方法提供强大的“提取，转换和加载（ETL）”功能。主要使用在

2017-08-17 09:02:19 12192

Joint source

空空如也