fkbush-CSDN博客

原创抖音信息抓取遇到的各种问题

1.夜神模拟器打不开拼音：网上好像没人遇到这个问题，保有我的不行，不知道为什么，我的是设置为OPENGL模式即可。2.No module named 'pymssql',已经安装了pymssql模块，但是用mitmdump执行时却提示找不到相关模块：我的mitmdump是下载的mitmdump.exe,直接用mitmdump在执行时会新建一个临时的环境，这个环境为什么会不包括新装的模块...

2019-12-09 09:44:02 2043

原创 springboot+jersey+swagger中遇到的问题

环境：springboot:2.0.6 jersey:2.26 swagger:1.5.9 jersey加载swagger配置,直接在jerseyConfig中加入如下代码 @PostConstruct public void init() { this.configureSwagger(); } private void ...

2018-12-10 15:09:17 1236

原创 Lucene中MoreLikeThis查询结果为空

本文只是给lucene小白看的，老鸟勿喷刚开始学lucene,所以直接使用新版的7.1.0,还在搭建helloworld中，使用MoreListThis查询时结果为空，怎么都查询不出数据，百度也找不到答案，而且百度出来的内容都是老版本的。无奈只能自己看源码了。谁有新版本的各种demo请分享下，自己摸索太累了，先谢谢了。由于用的最新版，找不到demo，所以所有代码都是用的AP...

2018-03-02 16:40:26 775

搜索后自定义快捷键1.光标移到括号外Complete Current Statement2.复制当前行到下一行Duplicate3.自动补全SmartType4.自动全部导入(eclipse中ctrl+shift+o)没有对应的快捷键，可以在Editor-General-Auto Import中设置5.在当前文件中查找选中的内容Find Word at Caret6.查找引用当前方法的方法Find...

2018-03-01 10:49:00 1078

原创使用jmeter时遇到 Host of origin may not be blank

使用badboy录制jmeter脚本后，使用jmeter时遇到下面这个错误：java.lang.IllegalArgumentException: Host of origin may not be blank at org.apache.commons.httpclient.cookie.CookieSpecBase.match(CookieSpecBase.java:461) at org

2017-04-07 11:25:57 8563 1

原创 bootgrid自定义,bootgrid单选BUG

bootgrid分页配置，bootgrid单选bug修复

2017-01-25 16:31:36 1950

转载任务执行（二）

一、串行的页面渲染器class SingleThreadRenderer { void renderPage(CharSequence source) { renderText(source); List imageData = new ArrayList(); for(ImageInfo imageInfo : scanForImageInfo(source)) { im

2016-11-27 19:35:19 489

转载任务执行（一）

1.串行的WEB服务器class SingleThreadWebServer { public static void main(String[] args) throws IOException { ServerSocket socket = new ServerSocket(80); while(true) { Socket connection = socket.acce

2016-11-26 20:47:21 671

转载 poi操作word 2007 常用方法总结

原文地址点击打开链接，保存备用。import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.math.BigInteger;import java

2016-05-31 09:42:33 13401 2

转载 WORD2007转HTML

WORD2007转HTML

2016-05-26 11:09:54 1744 1

翻译使用测试数据在本地运行

现在我们已经有了mapper和reducer，下一步是写一个job驱动并在开发机器上的测试数据上运行它。在本地运行Job 本单第一节中介绍了Tool接口的使用，写一个驱动来运行我们的mapreduce job来找到每一年的最大气温很容易（见例6-10）。import org.apache.hadoop.conf.Configured;import org

2016-05-20 10:38:54 585

翻译使用MRUnit写一个单元测试

MapReduce的map和reduce函数可以很容易的分别测试。MRUnit是一个测试库，可以

2016-05-17 11:31:23 858

翻译第六章第二节建立开发环境

建立MapReduce开发环境

2016-05-12 11:35:30 453

翻译第六章开发一个MapReduce应用第一节配置

在第二章中，我们介绍了MapReduce模式。在本章中，我们看看在实际中开发一个MapReduce应用。写一个MapReduce程序要遵循一个特定的模式。开始时你要写map和reduce函数，最好把单元测试也写上，确保程序做了你想做的。然后你写一个驱动程序来运行一个job，它可以使用数据的一小部分在你的集成开发环境中运行以检查它是否正常工作。如果失败，你需要使用你的

2016-05-09 14:36:18 591

翻译第五章 HADOOP I/0 第一节数据完整性

HADOOP 数据完整性

2016-05-05 15:16:51 837

翻译第四章第三节 YARN调度

在理想国度，YARN应用发送的请求可以立即得到响应。在现实世界中，资源是有限的，在一个繁忙的集群上，一个应用经常需要等待它的一些请求处理完成。

2016-05-04 15:50:37 2998

翻译第四章 YARN 第一节 YARN应用运行分析

Apache YARN(Yet Another Resource Negotiator）是一个HADOOP集群资源管理系统。YARN在HADOOP2中引入，但是它足够通用，也支持其它的分布式计算程序。 YARN提供了用于请求和使用集群资源的API，但是这些API不是直接由用户代码使用的。用户写更高级的由分布式计算框架提供的API，这些框架是建立在YARN之上的，对用户隐藏

2016-04-20 11:03:33 903

翻译第三章第七节使用distcp并行拷贝

到现在为止我们看到的HDFS访问模式都是单线程访问。它可以操作一组文件----例如定义file glob----但是要高效并行处理这些文件，你需要自己写一个程序。HADOOP自带了一个有用的程序叫distcp用来并行拷贝文件到/从HADOOP文件系统。 distcp的一个作用是有效代替hadoop fs -cp。例如，你可以拷贝一个文件到另一文件：% hadoop d

2016-04-11 10:14:19 1490

翻译第三章第六节数据流

读取文件解析为了了解客户端与HDFS、namenode、datanode交互的数据流，仔细查看图3-2，它展示了读取文件时的主要事件序列。客户端通过调用FileSystem对象的open()方法来打开它想读取的文件，对于HDFS来说，它就是一个DisributedFileSystem实例（图3-2的第一步）。DisributedFileSyste

2016-04-08 14:16:37 1196

翻译第三章第五节 JAVA接口

在这一节中，我们研究HADOOP FileSystem类：与HADOOP文件系统交互的API。尽管我们主要关注的是HDFS实现DistributedFileSystem，通常你应该努力自己写抽象类FileSystem的实现，以在不同文件系统间保持可移植性。这在你测试你的程序时是非常有用的，例如，你可以使用你本地的数据来快速测试。从HADOOP URL读取数据

2016-04-06 14:31:54 718

原创 EXCEL解析工具

public class ExcelContentParser{ private Workbook wb; private static final String newExcelPrefx = ".xlsx"; /** * * @Description * @param list * @param c * @pa

2016-04-05 11:40:26 1144

原创 FTPUtil

FTPUtil FTPClient 中文乱码问题

2016-04-05 11:25:59 1924

转载使用JTIDY将html转成xhtml

html转xhtml

2016-04-05 10:36:54 2643 1

翻译第三章第四节 HADOOP文件系统

HADOOP有一个文件系统的抽象概念，HDFS只是它的一个实现。JAVA抽象类org.apache.hadoop.fs.FileSystem表示客户端到HADOOP文件系统的接口，还有其它几个具体实现。HADOOP经常用的如表3-1所示： HADOOP提供了许多文件系统的接口，它经常使用URI来选择正确的文件系统来交互。例如，上一节中我们遇到的操作H

2016-03-28 11:59:35 565

翻译第三章第三节命令行接口

我们通过与命令行与HDFS交互来了解它。HDFS还有许多其它接口，但是对开发者来说，命令行是最简单的，也是最熟悉的。我们将在一台机器上运行HDFS，所以首先根据附录A来搭建HADOOP伪分布式模式。以后我们会看如何在集群上运行HDFS并提供可靠性及容错处理。在伪分布式的配置中，有两个属性需要我们进一步解释。第一个是fs.defaultFS，设

2016-03-28 09:54:50 639

翻译第三章第二节 HDFS概念

Block（前文翻译的“块”,术语翻译成中文总是感觉很别扭，以后术语还是使用原文）磁盘有block大小，它是可以读写的最小量的数据。单一磁盘文件系统处理这些block中的数据，它通常是磁盘block大小的整数倍。文件系统的block大小通常是几kb，而磁盘block通常是512b。这对于只是简单读写任意长度文件的文件系统使用者来说是透明的。尽管如此，还是有一些工具来维护文件系

2016-03-25 14:23:22 743

翻译第三章 HADOOP分布式文件系统第一节 HDFS设计

当数据过大而不适用于单独一台机器的存储容量时，把它分到许多独立的机器上就很必要了。管理网络计算机存储的文件系统叫分布式文件系统。由于它是基于网络的，所有复杂的网络程序问题接踵而至，使分布式文件系统比普通的硬盘文件系统更复杂。例如，最大的挑战是使文件系统可以处理节点失败而不至于数据丢失。 HADOOP自带了一个分布式文件系统叫HDFS，即HADOOP Distributed F

2016-03-23 10:57:12 418

翻译第二章第四节扩大规模

我们已经看到MapReduce是如何在小规模输入上工作；现在是时候从总体上看一下这个系统以及大规模输入下的数据流。简单起见，目前为止使用的例子都是使用本地的文件系统。尽管如此，为了扩大规模，我们需要把数据存储在分布式文件系统中（典型的如HDFS,下一章中我们会学习它）。它允许HADOOP把MapReduce计算移到到每一个保存了部分数据的机器上，使用HADOOP资源管理系统，名

2016-03-22 16:39:35 370

翻译第二章第三节使用HADOOP分析数据

为了利用HADOOP提供的并行处理，我们需要把我们的查询表达成一个MapReduce。在小规模的本地化测试后，我们可以在一个集群上运行它。Map and Reduce MapReduce把处理分成两个阶段：map阶段和reduce阶段。每一阶段都有一个键值对作为输入和输出，键值的类型可以由程序员选择。程序员同时指定两个函数：map函数和reduce函数。map阶段

2016-03-21 16:03:23 406

翻译第二章第二节使用UNIX工具分析数据

数据集中在记录的每一年地球上最高的温度是多少？我们先不使用HADOOP来回答这个问题，因为这个信息可以提供效率的底线，也是校验我们的结果的一个有用方法。处理面向行的数据的经典工具是awk。Example2-2是一个计算每年最高温度的小脚本。

2016-03-21 10:12:40 526

原创 HADOOP namenode启动失败

这几天一直在搞hadoop:the definitive guide的翻译，开始按照附录A来搭建环境，测试运行都正常，今天想搭建eclipse开发环境，发现namenode页面又打不开了。jps查看进程，namenode没有启动，查看日志（hadoop/logs/xxxxnamenodexxx.log,发现如下错误：org.apache.hadoop.hdfs.server.com

2016-03-01 16:07:26 894

翻译第二章 MapReduce 第一节气象数据

MapReduce是一个数据处理的编程模型。这个模型很简单，但是以程序表达出来并不是那么简单。HADOOP可以运行各种语文写的Mapreduce程序；本章中，我们研究同样的程序，用Java,Ruby,Python表达。最重要的是，MapReduce本身就是并行的，它把大数据分析转变为任何人有足够可支配的机器。MapReduce在大的数据集方面有它的特长，让我们开始吧。一份气

2016-02-29 11:09:05 795

翻译第一章第七节本书包含哪些内容？

本书分为5个主要部分：第一到第三部分主要是关于HADOOP核心，第四部门包括HADOOP生态系统相关的项目，第五部分包含HADOOP案例学习。你可以按顺序阅读本书，也可以跳过不需要读的章节看后面的内容。第一部分由五章组成，包含了HADOOP的基本组件，应该在后面章节之前阅读。第一章（本章）是概括介绍HADOOP.第二章介绍了MapReduce。第三章是关于HADOOP的

2016-02-26 11:12:12 500 1

翻译第六节 HADOOP发展简史

HADOOP是由Doug Cutting创造的，他也是Lucene的创造者，Lucene是一个广泛使用的文本搜索库。HADOOP由Apache Nutch项目发展而来，Nutch是一个开源的网络搜索引擎，本身是Lucene项目的一部分。 HADOOP名称由来。HADOOP不是组合字，它是一个自创的名称。这个项目的创造者Doug Cutting解释了这个名称是怎么来的：

2016-02-26 10:16:09 580

翻译第一章遇见HADOOP 第五节写其它系统比较(hadoop:the definitive guide)

HADOOP不是第一个处理数据存储与查询的分布式系统，但是它的一些特性把它与其它类似的系统区分开。我们看一下其中的一部分。关系型数据库管理系统为什么我们不使用有很多的硬盘的数据库来处理大数据分析？为什么需要HADOOP? 这个问题是由硬盘的另一个趋势引起的：寻道时间的提升速度比传输速率的提升要慢得多。寻道是指移动硬盘的磁头到指定位置来读取或写入数据。它表示

2016-02-24 17:02:16 371

翻译第一章遇见HADOOP 第四节超越批处理(hadoop:the definitive guide)

MapReduce根本上是一个批处理系统，它并不适用于交互式分析。你不可能在几秒或更少的时间内得到查询结果。典型的查询需要耗时几分钟甚至更长，所以它最好是线下使用，不需要一个人坐在那里等循环处理的结果。尽管如此，由于它的独创性，HADOOP比批处理更好。其实，HADOOP有时候是指一个大的项目生态系统，而不仅仅指HDFS和MapReduce,它们都在分布式计算和大数据处

2016-02-24 09:37:25 748

翻译第一章遇见HADOOP 第三节查询你所拥有的所有数据

MapReduce采用的方式看起来很暴力。前提是整个数据集合--至少大部分--可以被查询处理。但是这就是它的能力。MapReduce是一个批处理查询处理器，并且在一个合理的时间内得到查询结果。它改变了你对数据的想象方式，把以前存放在磁带和硬盘上的数据解放出来。他给了人们一个与数据一起创新的机会。例如，Mailtrust,Rackspace(全球三大云计算中心之一)的邮件部门

2016-02-23 14:17:22 351

翻译第一章遇见HADOOP 第二节数据存储与分析(hadoop:the definitive guide)

问题很简单：尽管近年来硬盘的存储量已经大量增加，访问速度--从硬盘上读取数据的速度--却没有跟上硬盘容量的增长节奏。1990年一个标准的硬盘可以存储1370MB的数据，传输速度是4.4MB/s，所以你可以在大约5分钟内读取所有数据。20年之后，1TB的硬盘已经很常见了，但是

2016-02-23 11:02:15 387

翻译第一章遇见hadoop 第一节数据(hadoop:the definitive guide)

在拓荒时代，人们使用牛来拉重物，当一头牛移不动一根木头时，他们不是努力养一头更大的牛。我们不应该试图创建更大的电脑，而是用更多的计算机系统。

2016-02-23 09:50:41 498

翻译 Appache hadoop安装（hadoop:the definitive guide 附录A）

在单机上安装Hadoop是非常简单的。(在集群上安装，参见第十章) 在这个附录中，我们将介绍如何使用Apache软件基金会发布的二进制压缩包来安装Hadoop Common,HDFS,MapReduce和YARN。其它项目的安装包含在这本书相关的章节开头部分。下面的说明适用于基于UNIX的系统，包括MAC OS X（用来开发而不是发布产品的平台）。前提

2016-02-22 15:12:34 405