sysmedia-CSDN博客

转载 Java读写大文本文件（2GB以上）

Java读写大文本文件（2GB以上）如下的程序，将一个行数为fileLines的文本文件平均分为splitNum个小文本文件，其中换行符'r'是linux上的，windows的java换行符是'\r\n'：package kddcup2012.task2.FileSystem; import java.io.BufferedInputStream; import

2017-09-19 14:59:43 24822

转载 java读取txt文件乱码解决方案

因为txt默认的选项是ANSI，即GBK编码。GBK和GB2312都是中文编码，在这里解释一下两者的区别。总体说来，GBK包括所有的汉字，包括简体和繁体。而gb2312则只包括简体汉字。GBK: 汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位，并涵盖了原Unicode中所有的汉字20902，总共收录了883个符号， 21003个汉字及提供了1894个造字

2017-09-19 14:42:52 10726 1

原创图像对比之PSNR

进行图像对比的两个步骤1. 两个图像必须是同一尺寸，同一格式的图像文件(BMP 或者 RAW)，如果图像尺寸不一样，要把其中一个缩放到同一尺寸。可以调用opencv的resize函数进行图像缩放。下载地址：www.opencv.org2. 进行PSNR计算，可以参考如下链接： http://read.pudn.com/downloads74/

2017-06-26 11:24:26 3738

转载 [算法系列之十八]海量数据处理之BitMap

一：简介所谓的BitMap就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了bit为单位来存储数据，因此在存储空间方面，可以大大节省。二：基本思想我们用一个具体的例子来讲解，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用BitMap的方法来达到排序的目的。要表示8个数，我们就只需要8个

2017-06-01 22:43:07 653

转载携程如何从海量数据中构建精准用户画像?

用户画像作为“大数据”的核心组成部分，在众多互联网公司中一直有其独特的地位。作为国内旅游OTA的领头羊，携程也有着完善的用户画像平台体系。目前用户画像广泛用于个性化推荐，猜你喜欢等;针对旅游市场，携程更将其应用于“房型排序”“机票排序”“客服投诉”等诸多特色领域。本文将从目的，架构、组成等几方面，带你了解携程在该领域的实践。1.携程为什么做用户画像首先，先分享一下携程用户画

2017-06-01 18:31:20 3178

转载大数据用户画像方法与实践(干货转帖)

在大数据时代，机器要学会从比特流中解读用户，构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践，以及在实际中的应用。如何根据用户画像进行精准营销？将用户画像应用于个性化推荐？一起来寻找答案吧~首先看一下大数据与应用画像的关系，现在大数据是炙手可热，相信大家对大数据的四个V都非常了解，大数据应该说是信息技术的自然延伸，意味着无所不在的数据。我们先看下数据地位发生转变

2017-06-01 18:26:51 3785 5

原创一个Spark推荐系统引擎的实现

第三篇：一个Spark推荐系统引擎的实现阅读目录前言第一步：提取有效特征第二步：训练推荐模型第三步：使用ALS推荐模型第四步：物品推荐第五步：推荐效果评估小结回到顶部前言经过2节对MovieLens数据集的学习，想必读者对MovieLens数据集认识的不错了；同时也顺带回顾了些Spark编程技巧，Python数据分析技巧。

2017-06-01 18:16:02 3256

转载基于Spark平台的电影推荐系统实现

博主一年前写过一个这样的文章，电影推荐也是博主一年前就学习过的，温故而知新，重新拿出来好好重新研究一番。这时以前的文章链接：如何使用Spark ALS实现协同过滤http://www.aboutyun.com/forum.php?mod=viewthread&tid=13620(出处: about云开发)，基于spark0.9官网当时给的例子，与本文有有所不同，本文最后也有经过修改的相关代

2017-06-01 18:14:13 4125

转载基于Spark Mllib，SparkSQL的电影推荐系统

本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统，以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下： 1.某电影网站拥有可观的电影资源和用户数，通过各个用户对各个电影的评分，汇总得到了海量的用户-电影-评分数据 2.我在一个电影网站上看了几部电影，并都为其做了评分操作（0-5分） 3.该电影网站的推荐系统根据我对那

2017-06-01 18:12:21 2047

转载《推荐系统》基于标签的用户推荐系统

1：联系用户兴趣和物品的方式2：标签系统的典型代表3：用户如何打标签4：基于标签的推荐系统5：算法的改进6：标签推荐源代码查看地址：github查看一：联系用户兴趣和物品的方式推荐系统的目的是联系用户的兴趣和物品，这种联系方式需要依赖不同的媒介。目前流行的推荐系统基本上是通过三种方式联系用户兴趣和物品。

2017-05-29 11:27:06 13022 1

转载 Spark DataFrame入门教程

DataFrame是Spark推荐的统一结构化数据接口，基于DataFrame快速实现结构化数据的分析，详细使用教程在https://spark.apache.org/docs/latest/sql-programming-guide.html使用创建SparkQL的上下文。from pyspark.sqlimportSQLContextsqlContext = S

2017-05-20 13:29:29 1067

转载 Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入

问题导读1.DataFrame是什么？2.如何创建DataFrame?3.如何将普通RDD转变为DataFrame？4.如何使用DataFrame？5.在1.3.0中，提供了哪些完整的数据写入支持API？自2013年3月面世以来，Spark SQL已经成为除Spark Core以外最大的Spark组件。除了接过Shark的接力棒，继续

2017-05-20 13:28:19 1513 1

转载 Spark2加载保存文件，数据文件转换成数据框dataframe

hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/hadoop fs -ls -R /datafiledrwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /datafile/wangxiao-rw-r--r--

2017-05-20 13:27:20 1993 1

转载如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题

原因就不解释了，总之是因为多线程并行往hdfs写造成的（因为每个DataFrame/RDD分成若干个Partition，这些partition可以被并行处理）。其结果就是一个存下来的文件，其实是hdfs中一个目录，在这个目录下才是众多partition对应的文件，最坏的情况是出现好多size为0的文件。如果确实想避免小文件，可以在save之前把DaraFrame的partition设为0：

2017-05-20 13:20:58 3521

转载 RDD,DataFrame与DataSet区别

1.RDD与DataFrame的区别下面的图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame多了数据的结构信息，即schema。

2017-05-20 12:54:42 720

转载 spark dataframe和dataSet用电影点评数据实战

RDD优点:编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销频繁的创建和销毁对象, 势必会增加GCDataFrameDataFrame引入了sche

2017-05-20 09:49:07 1630 1

转载 Spark商业案例与性能调优实战100课》第2课：商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析

Spark商业案例与性能调优实战100课》第2课：商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析package com.dt.spark.coresimport org.apache.spark.{SparkConf, SparkContext}object Movie_Users_Analyzer {def main (args:Array[St

2017-05-20 09:27:43 1216

转载用户体验优化事半功倍：如何绘制客户行为轨迹图

触脉导读：要做有效的客户分析，首先要了解客户行为。客户浏览行为轨迹图就是客户从产生购买意识，直至使用了产品或者服务的全部过程的具体展现。我们可以利用客户行为轨迹数据来了解客户浏览的阶段、细节、客户接触点以及对其进行量化分析，并制定出没一个阶段的度量标准。在研究客户行为轨迹过程中，还可以将整个过程划分为一连串的主要步骤，这样可以让你了解到关于客户行为轨迹的细节信息。接下来要做的就

2017-05-09 10:11:12 8492 2

搜狐DMP依托于搜狐，拥有搜狐网PC端、手机搜狐网、搜狐新闻客户端三端以及搜狐视频、千帆直播、56视频等搜狐旗下全产品矩阵的用户数据，是业内少有的可以覆盖视频、新闻、游戏、直播等多种业务形态的数据管理平台，可以覆盖到90%的中国网民。因而搜狐DMP可以将搜狐所有产品矩阵内的数据打通，将用户在各平台内的行为轨迹进行串联，通过数据管理平台来深入的挖掘，为广告主提供更加完整的行为链分析与更具情境化的用户

2017-05-09 10:06:57 818

转载 spark saveAsTextFile

当我运行完一个Spark程序想把结果保存为saveAsTextFile，结果使用Hadoop fs -ls la /qy/151231.txt后发现里面有一系列的part，好几千个。原因：运行Spark的时候把数据分成了很多份（partition），每个partition都把自己的数据保存在partxxx文件夹。如果想保存为一份的话，就要：先collect 或

2017-05-08 10:45:11 1823 1

转载从零开始，手把手教会你5分钟用SPARK对PM2.5数据进行分析

要从零开始，五分钟做完一个基于SPARK的PM2.5分析项目，你是不是会问1. PM2.5的数据在哪里？2. SPARK的环境哪儿有？3. 程序怎么编？不用急，跟着我做，5分钟就可以从零开始完成所有的事情。准备SPARK环境今天，在各种公有云都可能申请到SPARK的环境。但彻底免费，启动最容易的是在超能云(SuperVessel)上面的SPARK服务，完全免费。

2017-05-07 16:02:30 1866

转载 Spark API 详解/大白话解释之 reduce、reduceByKey

reduce(binary_function) reduce将RDD中元素前两个传给输入函数，产生一个新的return值，新产生的return值与RDD中下一个元素（第三个元素）组成两个元素，再被传给输入函数，直到最后只有一个值为止。val c = sc.parallelize(1 to 10)c.reduce((x, y) => x + y)//结果551212具体过程，RDD

2017-05-07 15:48:27 2755

转载 spark【例子】count(distinct 字段) 简易版使用groupByKey和zip

例子描述：有个网站访问日志，有4个字段：（用户id，用户名，访问次数，访问网站）需要统计：1.用户的访问总次数去重2.用户一共访问了多少种不同的网站这里用sql很好写select id,name,count(distinct url) from table group by id,name其实这个题目是继官方和各种地方讲解聚合函数（agg

2017-05-07 11:01:33 685

转载 spark【例子】同类合并、计算2

spark【例子】同类合并、计算2例子描述：大概意思为，统计用户使用app的次数排名原始数据：000041b232,张三,FC:1A:11:5C:58:34,F8:E7:1E:1E:62:20,15097003,,2016/6/8 17:10,2016/6/8 17:10,690,6218,11=0|12=200,2016/7/5 11:11

2017-05-07 10:20:56 469

转载 spark数据分析之ip归属地查询

前一段时间，在项目中，领导要求实时查看来自各个省份的ip访问的详情，根据这一需求，通过flume/logstack实时采集nginx的日志到生产到kafka，再通过Spark实时消费分析保存到Redis/MySQL中，最后前端通过百度的echart图实时的显示出来。首先，得有一份ip归属地的规则表，可以本地的文档，也可以是分布式的在多台机器上的（如hdfs）。 ip规则表部分如下：1

2017-05-07 10:11:20 2348 4

转载基于spark的精准推荐系统

架构图：

2017-05-07 10:07:38 2163

转载用sparkstreaming按天计算地区销售额简单模版

producer端：import java.util.HashMapimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming._

2017-05-07 10:03:00 828

转载基于Spark实时计算商品关注度

基于Spark实时计算商品关注度一、实验介绍1.1 内容简介处于网络时代的我们，随着 O2O 的营销模式的流行，越来越多的人开始做起了电商。与此同时也产生了许多网络数据，然而这些数据有什么用呢。比如说一个电商公司可以根据一个商品被用户点击了多少次，用户停留时间是多久，用户是否收藏了该商品。这些都是可以被记录下来的。通过这些数据我们就能分析出这段时间内哪些商品最受普遍人们的关

2017-05-07 10:00:19 1413 2

转载 Spark Idea Maven 开发环境搭建

Spark Idea Maven 开发环境搭建一、安装jdkjdk版本最好是1.7以上，设置好环境变量，安装过程，略。二、安装Maven我选择的Maven版本是3.3.3，安装过程，略。编辑Maven安装目录conf/settings.xml文件，?12D:\maven-repository\reposit

2017-05-05 17:50:56 993

转载基于IntelliJ IDEA开发Spark的Maven项目——Scala语言

基于IntelliJ IDEA开发Spark的Maven项目——Scala语言1、Maven管理项目在JavaEE普遍使用，开发Spark项目也不例外，而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目，本文采用的工具是IntelliJ IDEA 2016，IDEA工具越来越被大家认可，开发Java,Python ,sc

2017-05-05 17:44:44 3292

转载 IDEA打包jar包的多种方式

本篇文章总结出用IDEA打包jar包的多种方式。项目打包Jar包可以参考如下形式：用IDEA自带的打包形式；用Maven插件maven-shade-plugin打包；用Maven插件maven-assembly-plugin打包。下面跟着小编一起来看下吧这里总结出用IDEA打包jar包的多种方式，以后的项目打包Jar包可以参考如下形式：用IDEA自带的打包形式用

2017-05-05 17:42:56 11205

原创 Hadoop HA 模式下运行spark 程序

（1）将Hadoop的hdfs-site.xml 和core-site.xml文件复制到spark/conf目录下（2）追加如下内容到 spark-defaults.conf文件spark.files file:///home/hadoop/spark/conf/hdfs-site.xml,file:///home/hadoop/spark/

2017-05-04 14:44:36 986 2

原创 php环境下，无法运行帝国备份王程序

我在虚拟机下，安装了Windows 2003 服务器系统，mysql server 5.5，PHP 5.3.12，FASTCGI1.5的php坏境，但是不知道为什么运行帝国备份王程序，网上找了很多的方法，都无法解决这个问题。解决办法：打开 php.ini ，找到 short_open_tag = Off 这一行，将 Off 修改为 On，保存退出重启 Apache 就可以了~

2017-04-24 16:35:26 714

转载微信公众号开发-初学者-SAE新浪云申请及自定义菜单

毕业设计选题为基于微信公众平台的鲜花定制系统的开发，经过前期的学习和实践，现在已经将自定义菜单开发出来并成功显示了。首先，对于第一次进行开发的小白来说，注册一个订阅号是第一步，大部分学习者是选择个人非认证的，并不影响开发学习（具体注册步骤可以百度进行，并没有太大的难度）。然后需要充分了解并熟悉微信公众账号非开发者模式下的运营（推送消息以及非开发者模式下的菜单等功能）。建议花几天时间用自己注

2017-04-16 22:49:22 3426 1

转载 CentOS 6.5安装VNCserver 并开启远程桌面

CentOS 6.5安装VNCserver 并开启远程桌面，首先要让虚拟机联网，才能下载yum源。让舍友开个WIFI，然后用NAT模式连接。不会的去百度。1、下载vncserveryum install tigervnc tigervnc-server -y2、配置 vncserver vim /etc/sysconfig/vncserver 在文件加入下面两行代码：

2017-04-14 17:46:12 1476

转载 Hadoop 2.6.0 HA高可用集群配置详解

1 Hadoop HA架构详解1.1 HDFS HA背景HDFS集群中NameNode 存在单点故障（SPOF）。对于只有一个NameNode的集群，如果NameNode机器出现意外情况，将导致整个集群无法使用，直到NameNode 重新启动。影响HDFS集群不可用主要包括以下两种情况：一是NameNode机器宕机，将导致集群不可用，重启NameNode之后才可使用；二是计

2017-04-13 21:54:59 634

转载 Hadoop2.6.2完全分布式集群HA模式安装配置详解

一、机器配置清单(8节点)hadoop100 节点：NameNode、DFSZKFailoverController(ZKFC)hadoop101 节点：NameNode、DFSZKFailoverController(ZKFC)hadoop102: 节点：ResourceManagerhadoop103: 节点：ResourceManagerhadoo

2017-04-13 21:47:40 474

转载 Spark RDD/Core 编程 API入门系列之rdd案例（map、filter、flatMap、groupByKey、reduceByKey、join、cogroupy等）（四）

Spark RDD/Core 编程 API入门系列之rdd案例（map、filter、flatMap、groupByKey、reduceByKey、join、cogroupy等）（四）声明：　　大数据中，最重要的算子操作是：join !!! 典型的transformation和action val n

2017-04-11 14:02:23 2172

转载 top N彻底解秘

本博文内容：　　1、基础Top N算法实战　　2、分组Top N算法实战　　3、排序算法RangePartitioner内幕解密 1、基础Top N算法实战 Top N是排序，Take是直接拿出几个元素，没排序。

2017-04-11 14:00:18 1355

转载 Spark RDD/Core 编程 API入门系列之简单移动互联网数据（五）

Spark RDD/Core 编程 API入门系列之简单移动互联网数据（五）　　通过对移动互联网数据的分析，了解移动终端在互联网上的行为以及各个应用在互联网上的发展情况等信息。具体包括对不同的应用使用情况的统计、移动互联网上的日常活跃用户（DAU）和月活跃用户（MAU）的统计，以及不同应用中的上行下行流量统计等分析。　　为了简化移动互联网数据的分析，我这里是当个入门。

2017-04-11 13:58:26 586

2018年数据可视化的8大趋势

众多机构致力于从位置数据中获得更多真知灼见，并且更清晰地展示它们的研究成果，高质量的数据可视化所带来的价值未来必将持续增加。以下是我们将在2018年持续关注的一些数据可视化的重要趋势。

2018-01-10

带时间的万年自动计算考勤表

带时间的万年自动计算考勤表，可以灵活配置，用于公司考勤

2018-01-10

超全面实用的工资表(自动生成报盘、报税）

超全面实用的工资表(自动生成报盘、报税），可以灵活配置

2018-01-10

elasticsearch集成ik分词器详细文档

elasticsearch集成ik分词器详细文档，包括elasticsearch的应用和部署

2018-01-10

大数据安全实践

大数据安全实践，安全问题背景魅族大数据安全标准体系魅族大数据平台安全架构大数据安全技术

2018-01-10

2017人工智能人才白皮书

全球AI人才发展现状，中国AI人才市场为何一将难求。

2018-01-10

Kafka核心原理与实战（并不是原书，请看描述和评论下载）

Kafka是一个分布式的消息队列系统，消息存储在硬盘上，描述了Kafka原理和安装部署的过程（Kafka核心原理与实战【整理人：北京海子】）

2018-01-10

数据透视表--实例教程

数据透视表--实例教程二，包含教程中用到的数据，便于实践参考

2018-01-09

如何使用IDEA开发spark scala程序

使用IDEA开发spark scala程序，配置idea开发工具，使用hadoop进行文件搜索

2017-04-23

glpi 资产管理系统

glpi 资产管理系统，采用PHP + MySql，功能强大，部署方便

2017-04-22

小牛OA系统

小牛OA系统，使用php + mysql，快速部署，方便快捷，功能齐全

2017-04-22

Telnet 和 SSH 的区别

介绍了Telnet和SSH的区别，以及SSH1和SSH2的区别，SSH1的缺陷，SSH2的特点

2016-04-28

java_java写XML文件和读取XML文件

java写XML文件和读取XML文件，提供源代码，可以直接使用

2014-09-25

H323协议详解

关于H323协议的详细描述，有案列和Call flow

2012-07-05

Telnet Server Client 最小化Java实现

一个运用Socket技术的Telnet server 和 Client 的简单实现。

2012-03-29

C语言面试题大汇总C语言,面试题,汇总

C语言面试题大汇总,还有对试题的分析和详细答案

2011-01-04

《开源》200802.pdf

2008-04-08

《开源》200801.pdf

《开源》本着实用的原则，目前划分了七个栏目，第一个栏目是产业聚集，其中包括两块内容，第一是资讯，对于发展得如火如荼的开源领域，一月的时间会发生很多很多的事件，而这个栏目将对一月的新闻有个采集汇总，而第二块内容则是对一些热点事件的深度或持续的关注，或者评论，或者报道，使读者能清晰地理清开源领域发展脉络。 第二个栏目是博客文摘，作为Web 2.0的代表作，博客已经越来越深入得影响了我们的生活，博客开放的思想与开源多少有着一脉相承的味道。这个栏目我们将选取一些开源领域重量级人物的博客，做成文摘的形式，使读者在了解开源动态的前提下，更多地了解到一些前沿的观点。 开源社区是开源的灵魂，这样的观点得到了大家的公认。第三个栏目就将完全关注开源社区，其中会有从社区走出的开源项目的一些最新动态的报道，对于一些优秀的开源项目，也将以科普的形式进行详细的介绍。同时，对于我们开源社区的一些活动，开源社区的一些新技术，来自开源社区的议论都将在这个栏目呈现给大家。 知识学堂这个栏目主要普及开源的知识、文化，以及一些大家都关注的开源应用。以讲座和连载的形式让大家都深入的了解开源文化，对于一些长篇的开源应用讲座，也将在这个栏目进行体现，这类讲座将包括基础的命令讲解到高级的内核解读。 桌面应用将介绍来自桌面的新产品、新工具、新应用，以及各式各样的应用技巧。同时会对桌面软件进行评测和试用报告，刚刚迈进开源应用大门的初学者能从这里获得足够的信心，完全地玩转开源的各种应用。 企业级应用则将推出企业级的新产品、新方案，同时对运用开源软件进行IT环境搭建和运维进行指导，介绍能满足于企业级应用的优秀开源项目，对于复杂IT环境应用中的各种问题也将进行讨论，这个栏目的宗旨一句话可以概括：“自从用了开源企业级软件，我们明显感觉更省钱了。” 混源新视界则是我们推出的一个战略性的栏目，在开源与商业越来越紧密的今天，混源应用得到了广泛的发展。目前的IT环境，很少有纯开源或者纯闭源的软件，开源与传统的商业软件更多的是融合在一起，协同工作。对于混源这个概念，微软也有着自己的解释，那就是异构环境，无论是混源还是异构，毕竟是未来的趋势，趋势性的东西就是值得我们关注的东西，昨天经典的“LAMP”架构到了今天又延伸出了“WAMP”架构，这都是来自混源的魔力，而受益的都是最终用户。 七个栏目组成了我们第一期电子杂志，《开源》这本电子杂志就如同当年那个笨拙的小企鹅，需要更多的人关注和支持，需要更悉心的照料，它才能存活下来，才能健康的成长起来。第一期杂志难免有诸多不尽人意的地方，也希望大家将更多的意见反馈给我们，我们将尽力将这本开源领域惟一的电子杂志办的更好。

2008-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人