自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 tensorflow学习率衰减控制 tf.train.exponential_decay

# !/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2018/8/14 上午11:06# @Author : chengwei# @Site :# @File : test.py# @Software: PyCharmimport tensorflow as tfimport matplotlib.py...

2018-08-16 11:38:53 332

原创 tensorflow.contrib.learn.preprocessing.VocabularyProcessor,繁体转简体

import jiebafrom hanziconv import HanziConvfrom tensorflow.contrib import learnimport numpy as npmax_document_length = 15 # 文本最大词长度x_text =['版权声明:一首歌,一段情,你可曾体会?我的个人微信公众号:歌曲 背后的故事。','版权声明:一首歌,一段...

2018-08-14 11:33:34 1032

转载 hive 底层模块实现-join

准备数据语句SELECT a.uid,a.name,b.age FROM logs a JOIN users b ON (a.uid=b.uid);我们希望的结果是把users表join进来获取age字段。hive> SELECT * FROM logs;OKa 苹果 5a 橙子 3b 烧鸡 1hive> SELECT * FROM users;OKa 23b

2017-01-18 14:15:41 1435

转载 hive 底层模块实现-group by

准备数据SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;hive> SELECT * FROM logs;a 苹果 5a 橙子 3a 苹果 2b 烧鸡 1hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;a 10b 1计算过程 默认设置了hive.

2017-01-18 14:11:54 1179

转载 hive 底层模块实现-distinct

准备数据语句SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT;hive> SELECT * FROM logs;OKa 苹果 3a 橙子 3a 烧鸡 1b 烧鸡 3hive> SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT;根据

2017-01-18 11:29:05 1504

原创 用命令将本地项目上传到git 远程仓库

1、(先进入项目文件夹)通过命令 git init 把这个目录变成git可以管理的仓库git init2、把文件添加到版本库中,使用命令 git add .添加到暂存区里面去,不要忘记后面的小数点“.”,意为添加文件夹下的所有文件git add .3、用命令 git commit告诉Git,把文件提交到仓库。引号内为提交说明git commit -m 'first commit'4、关联到远程库gi

2017-01-05 11:28:11 487

原创 用pycharm + python写spark(spark-2.0.1-bin-hadoop2.6)

一、将pyspark放入: 该目录位置(我的是mac): /Library/Python/2.7/site-packages二、env配置: 步骤1: 步骤2: 步骤3: SPARK_CLASSPATH /Users/Chaves/workspace/spark/hbase-0.98.3/lib/:/Users/Chaves/workspace/spark/spark-2.

2017-01-05 11:05:04 2419

转载 常用推荐算法性能比较

一,常用推荐系统算法总结1、Itemcf (基于商品的协同过滤)这个算法是cf中的一种,也是当今很多大型网站都在采用的核心算法之一。对于商城网站(以Amazon为代表,当然也包括京东那种具有搞笑特色的推荐系统在内),影视类推荐,图书类推荐,音乐类推荐系统来说,item的增长速度远不如user的增长速度,而且item之间的相似性远不如user之间的相似性那么敏感,所以可以在离线系统中将ite

2015-11-09 11:50:57 13144 1

转载 探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探

随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现,使用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的上下文信息更丰富的信息发现。

2015-11-09 11:31:12 398

转载 常用的推荐算法

原文博主:http://liyonghui160com.iteye.com在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐       基 于内容的

2015-11-09 10:06:41 398

转载 R 中的 系统聚类

1、关键点#聚类分析是一类将数据所研究对象进行分类的统计方法,这一类方法的共同特点是:#事先不知道类别的个数与结构 据以进行分类的数据是对象之间的相似性 或差异性数据#将这些相似(相异)性数据看成是对象之间的距离远近的一种度量 将距离近的对象#归入一类 不同类之间的对象距离较远#聚类分析根据分类对象不同分为Q型聚类分析(指的是对样本进行聚类) 和R型聚类分析(指的是对变量进

2015-07-09 16:37:15 1930

原创 pycharm 设置

今天尝试使用了下编译工具pycharm,感觉还不错,最后再将今天遇到的问题都记录在此,防止后面忘记。1、pycharm连接SVN1)vcs - checkout - subversion 设置2)在这里填上同步地址 3)上步,设置完成后,需要将settings中subversion 三个地方的对号去掉,这样才可以check in。 2,pycharm

2015-07-06 17:54:05 13541

原创 python max()函数的应用

1.比较简单的应用max(1,2,4,5,6)max('a','b','c','e')2.可以对列表和元组使用max(['a','c'])max((1,'a'))3.可以使用自定义函数max('12', '21', key=lambda x: x[1])def bjfunction(x): return x[1]max('ah', 'bf', key=b

2015-07-01 16:03:25 1710

转载 【转载】python 中的 and、or、and-or

一、and:在Python 中,and 和 or 执行布尔逻辑演算,如你所期待的一样,但是它们并不返回布尔值;而是,返回它们实际进行比较的值之一。 >>> ‘a’ and ‘b’ ‘b’ >>> ” and ‘b’ ” >>> ‘a’ and ‘b’ and ‘c’ ‘c’在布尔上下文中从左到右演算表达式的值,如果布尔上下文中的所有值都为真,那么 and 返回最

2015-07-01 14:54:43 692

原创 文本分词方法

废话不多说,我就直接上干货吧,从过去到现在所知道的分词方法有以下几种: 1、mmseg4j2、词频分组(有序文本足够)3、jieba分词下面细说一下几种分词方法, 第一种,mmseg4j,我使用这种方法是以R来分词的,所以就用R来说这个包,R中这个包的名字叫“rmmseg4j”,详情见该帖:[程序分享]R与中文分词,R中的mmseg包,使用方法如下R code,这种方法还有一个java版本的分词

2015-05-26 18:17:46 3519

转载 CSDN-markdown编辑器帮助

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-03-30 10:52:12 384

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除