自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 python连hive

前言最近开始尝试tensorflow,而数据存在hive里,如何读取数据是个很大问题。网上有不少例子,不过这些例子也带来了不少坑,最终于经过九九八十一难,总算连成功了。 先说说经历的坑吧坑1 使用thrift安装,在网上查了很多相关资料,貌似年代都挺久远的,不过还是试了试,参考代码如下# -*- coding: utf-8 -*-#!/usr/bin/env pythonimport sys

2017-05-18 15:04:51 9882 5

原创 tensorflow初试

1 前言数据来源:某游戏行为数据 目的:游戏流失预测,二分类模型2 步骤基本步骤 1.从原始数据集的CSV里面读取数据,并且加载到Tensorflow当中 2.构建一个基于神经网络的分类器 3.使用训练数据进行模型训练 4.使用测试数据进行模型评估3 数据加载

2017-05-09 19:09:00 323

原创 textrank关键词提取

TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论。

2017-04-07 14:12:07 1563

原创 Spark之特征工程总述

特征工程总结

2017-03-17 10:32:14 1651

原创 Spark之特征预处理

数据预处理:Z-score标准化、0-1标准化....

2017-03-16 18:39:12 806

原创 Spark之特征选择

特征选择       坊间传言:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此特征工程显得尤为重要。最近的工作中做了较多的特征工作,在这里做一个小小的总结。peason特征选择       笔者本身统计学的,一直认为pearson也只能做做相关性分析,判断两个变量相关性什么的。在工作中刚开始并未觉得卡方特征选择效果会有多好,于是退而求其次,选择了peason,这个是spark

2017-03-16 17:56:55 1573

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除