晨丢丢-CSDN博客

原创基于LSTM的Chatbot实例(3) — tensorboard可视化分析LSTM

一、计算图　　　上一篇文章中已经完成了基于tensorflow的chatbot模型建立和训练,并保存训练日志在指定目录。在命令行使用”tensorboard –logdir=‘XXX’”，根据提示打开指定url，即可可视化整个模型计算图及训练过程的参数的变化情况。这里先将选项卡切换在”GRAPHS”栏位，查看整个计算图整个序列非常的长，下面将分别展开来说。...

2018-05-29 19:09:36 3380

原创基于LSTM的Chatbot实例(2) — tensorflow LSTM模型创建

一、总体分析　　感觉很多chatbot的博文都是直接拿seq2seq开刀，上来就堆了一堆RNN（或者LSTM，Attention）模型的原理和公式。本篇从初学者的角度出发更想将机器学习基础（目标函数，优化方法，正则化等思想）贯穿始终。并结合Tensorboard可视化tensorflow中相关的模型算法。　　在Machine Learning by Mitchell(1997)中，给出了机...

2018-05-29 09:19:57 2546 2

原创 Spark MLlib — Word2Vec

Word2vec 是 Google 在 2013 年开源的一款将词表征为实数值向量的高效工具。能够将单词映射到K维向量空间，同时由于算法考虑了每个单词的上下文环境，因此词向量表示同时具有语义特性。本文对Word2Vec的算法原理以及其在spark MLlib中的实现进行了对应分析。1.背景知识1.1 词向量NLP中词向量通常有两种表示方式：One-hot Representaion 把每个单词按

2016-10-12 11:22:00 4777 1

原创 Home Credit Default Risk(2) —初步探索

本篇以application_{train|test}.csv入手，进行基本的数据分析# 导入需要的依赖包import osimport pandas as pdimport matplotlib.pyplot as pltimport matplotlibimport seaborn as snsimport numpy as npfrom sklearn.preproces...

2018-10-24 18:21:14 1495 3

原创 Home Credit Default Risk(1) — 背景介绍

总体介绍 Home Credit Default Risk是Home Credit公司在kaggle上的一个信贷风险评估竞赛。其提供的数据文件描述及文件间关联关系如下：有些金融专有名词尤其是一些公司产品的专有名词对于我们外行人员来说相当难理解了，所以我查看了下公司官网，给出了一些背景介绍，有助于理解数据吧。 Home Credit公司的商业模式其实跟支付宝的某些部分很像，后面会类比。一个...

2018-10-24 09:39:37 4447 1

原创商品销售数据建模及分析

一、概述本篇的数据集及程序代码上传在个人github上本文针对所给的酒类商品销售数据集进行了以下两大类分析： (1) 统计分析类酒种的销售统计地区的销售统计 (2) 建模分析类相似用户反馈相似商品反馈协同过滤推荐感兴趣用户推荐地域优先推荐用户流失度分析高价值用户分析其中用户流失度分析及高价值用户分析依赖更加完整的数据集（订单的时间序列及单次订单消费...

2018-06-01 09:01:26 29034 12

原创基于LSTM的Chatbot实例(4) — 基于SGD的模型参数训练及优化

一、SGD基本知识　　前几篇文章中已经介绍了我们的seq2seq模型使用均方误差作为损失函数，使用SGD算法（随机梯度下降）算法来训练模型参数，实例中代码如下：net = tflearn.regression(real_output_sequence, optimizer='sgd', learning_rate=0.1, loss='mean_square')　　大多数机器学习任务最...

2018-05-31 17:01:59 3388

原创基于LSTM的Chatbot实例(1) — 研究背景及数据准备

一、背景　　一直想写一篇面对初学者的文章从上层应用到底层的机器学习基础方面全流程的阐释当下流行的深度学习算法（CNN，RNN等）。刚好春节前有同学工作内容涉及对话机器人，我也从零开始接触学习了下，所以就借这个案例展开说一些自己的学习过程吧。　　对话系统根据实际的任务需求，所要用到的主要技术手段也不尽相同。具体来说，对话系统大致可分为两种：任务导向型（task-oriented)对话系...

2018-05-28 14:15:07 2428 2

原创 h2o.ai源码解析(3)—CPU管理

1. 前言本系列中的第一篇中给出了h2o.ai的整体介绍。其整体架构如下：在上图中核心基础设施(Core infrastructure)主要包含内存管理（基础数据结构）和CPU管理（任务调度）两部分。本篇先介绍任务调度部分2. CPU管理h2o/h2o-3项目的cpu管理的源码主要集中在h2o-core模块中，其中完全引入了jsr166y的源码（java7之后引入的支持Fork/Join框架

2017-11-07 13:15:44 1001

原创 h2o.ai源码解析(2)—启动流程

上一篇中已经给出h2o.ai的整体介绍以及其核心项目h2o.ai/h2o-3的源码目录，本篇给出h2o启动流程的源码分析。启动过程的时序图如下：下面挑选时序图中的关键接口进行详细功能介绍：1. 【步骤3】 registerCoreExtensions()加载扩展类利用Java ServiceLoader的原理加载当前项目目录中所有/resources/META-INF/目录下wate

2017-11-03 13:35:50 2083

原创 h2o.ai源码解析(1)—项目简介

h2o.ai项目简介参考h2o.ai官网中给出的项目定位是“open source platform for AI”。相较于当前市面上的机器学习平台，h2o.ai的优势在于： - 上乘的开源技术：h2o.ai是基于Java的开源项目，并可以无缝对接Apache hadoop，Spark等优秀的开源项目，为使用者在面临各种数据分析挑战时提供了多种灵活的解决方案 - 直观方便使用的WebUI以及

2017-11-02 15:57:24 6289 3

LDA(Latent Dirichlet allocation)是一种主题模型，它可以将文档集中每篇文档的主题按照概率分布的形式给出，也即根据给定的一篇文档，推测其主题分布。同时它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。本文主要介绍LDA涉及的数学知识以及Spark MLli

2016-11-22 16:33:35 854

原创 YCSB基础知识及HBase性能测试

YCSB是雅虎开源的NoSQL测试工具，本篇以对HBase的测试为例介绍其运行流程。一、准备工作下载安装： YCSB提供编译后的安装文件,只要下载安装包解压就好。踩过的坑： (1) 目前最新的版本为0.11.0。但是我在使用的过程中使用官网推荐的两种方法均不能正常使用：直接下载安装包，解压过程中有文件损坏，文件不完整下载源码包用mvn clean package自编译时，进行到83%之后便

2016-11-11 10:58:18 10677 2

原创工作小记--虚拟机磁盘扩容

前言随着学习的深入，刚开始刚开始用virtualbox创建的8G磁盘容量的虚拟机已经不能满足需求了，所以对虚拟机进行了磁盘扩容，留下记录。原始磁盘容量如下：下面采用两种方法给磁盘扩容：一、使用VBoxManage命令扩容进入到VirtualBox的安装目录，使用”VBoxManage list hdds”命令查看当前所有虚拟磁盘信息如下：其中红框即为虚拟机centos-1所挂载的虚

2016-11-03 19:06:41 595 1

原创大数据学习(二)：Hadoop源码分析

概述本文主要从一次完整的Map-Reduce作业提交运行入手分析这个过程中涉及到的Hadoop源码架构，此外本文基于的Hadoop版本是2.6.4总体流程上图给出了Hadoop在运行一次Map-Reduce作业过程中涉及到的组件交互，其中涉及到的6个进程间交互接口的作用如下：接口作用 ApplicationClientProtocol client向ResourceManage

2016-09-24 11:28:44 1033

原创大数据处理实例——Amazon商品评分&评论（四）

背景在本系列的第二篇中给出了Storm实时处理框架。其中有提到由于后面的离线学习部分都是基于文本的词频向量，因此需要统计非重复单词个数(向量维度)以及为每个单词编号(该单词词频所在列)。本篇就重点介绍自己基于ZK集群的实现方式分析我自己的想法就是在Storm Topolopy的去停用词阶段(StopWordsFilterBolt)为每一个新单词在ZK指定路径上创建一个新的节点。同时启动一个ZK li

2016-09-24 11:06:19 5647 2

原创大数据处理实例——Amazon商品评分&评论（三）

背景本系列的第二篇中给出了实时预处理部分的总体框架和Storm Topology的实现。在Storm处理之前，由于从Stanford获取的乐器类评价文件(Musical_Instruments_5.json)是某一段时间的全量数据集，所以也提到可以自己写个小应用来模拟实时评论。这里给出几种实现方案。提前知识关于Flume的原理，网上有很多参考资料。在本人的实时处理环境搭建过程中也给出了Flume+K

2016-09-24 09:45:08 3636

原创大数据处理实例——Amazon商品评分&评论（二）

上一篇已经详细分析了该案例的具体目标，本篇主要介绍实现的总体框架及其中的实时预处理部分。其中实时处理环境的搭建可参见这里总体架构实时预处理1. 准备工作从Stanford的Amazon开源数据上下载Music类商品的评价数据文件Musical_Instruments_5.json, 其中每行数据示例如下：{ "reviewerID": "A2IBPI20UZIR0U", "asin

2016-09-22 16:14:41 5589

原创 SpringSecurity实现登录认证及权限验证

目标在原公司有专门的登录验证和权限管理服务，换公司后在最近项目中需要使用Spring Security自主实现分布式系统的用户验证授权及权限验证功能，因此花了两天时间研究并实现了该方案：功能点细分： 1. 基于REST请求的登录 2. 用户名密码验证及验证成功后给用户授权 3. http请求的权限配置和验证 4. 方法级别的权限配置和验证 5. 分布式环境中用户权限共享分析及

2016-09-22 15:02:35 41169

原创大数据处理实例——Amazon商品评分&评论（一）

概述在积累了一定的主流大数据分析工具(Hadoop, Spark, Storm, HBase等)的基础知识后，加之以前学习和工作中积累的机器学习和分布式的相关经验，想着尝试一下自己对一个大数据案例完整的分析实践一遍。因此本文所述观点更多的是对自己这一个多月的大数据知识体系的学习的总结和实践，仅供参考。准备工作一、案例筛选个人在这一阶段主要考虑了以下几个方面：数据真实性：无论是自己采集真实数据还

2016-09-22 07:49:17 15376 3

原创大数据学习(一)：实时处理环境搭建

概述为了实现搭建一套初步学习大数据实时分析的平台，用了5台linux虚拟机(Centos 7)，安装的组件包括： - FlumeNG：数据采集 - kafka集群：数据统一接入 - Storm集群：数据实时处理 - hadoop集群：这里只是用了其中HDFS组件来做数据存储整个实时处理框架如下：本人自己搭建环境的节点分布如下：服务

2016-08-30 18:46:02 3119

Alice