自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 基于知识图谱推理的关系推演

对于知识图谱的关注可以分为两个方面:知识图谱的构建和基于知识图谱数据结构的应用。知识图谱的构建主要关注如何整合结构化、非结构化的数据,实现用统一的语义数据结构如三元组RDF形式的数据存储。基于知识图谱的应用主要关注如何从这种语义数据结构中挖掘、发现、推演出相关的隐藏知识或新知识或者实现更上层的应用如搜索、问答、决策、推荐等,具体可以参考《三个角度理解知识图谱》。本文主要讲一下基于知识图谱推理的关系...

2018-08-18 12:23:50 13497

原创 Palantir的研究到金融风控(二)

目前人工智能已经深入金融、零售、汽车等行业,其中在金融行业的应用场景比较明确,所以AI在金融行业的发展比较快,应用相对要比其它行业来说要成熟。承接上篇文章Palantir的研究到金融风控(一),这里着重总结一下知识图谱在金融领域的应用:一、知识图谱能帮金融做什么?举几个例子:以股票投研情报分析为例:通过知识图谱相关技术从招股书、年报、公司公告、券商研究报告、...

2018-08-18 12:28:17 2011 1

原创 知识图谱技术

数联未来,数据融合是未来重要的方向,那么对于大数据来说目前主要存在如下几个挑战:1、多源异构数据难以融合转化并映射到同一平台,数据模型的灵活创建、以及数据模型间的关联关系也难以实现;2、数据模式动态变迁困难,当客户新需求、业务新认知时,需要修改数据结构以及业务逻辑,带来扩展性差,对客户响应慢、维护成本高等问题;3、非结构化的数据,计算机难以理解,用户搜索难以返回精确的结果;通过对知...

2018-08-18 12:25:56 1598

原创 基于知识图谱的智能问答

基于知识图谱的相关应用大致可以分为搜索、问答、决策、推荐等几种常见的类别,对于知识图谱的理解,可以参考之前的文章《三个角度理解知识图谱》,本文主要就年初规划的xx智能问答建设方案,介绍一下基于知识图谱的智能问答,主要分为如下几个方面:1、人机对话体系结构2、问答产品知识结构3、典型的智能问答产品4、智能问答的关键技术5、基于知识图谱的智能问答 1、人机对话体系结构...

2018-08-18 12:21:54 13324

原创 从三个角度理解知识图谱

2012年谷歌首次提出“知识图谱”这个词,由此知识图谱在工业界也出现得越来越多,对于知识图谱以及相关概念的理解确实也是比较绕。自己在研究大数据独角兽Palantir之后开始接触知识图谱,也算对其有了一定了解,这里从三个角度总结一下怎么去理解知识图谱。几个基本概念:本体、实体、知识库、知识图谱1、本体是概念的集合,是大家都公认的概念框架,一般不会改变如“人”、“事”、“物”、“地”、“组...

2018-08-18 12:19:58 6108

转载 使用sklearn优雅地进行数据挖掘

使用sklearn进行数据挖掘

2016-12-08 14:42:13 1926

转载 使用sklearn做单机特征工程

sklearn特征处理总结

2016-12-08 14:32:06 1202

原创 不用Pandas包和用pandas包处理数据集

python不用Pandas包和用pandas包处理数据集

2016-11-14 21:33:00 3829

原创 大数据服务入口

这段时间都没有时间写博客了哈,忙于实习,也和同学们一起在做DataAnswer-大数据服务的入口。今天请允许我打个广告:DataAnswer是数据交易/服务入口,集聚了各个数据交易平台和免费的数据源,也为大家提供数据源和数据服务的测评机制,以及大数据视频分析解读和招聘.欢迎需要找数据和数据服务的小伙伴来参观!

2016-07-15 15:52:08 996

原创 2014.11-2016.4融资事件分析

互联网+时代掀起了一股创业的浪潮,而这股浪潮中对于创业者和投资者来说最重要的当然是融资和投资了。这股浪潮掀起已久,具体的融资趋势、投资市场的情况以及投资机构的情况都是那些蠢蠢欲动者所想关注的。

2016-05-22 12:05:58 654

原创 大数据分析师的卓越之道

大数据时代的数据分析区别于普通的数据分析,这是由大数据的特性所决定的,为了适应大数据的时代的发展,数据分析师也应该转变一些分析的思想和观念。

2016-05-22 11:58:01 1339

原创 最全Python爬虫总结

(1)普通的内容爬取(2)保存爬取的图片/视频和文件和网页(3)普通模拟登录(4)处理验证码登录(5)爬取js网站(6)全网爬虫(7)某个网站的站内所有目录爬虫(8)多线程 (9)爬虫框架Scrapy

2016-05-13 20:19:48 10757

转载 可扩展的时间序列xts

转载自:http://blog.fens.me/r-xts/前言本文是继R语言zoo时间序列基础库的扩展实现。看上去简单的时间序列,内藏复杂的规律。zoo作为时间序列的基础库,是面向通用的设计,可以用来定义股票数据,也可以分析天气数据。但由于业务行为的不同,我们需要更多的辅助函数,来帮助我们更高效的完成任务。xts扩展了zoo,提供更多的数据处理和数据变换的函数。目

2016-05-08 09:59:07 1792

转载 R语言时间序列基础库zoo

转载自:http://blog.fens.me/r-zoo/前言时间序列分析是一种动态数据处理的统计方法,通过对时间序列数据的分析,我们可以感觉到世界正改变着什么!R语言作为统计分析的利器,对时间序列处理有着强大的支持。在R语言中,单独为时间序列数据定义了一种数据类型zoo,zoo是时间序列的基础,也是股票分析的基础。本文将介绍zoo库在R语言中的结构和使用。目录

2016-05-07 20:10:03 17266

原创 昨晚阿里巴巴的一道面试题分析

昨晚参加阿里巴巴数据开发工程师的一道sql语句题搞蒙了,今早重新梳理了一下和大家分享一下

2016-04-21 11:15:14 1495 3

原创 拉勾网大数据相关岗位数据爬虫分析

目前,大数据是一个非常热门的话题,受到很多人的关注和追捧,其创造的相关职业也受到大家的青睐。但大数据相关职业究竟是什么样,有怎么样的要求,有怎样的待遇还不为多数人所知,为了更好的了解大数据相关职业要求及其福利待遇进行本次数据分析。

2016-04-09 15:24:41 6902

原创 巨型日志处理系统

本次模拟系统,是利用Hadoop等组件来模拟巨型日志的处理系统,包括Python定时、Flume收集日志、MR处理日志、Sqoop导出数据、Hive的简单统计等

2016-04-09 15:09:01 3060

原创 R使用总结

R常用的抽样方法

2016-04-07 21:06:59 1150

原创 R语言之决策树和随机森林

特征选择、决策树、机器集成、随机森林

2016-04-07 20:40:53 8515

转载 交叉验证(Cross-Validation)

转载自:http://blog.sina.com.cn/s/blog_688077cf0100zqpj.html详见:http://blog.sciencenet.cn/home.php?mod=space&uid=830496&do=blog&id=676326交叉验证(Cross-Validation): 有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于

2016-03-22 19:31:00 10475

转载 神经网络(优化算法)

神经网络(优化算法)人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。人工神经网络从以下四个方面去模拟人的智能行为:

2016-03-21 22:07:31 12032

原创 几种算法的总结

1、线性回归2、广义线性回归(Logistic和泊松回归)3、主成分分析4、决策树5、相关规则

2016-03-21 18:04:53 789 1

原创 R语言获取历史股票数据

本文转载我自己写的文章,我个人网站DataAnswer:http://www.dataanswer.top(大数据博客和大数据问答的网站)上的文章。主要利用python获取股票数据,利用R来作图分析。

2016-03-20 19:00:53 5085 1

原创 R语言实现数据挖掘

R语言实现各算法的简单介绍

2016-03-20 18:40:01 5188 1

原创 Hbase总结

1、Hbase                是一个分布式的列式数据库:分布式、可扩展、面向列存储、存储松散数据的、向下提供存储,向上提供计算,数据存储与数据计算完美结合的数据库2、体系结构:主从服务器结构说明:一张完整的表可能是不保存在多个HRegion中一台机器一般一个HRegion服务器不涉及数据的直接删除和更新---都是追加,增加一个版本HFile的数量达到

2016-03-19 14:54:43 806 1

原创 数据仓库以及Hive的使用总结

数据仓库以及Hive的使用总结

2016-03-19 14:20:51 6309 1

原创 win7中安装jdk/mysql/odbc

常用安装整理

2016-03-19 13:32:13 602

原创 统计学知识点总结

商务统计学知识点简单总结

2016-03-19 13:28:27 4560

原创 R语言ggplot2画图

R语言ggplot2画图

2016-03-19 13:19:46 4433

原创 R中级绘图

R语言中级画图

2016-03-19 13:16:33 1255 1

原创 R基本图形

R基本图形

2016-03-19 13:14:08 1100

原创 R语言入门总结

1、R的简单语法:数据集:观测   变量记录   字段示例   属性 名义变量有序变量连续变量 数据结构:向量--只能同一类型的数据标量---一个数据,常用来存一个常数数组--维度可以大于2数据框---可以包含多种类型的数据,最常用的数据结构矩阵--只能同一类型数据列表---上面的任何一种结构的数据都可以放入列表中。

2016-03-19 11:29:45 1247

原创 数据分析入门

1、数据问题的处理流程:    一般的数据分析都是先从公司的具体业务问题出发,提出解决什么样的具体的业务问题,然而对于一般的业务问题提出来时都是比较抽象的,如“如何提高xx产品的销售量?”。对于抽象的业务问题,我们首先要做的就是把问题分解成具体的小问题,然后针对各个小问题分别取获取相应的数据来做具体分析。这些具体的数据来源一般包括从上级的邮件、公司的各项业务数据、运营数据、基础设施数据等。针对

2016-03-19 10:20:01 597

原创 ubuntu环境下安装R

1.首先更新sources.listcd /etc/apt/ sudo gedit sources.list 2.更新软件源 deb http:///bin/linux/ubuntu saucy/ deb http:///bin/linux/ubuntu raring/ deb http:///bin/linux/ubuntu quantal/ deb http:///bin/linux

2015-11-25 21:54:10 645

原创 Hadoop2.6.0集群配置

(1)java的jdk安装配置,ssh的免密登录安装配置ssh的免密登录安装配置(2)区分主节点的功能: 130是resorcemanager和namenode—-由下面的配置决定 131是datanode,nodemanager 132是datanode,nodemanager(3)JAVA_HOME内容添加hadoop-env.sh 修改JAVA_HO

2015-11-25 21:46:47 631

原创 ssh免密登录设置

(1)在三台机子中利用root用户创建相同的用户组和用户名:groupadd hadoop adduser -ingroup hadoop hadoop(2)添加sudo文件的写权限,命令是: chmod u+w /etc/sudoers(3)编辑sudoers文件,赋给hadoop用户相同的权限

2015-11-25 21:32:09 892

原创 初识servlet

浏览器---web----servlet之间的消息传递的示意图

2015-05-23 23:26:51 449

转载 SQL Server 存储过程

SQL Server 存储过程Transact-SQL中的存储过程,非常类似于Java语言中的方法,它可以重复调用。当存储过程执行一次后,可以将语句缓存中,这样下次执行的时候直接使用缓存中的语句。这样就可以提高存储过程的性能。Ø 存储过程的概念    存储过程Procedure是一组为了完成特定功能的SQL语句集合,经编译后存储在数据库中,用户通过指定存储过程的名称并给出参数来执行

2015-05-22 13:28:47 449

转载 java对字符的编码处理

本文转自http://kxjhlele.iteye.com/blog/333211,讲述了java中对字符的编码处理    在java应用软件中,会有多处涉及到字符集编码,有些地方需要进行正确的设置,有些地方需要进行一定程度的处理。1. getBytes(charset)    这是java字符串处理的一个标准函数,其作用是将字符串所表示的字符按照charset编码,并以字

2015-05-22 09:20:31 572

原创 java连接Mysql时注意的问题

java连接Mysql时注意的问题

2015-05-22 09:02:32 582

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除