sam-X-CSDN博客

原创个人博客网站

个人博客网站http://hyperparameter.cn暂时与CSDN上面的博客同步发布，后面重心会逐渐转到个人博客上

2018-05-07 17:11:21 346

矩阵是数学中的一个重要的基本概念，是代数学的一个主要研究对象，也是数学研究和应用的一个重要工具。“矩阵”这个词是由西尔维斯特首先使用的，他是为了将数字的矩形阵列区别于行列式而发明了这个述语。而实际上，矩阵这个课题在诞生之前就已经发展的很好了。从行列式的大量工作中明显的表现出来，为了很多目的，不管行列式的值是否与问题有关，方阵本身都可以研究和使用，矩阵的许多基本性质也是在行列式的发展中建立起来的。...

2019-04-15 15:32:17 3077

转载海康威视2019年校园招聘内推码（2019届春招、2020届实习/秋招）

**官宣**拥有内推码的同学，同等条件择优录取，在每一个环节都会更加具有优势##海康威视2019年校园招聘内推码（2019届春招、2020届实习/秋招）：**5S3QAI（最好复制内推码，不要写错了，写错了可能就内推不上）**校园招聘宣传链接：2019届应届生春招网申地址：海康威视校招招聘系统2020届实习生招聘网申地址：总部：算法、安全、研发、设计、海外类等岗位分公司：国内...

2019-03-06 20:52:33 6331

原创关于matplotlib的后端（Backend）

主要是在看《深入理解TensorFlow 架构设计与实现原理》遇到的问题，其中第3章有一段源码。# -*- coding=utf-8 -*-import tensorflow as tfimport matplotlib.pyplot as pltimport numpy as np# 打印日志的步长log_step = 50# ================ 1.定义超参...

2018-09-15 23:45:33 20123

翻译正态和伽马分布族

最近参与翻译的一本书，以下是我翻译的其中一章，其余可以阅读 https://github.com/apachecn/prob140-textbook-zh 英文原文：https://nbviewer.jupyter.org/github/prob140/textbook/tree/gh-pages/notebooks/18. 正态和伽马分布族# HIDDENfrom data...

2018-09-02 20:39:59 14709

原创平方和定理

在数论里，平方和定理的对象为整数n&gt;1n&gt;1n>1能够被写为两个平方和的形式，即n=a2+b2n=a2+b2n=a^2+b^2。该定理如下：一个比111大的整数能够被写成两个平方的和的形式，当且仅当它的素数分解中不包含这样的素数，该素数对4取余等于3且该素数的指数为奇数。例如，2450=2⋅52⋅722450=2⋅52⋅722450=2\cdot 5^2\cdot 7^...

2018-08-27 14:48:44 4848

翻译联合密度分布

2018-08-25 21:51:20 12961

原创 Android开发学习记录

Android开发学习记录Android开发学习记录1. 学习路线1.1 Java部分1.2 Android部分2. Android入门介绍2.1 Activity2.2 Service2.3 Android Broadcast Receiver3. 电气火灾系统Android端结构3.1 系统结构概述3.2 模块设计UI模块Bean模块其余部件OK...

2018-08-25 18:13:23 719

原创 CUDA——基本模型

CUDA简介CUDA（Compute Unified Device Architecture，统一计算架构）是由NVIDIA所推出的一种集成技术，通过这个技术，用户可以使用显卡中的资源进行大规模并行计算。为了后续CUDA编程的展开，该系列的第一篇首先从N系显卡的物理结构以及CUDA编程中的基本模型开始。物理结构Nvidia公司开发的GPU系列现在已经有Tesla、Fermi、K...

2018-07-03 20:33:37 3887 1

原创初遇分布式系统（二）

《好玩又实在的分布式系统理论》的第二部分主要分析抽象的分布式系统模型并提出问题. 抽象是为了得到能充分描述系统的最少元素，能够排除干扰，分析本质的作用.系统模型程序在分布式系统中运行也就是，在独立节点并发运行通过网络连接节点并伴随着不确定性如信息丢失等无共享的存储器与时钟以上这些也就意味着，信息是局部的，很有可能其余节点得到的信息是过时的独立节点存在失效的情况...

2018-06-05 20:55:26 335

原创初遇分布式系统（一）

简述前期博文主要是针对一些分布式系统资料的学习笔记.《Distributed systems theory for the distributed systems engineer》中提到的《好玩又实在的分布式系统理论》是一本精悍的书籍，主要针对分布式系统中的基本问题，如时序与复制策略等方面.首先需要说明关于分布式中的一些认知误区：网络是可靠的延迟为零带宽无限网络非常安全...

2018-06-04 21:44:57 338

原创 Linux环境设置

首先，Linux的环境设置有点坑的是会在shell启动的时候，通过多个文件进行环境配置，所以在多个文件中都可以增添环境.环境配置文件全局环境变量（针对所有用户）/etc/environment/etc/bashrc/etc/profile针对单个用户~/.bashrc~/.profile或者~/.bash_profile、~/.bash_login可以用...

2018-05-29 10:10:41 226

原创统计学总结

统计基础3σσ\sigma原则正态分布X∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^2)中，P(μ−σ<X<μ+σ)=0.6826P(μ−σ<X<μ+σ)=0.6826P(\mu-\sigma\lt X\lt \mu+\sigma)=0.6826P(μ−2σ<X<μ+2σ)=0.9545P(μ−2σ<...

2018-05-28 20:41:44 1139

转载 [转]Evolution of Machine Learning

转载地址：https://www.datasciencecentral.com/profiles/blogs/evolution-of-machine-learning-infographics

2018-05-15 16:31:23 243

原创 Cox-Box变换

在《回归分析的基本假设》中提到了回归分析中的基本假设.这里的Box-Cox变换方法能够解决回归模型中的误差项不服从高斯分布的违例问题.通常这种违例情况出现在，误差ϵϵ\epsilon与预测变量相关的时候，会影响模型结果的精确度.简单的方法就是通过对XXX进行变换，如yyyy=x−−√=1x=1x−−√=ln(x)(1)(1)y=xy=1xy=1xy=ln(x)\begin{equation}\...

2018-05-14 15:33:33 3172 2

原创 2018 年成都人工智能前沿论坛总结

PDF版下载地址：https://download.csdn.net/download/u010945683/10412529本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。...

2018-05-14 10:42:11 1154

翻译 [译]回归分析的基本假设

原文地址：《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》引言回归分析标志着预测建模的第一步.毫无疑问，它很容易实现，而且它的参数不会造成任何混乱，但是仅仅运行一行代码并不能解决问题.不只是看R2R2R^2和MSE，回归能说明更多的问题.为了模型效果的提升，必须首先了解回归...

2018-05-14 10:18:27 15232 1

原创人工智能审视

现发展的人工智能的根本局限是，问题催生智能.没有问题的存在，智能不会消失或增加.这也就意味着，就目前的技术，智能系统不可能突破给定任务所局限的问题，我们所梦想或惧怕的通用人工智能（类人）是不可能出现的.现有的人工智能是为具体任务服务，就算出现错误也只是在任务中失败.至于一些人工智能阴谋论者所想的毁灭世界是不可能的.AI 的特殊性在于，它结合了一般数字技术的特性（包括通过复制程序的可扩展性并...

2018-05-07 18:31:25 212

原创 On the Number of Linear Regions of Deep Neural Networks

文献来源：Montufar G F, Pascanu R, Cho K, et al. On the number of linear regions of deep neural networks[C]//Advances in neural information processing systems. 2014: 2924-2932.https://papers.nips.cc/pape...

2018-05-07 17:14:55 1075

转载 KaTex数学公式编辑器相关

来源：https://khan.github.io/KaTeX/function-support.html图片在新标签页打开可看清晰大图.KaTex与MathJaxhttps://jsperf.com/katex-vs-mathjax已支持特性未支持特性使用注意Katex不管是行内还是行间都是使用双美元符$$ $$具体示例可以查阅： ...

2018-05-07 15:55:05 6379

原创自然语言处理（一）——基础

现在流行的自然语言处理方法中，主要分为基于统计的经典模型和基于火热的深度学习模型.统计模型主要会涉及到概率论和信息论方面的知识，在这里会首先对其进行回顾.未完信息论信息论很大一部分会涉及到熵这个概念.在我以前的博文[熵简介]对于熵、相关熵的计算方式都进行了描述.(https://blog.csdn.net/u010945683/article/details/70213237)...

2018-04-18 18:13:41 707

原创时空分析技术

在一些资料上看到的，对于时空数据索引以及分析的一些技术.时空数据索引技术HR-tree HR-tree给每个时间戳都存储了一个独立的R树，之后对于连续的两个R树之间，如果使用了相同的节点，那么只保留一个节点提高利用率，对时间点的查询效率较高.3DR-tree 3DR-tree基于R树来创建时空索引，将时间信息当做一般空间的另外一个维度，二维空间对象使用二维空间外包矩形表示，三维时空...

2018-04-18 16:06:21 8827 1

转载关于知识管理和语义搜索的一些思考

原文地址：http://baojie.org/blog/2015/03/04/on-knowledge-management/这篇文章写得很有深度，值得深思知识管理的坑做知识管理最容易陷进去的坑就是满足1%用户的要求做知识管理最容易陷进去的另一个坑就是满足99%用户的要求知识库的构造中，当目标是满足全人类的需要，就没办法满足(几乎)任何人的需要。Wikidata, free...

2018-04-16 22:57:02 415

原创知识图谱（二）——知识推理

知识推理是知识图谱中很重要的一部分，主要用于推理暗含的知识（丰富知识图谱），检查知识库的不一致（知识清洗）知识推理分类演绎推理从一般到特殊的过程.从一般性的前提出发，通过推导，得到具体描述或个别结论（三段论），结论已经蕴含一般性知识中，只是通过演绎推理揭示出来，不能得到新知识.归纳推理从特殊到一般的推理过程.从一类事物的大量特殊事例出发，去推出该类事物的一般性结论（数学归纳法）...

2018-04-16 15:17:17 24927 3

原创 HDF5-简介

HDF（Hierarchical Data Format）是一种设计用于存储和组织大量数据的文件格式，最开始由美国国家超算中心研发，后来由一个非盈利组织HDF Group支持.HDF支持多种商业及非商业的软件平台，包括MATLAB、Java、Python、R和Julia等等，现在也提供了Spark.其版本包括了HDF4和现在大量用的HDF5，.虽然HDF Group仍然维护和支持HDF4，但是...

2018-04-13 17:05:59 34407

原创自然语言处理——语义向量

将文本的符号表示转换为语义空间中的向量表示是现在量化比较语义的通用做法，这类方法通常都基于Harris的分布式假设，即在相似上下文中的词通常都有着相似的语义. 下面首先会对已有的一些文本语义表示模型进行介绍.表示形式Term-Document Matrix这种是最原始的一种语义衡量方法，主要用于文档检索，比较不同文档间的语义，其核心就是Term-Document Matrix...

2018-04-09 15:33:35 7874

原创自然语言处理——注意力机制

本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

2018-04-07 17:24:21 993 1

原创复杂事件处理（Complex Event Processing）

复杂事件处理复杂事件处理（CEP，Complex Event Processing）是一种基于动态环境中事件流的分析技术，事件在这里通常是有意义的状态变化，通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的时序关系和聚合关系制定检测规则，持续地从事件流中查询出符合要求的事件序列，最终分析得到更复杂的复合事件，主要用于网络诈欺识别等防止犯罪，银行等金融行业防止，以及风险规避和营销决策...

2018-04-05 14:52:43 9979 1

原创图数据库——Neo4j（三）Driver

Neo4j提供了应用程序接口，方便其他语言(Python、Java、JavaScript、C#)调用访问本篇以Python为例，首先要下载一个neo4j-driverpip install neo4j-driver访问过程有几个重要的部分，连接认证、会话事务连接认证访问Neo4j首先需要建立驱动对象实例URI通过URI访问，提供了两种协议其中b...

2018-04-04 12:07:59 8420

原创 Python3pip安装时出现UnicodeDecodeError

我在通过pip安装时遇到了UnicodeDecodeError和PermissionError。python版本是3.6.0。报错信息如下：解决办法改动pip程序中的配置d:\program files\python36\lib\site-packages\pip\compat__init__.py中 return s.decode('utf_8') 改为return...

2018-04-04 11:03:19 1318

原创图数据库——Neo4j（二）Cypher

Cypher是Neo4j专门用于图数据库的查询语言，类似于Oracle数据库的SQL语言，是一种声明式查询语言，只需要用户描述需要执行什么动作（match、insert等），而不需要描述具体怎么做，需要注意的是，只有在商业版中，Cypher的查询语句编译器才会生成高性能的查询动作. 同时Cypher项目中又建立了一个支持Spark的项目，Cypher for Apache SparkNeo4j...

2018-04-03 16:46:58 967

原创知识图谱（一）——知识表示

知识表示框架量化表示（嵌入表示）本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

2018-04-02 21:23:44 1897

原创图数据库——Neo4j（一）内部结构特点

本篇主要分析介绍Neo4j的内部结构特点.Neo4j主要通过构成图来存储数据，图中的数据包括节点、关系以及节点的属性和关系的属性，关系可以是双向的，也可以是只有单向的.以下是它的一些特点支持完整的ACID（原子性、一致性、隔离性和持久性）支持常数级时间复杂度的图遍历支持查询的数据导出为JSON和XLS格式支持通过浏览器图形化界面形式访问可以通过多种语言进行访问管理（Java、...

2018-04-02 15:55:43 4414

原创异常值检测

为什么在数据集中，异常值(Outlier or Anomaly)作为不寻常的表征点，无利于后面算法对于数据集中模式的挖掘，甚至会极大地影响性能，或者直接用于一些异常检测的场景，如欺诈检测、安全检测等.异常值检测是数据清洗里非常重要的一步.定义一般可以利用聚类的思想，定义为分布稀疏且离密度高的群体较远的点通常异常值出现的原因有以下几种：数据收集过程出现问题，录入错误数据测...

2018-03-21 15:44:15 10488

原创推荐系统简介

推荐系统评估准确度打分系统设ruiruir_{ui}为用户uuu对物品iii的实际评分，r^uir^ui\hat r_{ui}为预测分，有如下误差判定标准： RMSEMAE=∑u,i∈T(rui−r^ui)2|T|−−−−−−−−−−−−−−−√=∑u,i∈T|rui−r^ui||T|(371)(371)RMSE=∑u,i∈T(rui−r^ui)2|T|MAE=∑u,i∈T|rui...

2018-03-15 18:03:56 182

翻译 Zipfian分布

最近在看Multi-View Learning of Word Embeddings via CCA这篇文章时，里面提到了一个陌生的概率分布模型.Zipfian distribution一个离散幂律概率分布，也就是常常提到的长尾模型.在自然语言的语料库里，一个单词出现的频率与它在频率表里的排名成反比。频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，是出现频率第三位的单词的3倍。在Bro

2017-12-19 15:55:58 10573

原创典型相关性学习

典型相关性分析(Canonical Correlation Analysis，CCA)的核心思想是：寻找两个变量场XX,YY对应的两组基向量WxW_x,WYW_Y，使得XX,YY在WxW_x,WYW_Y上投影后的结果最大程度地保持XX,YY之间的相关性一致.

2017-12-14 11:30:55 950

原创特征工程

特征工程是一个任务驱动的经验性处理过程数据与特征处理特征表达数值型类别型时间型文本型统计型组合特征数据的表示应当转换为更理想的格式数值型幅度调整/归一化Log等变化统计值max，min，mean，std离散化(一个特征变多个特征)(等距切分，等频切分)Hash分桶每个类别下对应的变量统计值histogram试试数值型=>类别型...

2017-12-13 21:31:19 368

转载参数服务器——分布式机器学习的新杀器

在大规模数据上跑机器学习任务是过去十多年内系统架构师面临的主要挑战之一，许多模型和抽象先后用于这一任务。从早期的MPI，到后来的Hadoop，乃至于目前使用较多的Spark，都曾被广泛应用于大规模机器学习处理任务。John Langford曾经在他的博客(机器学习领域最好的博客之一)上总结和对比了主流的分布式机器学习框架的抽象[1]： MPI Gradient Agg

2017-12-05 10:36:50 10225

2018 年成都人工智能前沿论坛总结

智能化技术旨在将人类智慧物化，在行为活动中组成人机合作系统，使得行动过程能进行感知、推理、决策和学习等智能活动. 神经网络始于 20 世纪 40 年代，构想来源于对人类大脑的理解，它试图模仿人类大脑的神经元之间传递来处理信息. 早期的浅层神经网络很难刻画出数据之间的复杂关系， 20 世纪八十年代兴起的深度神经网络又由于各种原因一直无法对数据进行有效训练. 直到 2006 年以后才有了飞速发展.

2018-05-14