tostq-CSDN博客

原创【用Python学习Caffe】0. 前言及介绍

0.前言及介绍老实说现在的Caffe已经不够流行了（说到这里，我有点无力了，近年来深度学习发展实在是太快了，完全跟不上学习脚步了，刚刚Caffe有点了解后，马上就要跟不上时代了=_=||）。如果对于现在的我来说，我更愿意推荐去学习Tensorflow或者是Pytorch，甚至是Caffe2。因为这些框架都有大公司参与开发，相关的学习资料更全，前段时间刚上手Tensorflow，个人感觉开发起来要比C

2017-06-22 21:50:15 10073 2

原创【深度剖析HMM（附Python代码）】1.前言及隐马尔科夫链HMM的背景

1. 前言隐马尔科夫HMM模型是一类重要的机器学习方法，其主要用于序列数据的分析，广泛应用于语音识别、文本翻译、序列预测、中文分词等多个领域。虽然近年来，由于RNN等深度学习方法的发展，HMM模型逐渐变得不怎么流行了，但并不意味着完全退出应用领域，甚至在一些轻量级的任务中仍有应用。本系列博客将详细剖析隐马尔科夫链HMM模型，同以往网络上绝大多数教程不同，本系列博客将更深入地分析HMM，不仅包括

2017-04-27 12:24:50 56223 12

原创编写C语言版本的卷积神经网络CNN之一：前言与Minst数据集

卷积神经网络是深度学习的基础，但是学习CNN却不是那么简单，虽然网络上关于CNN的相关代码很多，比较经典的是tiny_cnn（C++）、DeepLearnToolbox（Matlab）等等，但通过C语言来编写CNN的却比较少，本人因为想在多核DSP下运行CNN，所以便尝试通过C语言来编写，主要参考的代码是DeepLearnToolbox的内容，DeepLearnToolbox是用Matlab脚本编写，是我看过的最为简单的CNN代码，代码清晰，阅读方便，非常适合新手入门学习。本文的CNN代码是

2016-06-29 22:12:07 64962 48

原创（多核DSP快速入门）0.前言+CCS的安装

多核DSP的快速入门，CCSv5的学习，DSP教程

2016-04-25 22:40:10 15506 1

原创基于强化学习预算约束出价：Budget Constrained Bidding by Model-free ReinforcementLearning in Display Advertising

基于强化学习预算约束出价问题的主要挑战在于如何精细地调整出价系数，以在满足客户预算约束的前提下最大化目标价值。传统的做法是通过线性规划求解预算约束出价问题，本文介绍一种基于强化学习的预算约束出价策略。该策略采用model-free Online DQN方式，通过一个拍卖系统仿真平台进行决策网络的训练和动作探索。

2023-12-01 22:38:06 265

原创 AlphaFold的原理及解读

AlphaFold是一种基于深度学习技术的蛋白质结构预测模型。其原理是通过输入蛋白质一级结构，解析二级结构及三级结构。AlphaFold的特征输入包括单氨基酸序列、氨基酸序列标号、同类MSA特征、非同类MSA特征、氨基酸序列交互特征等。模型输出包括氨基酸在三维空间的旋转方向关系和氨基酸之间的空间位置关系。AlphaFold的模型结构分为Encoder模块和Decode模块，其中Encoder模块和IPA等模块

2023-11-28 13:14:11 651

原创 Alphago Zero的原理及实现：Mastering the game of Go without human knowledge

本文介绍了Alphago Zero的原理及实现方法，它完全依赖自我对弈的强化学习，无需人类专家的动作监督。它通过采用MCTS策略，从大量的动作空间中搜索当前最优的动作序列，然后让模型根据这些最优动作序列进行训练。文章还介绍了Alphago Zero的训练过程，包括self-play阶段、训练网络阶段和网络评估阶段。此外，还介绍了特征组织形式，包括状态和动作的维度。

2023-11-08 21:02:22 409

原创强化学习DDPG：Deep Deterministic Policy Gradient解读

DDPG是基于Q-learning的，其由于是取最大可能性的某个确定动作，因此可能会带来Maxinum偏差（简单理解为由于预估分布的存在，所以最大值一般都会偏移期望值），这个问题可能通过double Q-learning进行解决。Twin Delayed DDPG又被称为TD3算法..由于DDPG只能产出确定性动作，因此Soft Actor Critic (SAC) 实现产出概率性动作决策stochastic policy，SAC算法相比于TD3主要有两点不同。

2023-06-16 22:26:21 1007

原创强化学习PPO：Proximal Policy Optimization Algorithms解读

PPO算法是一类Policy Gradient强化学习方法，通过一个参数化决策模型来根据状态确定动作，其参数更新是通过下式进行的：用于衡量决策模型的优劣目标，决策模型的优化目标为寻找最优决策，使得该决策下整体价值最大。因为最优决策是未知的，一种简单思路是直接当前参数模型进行寻优。称为Vanilla Policy Gradient。TRPO：Trust Region Policy Optimization

2023-06-15 12:41:00 662

原创强化学习笔记-13 Policy Gradient Methods

强化学习算法主要在于学习最优的决策，到目前为止，我们所讨论的决策选择都是通过价值预估函数来间接选择的。本节讨论的是通过一个参数化决策模型来直接根据状态选择动作，而不是根据价值预估函数来间接选择。我们可以定义如下Policy Gradient更新策略，来求解参数化决策模型的参数，其中表示用于衡量决策模型优劣的损失函数。

2023-06-14 19:25:17 655

原创强化学习笔记-12 Eligibility Traces

前篇讨论了TD算法将MC同Bootstrap相结合，拥有很好的特性。本节所介绍的Eligibility Traces，其思想是多个TD(n)所计算预估累积收益按权重进行加权平均，从而得到更好的累积收益预估值。

2023-06-14 17:17:35 591

原创强化学习笔记-11 Off-policy Methods with Approximation

前几章我们讨论了off-policy方式，其同on-policy方式最大的不同之处在于其在训练所采取的动作，是根据behavior policy进行决策的，而不是根据target policy。这种方式的好处在于兼顾了exploitation and exploration。本节将讨论如何通过模型近似的方式来应用off policy强化学习。

2023-06-13 21:00:31 401

原创强化学习笔记-0910 On-policy Method with Approximation

前几章我们所讨论的强化学习方法都是将价值函数建模为一个table形式，通过状态来查询具体状态的价值。但是当状态-动作空间极大，且多数状态-动作并没有太大意义时，这种table查询效率是极低的。因此本节是将价值函数建模为一个参数模型，其中是该价值预估模型的参数，而状态是价值预估模型的输出，通过模型来输出该状态的价值预估。On-policy Method with Approximation

2023-06-13 17:43:50 481

原创谈谈互联网广告拍卖机制的发展：从GSP到DeepAuction

谈谈互联网广告拍卖机制的发展：从GSP到DeepAuction，VCG拍卖，3.Myerson拍卖，智能出价（其在不同公司可能会被称为自动出价、oCPC、eCPA、CPA、ROI等等），DeepGSP，Neural Auction。

2023-06-05 16:02:49 1258

原创强化学习笔记-08 Planning and Learning

前几篇我们介绍了一个重点概念model-base和model-free，其中model-base是建立在存在某个环境模型，从模型中可以获得状态、动作、奖励的转移信息，比如动态规划方法，当我们确定了状态动作的转换概率，此时我们可以通过递归的方式，迅速获得价值函数的估计。

2023-06-02 21:27:34 457

原创强化学习笔记-07 n-step Bootstrapping 多步TD时分学习

上一节介绍了TD算法，其采用了Bootstrapping方法，当前过去的预估以及即期收益来更新累积收益函数：前文我们提到，通过Bootstrapping TD算法，相比于，可以加快学习速度，但另一方面在更新累积收益函数时会存在可能偏差。而n-step TD算法就是两种算法的中间结合，其在经过n步的。

2023-06-01 18:16:03 689

原创 GPT1解读：Improving Language Understanding by Generative Pre-Training

自然语言处理NLP是当代人工智能的关键领域，包含文本识别、智能问答等多个方向任务，通过监督学习方式一般需要大量带标签数据，而对某些特定任务，获取带标签数据成本非常高。GPT通过大量的未标记文本数据来学习一个通用预训练（generative pre-training）的语言模型，并通过语言模型可以学习到内在语义信息，之后针对特定任务只需要用少量的标签数据进行fine-tuning，而不需要对模型结构进行较大改变。

2023-05-19 22:54:35 648 1

原创强化学习笔记-06 Temporal-Difference TD时分学习

Temporal-Difference TD时分学习，Q-learning，Double Q-learning，Sarsa，Maximization Bias

2023-05-17 14:59:50 271

原创强化学习笔记-05 蒙特卡罗方法Monte Carlo Method

本文是博主对《Reinforcement Learning- An introduction》的阅读笔记，不涉及内容的翻译，主要为个人的理解和思考。蒙特卡罗方法，weighted importance sampling，off-policy蒙特卡罗方法，

2023-05-16 20:08:52 497

原创 Adam优化器及其变种的原理

本文将从SGD开始介绍Adam优化器的原理以及其变种的提出背景，AdamWR，AdamW，SGD withMomentum，Fixing Weight Decay Regularization in Adam

2023-05-11 16:07:52 3653

原创优化问题的拉格朗日Lagrange对偶法原理

上述优化问题的拉格朗日Lagrange对偶法求解，是将上述带约束的目标优化问题改写为如下无约束的Lagrange函数式子。上述Lagrange函数式子存在如下对偶函数，其是Lagrange函数关于取最小值，即：对偶函数是关于的函数，很显然其是原来Lagrange函数式子的下界，假设优化问题存在最优解，当时，此时存在最优目标小于对偶函数。Lagrange对偶法即是通过最大化原问题Lagrange对偶函数，从而逼近原问题的下界来求解原问题最优解，因为。

2023-05-02 23:25:46 3033 6

原创 Transformer的原理及应用分析

上一篇博文重点介绍了Transformer的核心组件，本篇继续介绍transformer的原理。下图为transformer的结构图，其主要由位置编码、多组编码器和多组解码器。以下将重点介绍三个部分。

2023-04-19 17:43:39 676

原创 MultiHeadAttention多头注意力机制的原理

MultiHeadAttention多头注意力作为Transformer的核心组件，其主要由多组自注意力组合构成，Attention Is All You Need，self-attention。

2023-04-17 18:08:02 12193

原创 seq2seq模型原理及实现

解码器也是由双层的GRU循环神经网络作为主要组成部分，不过其除了输入还有一个embeding模块外，在输出还有一个线性模块将词向量还原one-hot形式，其结构如下图所示，其中初始情况下，解码器的隐层向量设置为编码器最终的输出隐层向量，解码器的输入为编码器的输出向量同上轮解码器的预估输出cocat形成的向量。另一个重要问题是seq2seq模型的损失函数。seq2seq顾名思义是指由序列生成序列，广泛用于机器翻译领域，其结构是由RNN组成一组编码器和一组解码器。

2023-03-27 20:27:47 509

原创 word2vec的原理以及实现

word2vec是早期NLP的必要预处理过程，其用于生成词的向量表示（embeding）。其将单词映射为固定长度的向量（embeding向量），GloVe主要在原来loss函数中引入了两点特性。

2023-03-27 18:37:14 824

原创强化学习笔记-04 动态规划Dynamic Programming

Reinforcement Learning- An introduction，Dynamic Programming，，Gambler’s Problem，ValueIteration，Generalized Policy Iteration，强化学习，动态规划

2023-03-18 23:49:56 421

原创常见损失函数Loss Function的选择(regression problem)

回归损失函数Loss Function，regression problem，A General and Adaptive Robust Loss Function，huber loss，MSE，MAE，Quantile loss，Log-cosh loss，𝜖-insensitive

2023-02-28 12:42:08 1479

原创常见激活函数Activation Function的选择

激活函数、ReLU、PReLU、Maxout、Swish、sigmoid、tanh、Tanhshrink、softshrink、hardshrink、ELU、Leaky ReLU、softsign、softplus、机器学习

2023-02-24 12:39:50 1358

原创 Batch Normalization原理介绍

Batch Normalization(BN)主要用于解决Internal Covariate Shift。由于训练过程中，网络各层数据x分布会发生变化（偏移），这个偏移可能是受不同batch间（或者训练集和测试集）的数据本身分布不同，或者是在训练过程，由于梯度回传，导致不同batch间各层数据分布前后不一致。

2023-02-22 21:14:32 603

原创强化学习笔记-03有限马尔可夫决策过程MDP

强化学习，Reinforcement Learning- An introduction，有限马尔可夫决策过程MDP，Bellman equation，Markov Decision Processes

2023-02-13 17:06:28 426

原创动态规划Dynamic Programming的基础解法

动态规划、递归、python、算法、Algorithms、Dynamic Programming、recursion

2023-02-01 12:05:17 358

原创带约束进化算法问题分析Constrained Evolutionary Algorithms

带约束进化算法问题，Constrained Evolutionary Algorithms，进化学习，Evolutionary Algorithms for Constrained Parameter Optimization Problems，惩罚函数penalty functions

2023-01-31 12:04:13 540

原创强化学习笔记-02多臂老虎机问题

Reinforcement Learning- An introduction的阅读笔记，强化学习，多臂老虎机，Thompson sampling，Gradient algorithms，UCB(Upper-Confidence-Bound)，ε-greedy

2023-01-29 19:02:29 994

原创强化学习笔记-01强化学习介绍

Reinforcement Learning- An introduction阅读笔记，强化学习介绍，机器学习，进化学习。

2023-01-28 20:00:06 381

原创因果诊断原理

因果诊断，因果分析，DML，前门路径，后门路径，backdoor，frootdoor，Double Machine Learning，do算子，causal machine learning，CATE，ATE，混杂因子

2023-01-23 21:19:35 1675

原创自动出价的机制稳定性设计：Robust Auction Design in the Auto-bidding World

机制设计、拍卖理论，自动出价的机制稳定性设计：Robust Auction Design in the Auto-bidding World，Towards Efficient Auctions in an Auto-bidding World

2023-01-20 19:53:50 2208

原创 Weighted Logistic Regression和Youtube时长预估

解读youtube的经典论文《Deep Neural Networks for YouTube Recommendations》中通过weighted LR来实现时长预估的原理。

2022-12-27 15:35:03 1703

原创强化学习从PG到PPO（基于百度飞桨PaddlePaddle+PARL）

前段时间抽空学习了《百度强化学习基础课程》强化学习7日打卡营-世界冠军带你从零实践，总共七天的视频+线上作业（视频地址：世界冠军带你从零实践强化学习），让我这个小白基本对于强化学习有了简单的理解，知识虽然是灌进脑袋里，但仍是一团浆糊，本篇文章整理了自己的对于课程的理解，以及自己的发散和思考，从最简单的PG算法，到现在流行的PPO算法。PG算法原理PG算法即是基于策略（Policy-based），不同于Value-based的算法的Q函数，其是直接优化策略函函数，在深度强化学习中，其一般是采用神经网络

2020-07-24 11:59:12 1381

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ScSPM Matlab原代码

SURF Speeded Up Robust Features

基于小波的角点检测方法

ADNN自适应阈值及动态ROS的角点检测方法原文

CPDA角点检测方法

Boundary-based corner detection using eigenvalues of covariance matrices

Corner detection and curve representation using cubic B-spline

A Simple and Efficient Algorithm for Detection

Faster and Better A Machine Learning Approach to Corner Detection.pdf

Machine Learning for High-Speed Corner Detection.pdf

Corner Detection via Topographic Analysis of Vector Potential.pdf

On Corner and Vertex Detection.pdf

SUSAN—A New Approach to Low Level Image Processing.pdf

Robust Low Complexity Corner Detector.pdf

Good Features to Track.pdf

Detection and Tracking of Point Features

A Connectionist Model for Corner Detection in Binary and Gray Images

Scale-Space for Discrete Signals.pdf

Uniqueness of the Gaussian Kernel for Scale-Space.pdf

Distictive Image Features From Scale-Invariant Keypoints.pdf

空空如也