自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 2021春实习系列 ------字节跳动

字节朝夕光年游戏部门:强化学习算法工程师 投了了字节,还在准备就收到了面试邀约,然后就挂了 T_T,进大厂还是得好好准备一下 面试问题: 自我介绍 项目细节 项目中智能体如何感知环境 DDPG算法细节以及一些关键的伪代码 DDPG改进算法 Soft Actor-Critic算法? Soft Actor-Critic (SAC)是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法,和DDPG相比,Soft Actor-C

2021-10-01 22:20:47 124

原创 2021春实习系列------西山居游戏

2021年3月多投了一些公司的实习,想增加一下自己的能力,下面整理一下当时的面试,希望给后面的人一些帮助。 本人本科学的控制,研究所主要方向是强化学习,所以主要是投递强化学习方向的岗位。 强化学习中主要在工业界的应用就说游戏,游戏AI的训练就投递了 西山居游戏「【校招】强化学习算法工程师」 下面是面试当时的问题不完全整理: 自我介绍 介绍AC算法 A2C, A3C做了哪些升级 A2C全称为优势动作评论算法(Advantage Actor ...

2021-10-01 21:54:50 352

原创 2022秋招系列------海康威视

秋招的时候投递了海康威视的提前批,【2022届启明星】AI算法工程师-研究院(杭州) 但是由于海康智能还是主要偏向视频图像的,但是本人是主要是强化学习方向和机器人,所以最后没有过 下面整理一下问题: 第一场是电话面,简单聊天问了一些问题 自我介绍(常规) 项目的难点以及解决方案 强化学习的应用场景 RL用于探索网络的结构,训练方法 不同算法的开销{时间开销} 如何开展工作以及如何获得文献 RL算法进展;何有优化方向 意向城市和工作地点 你了解海康威视吗?为啥想加入海康威视? 第二场线

2021-10-01 21:29:34 612

DQN综述(修正版).pdf

DQN综述(修正版).pdf

2021-04-01

Continuous Deep Q-Learning with Model-based Acceleration

深度Q-Learning与model-based方法结合来解决连续动作问题 Model-free reinforcement learning has been successfully applied to a range of challenging problems, and has recently been extended to handle large neural network policies and value functions. However, the sample complexity of modelfree algorithms, particularly when using highdimensional function approximators, tends to limit their applicability to physical systems.

2020-03-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除