oldxacorn-CSDN博客

原创 2021春实习系列 ------字节跳动

字节朝夕光年游戏部门：强化学习算法工程师投了了字节，还在准备就收到了面试邀约，然后就挂了 T_T，进大厂还是得好好准备一下面试问题：自我介绍项目细节项目中智能体如何感知环境 DDPG算法细节以及一些关键的伪代码 DDPG改进算法 Soft Actor-Critic算法？ Soft Actor-Critic (SAC)是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法，和DDPG相比，Soft Actor-C

2021-10-01 22:20:47 124

原创 2021春实习系列------西山居游戏

2021年3月多投了一些公司的实习，想增加一下自己的能力，下面整理一下当时的面试，希望给后面的人一些帮助。本人本科学的控制，研究所主要方向是强化学习，所以主要是投递强化学习方向的岗位。强化学习中主要在工业界的应用就说游戏，游戏AI的训练就投递了西山居游戏「【校招】强化学习算法工程师」下面是面试当时的问题不完全整理：自我介绍介绍AC算法 A2C, A3C做了哪些升级 A2C全称为优势动作评论算法(Advantage Actor ...

2021-10-01 21:54:50 352

原创 2022秋招系列------海康威视

秋招的时候投递了海康威视的提前批，【2022届启明星】AI算法工程师-研究院（杭州）但是由于海康智能还是主要偏向视频图像的，但是本人是主要是强化学习方向和机器人，所以最后没有过下面整理一下问题：第一场是电话面，简单聊天问了一些问题自我介绍（常规）项目的难点以及解决方案强化学习的应用场景 RL用于探索网络的结构，训练方法不同算法的开销{时间开销} 如何开展工作以及如何获得文献 RL算法进展；何有优化方向意向城市和工作地点你了解海康威视吗？为啥想加入海康威视？第二场线

2021-10-01 21:29:34 612

DQN综述(修正版).pdf

2021-04-01

Continuous Deep Q-Learning with Model-based Acceleration

深度Q-Learning与model-based方法结合来解决连续动作问题 Model-free reinforcement learning has been successfully applied to a range of challenging problems, and has recently been extended to handle large neural network policies and value functions. However, the sample complexity of modelfree algorithms, particularly when using highdimensional function approximators, tends to limit their applicability to physical systems.

2020-03-02

pygame移动方块碰撞设定边界问题

2020-06-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人