自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

猎户座的博客

机器学习半吊子,并行计算混子

  • 博客(30)
  • 收藏
  • 关注

原创 多任务学习中的数据分布问题(一)

今天这个专题源于我在做分布式多任务学习实验时在选取数据集的时候的疑惑,以下我们讨论多任务学习中(尤其是在分布式的环境下)如何选择数据集和定义任务。多任务学习最初的定义是:"多任务学习是一种归纳迁移机制,基本目标是提高泛化性能。多任务学习通过相关任务训练信号中的领域特定信息来提高泛化能力,利用共享表示采用并行训练的方法学习多个任务"。然而其具体实现手段却有许多(如基于神经网络的和不基于神经网络...

2021-11-29 22:50:00 881

原创 超算云(GPU服务器)环境配置

最近在用并行超算云GPU服务器(中国国家网格12区)搭建毕设的环境,这里记录一下。首先,超算云服务器的登录可以采用网页版、也可以采用客户端(超算云地址:https://cloud.paratera.com/ )。需要注意的是,并行超算云只提供windows和mac的客户端,Linux用户可能只有使用网页版的界面了(或者用pappcloud直接远程练ssh用vim写:( 哈哈,pappclou...

2021-11-28 22:08:00 2311

原创 分布式机器学习常用数据集

今天开始跑分布式机器学习论文实验了,这里介绍一下论文的常用数据集(因为我的研究领域是分布式机器学习,所以下面列出的数据集可能偏向这方面,做其他方向的童鞋参考下就好)。1. CV数据集(1)FEMINIST任务:手写字符识别参数说明: 62种不同的字符类别 (10种数字, 26种小写, 26种大写)的像素图片, 图片全为28乘28像素大小 (可以选择将其转为128×128), 样本数80...

2021-11-28 12:24:00 718

原创 并行多任务学习论文阅读(五):论文阅读总结

并行多任务学习论文阅读(五):论文阅读总结做为最后一篇并行多任务学习的论文阅读记录,我决定对我目前为止粗读和精读的论文进行一次总结,然后陈述一些个人对该研究领域的见解和想法。论文总结归纳目前已经有许多论文对多任务学习提出了并行化策略,我们可以大致概括如下几类:(1) 基于近端梯度的同步算法描述 多任务学习优化中首先面临的问题即目标函数\(F(\bm{\theta}) = f(\bm...

2021-11-12 21:02:00 448

原创 并行多任务学习论文阅读(四):去偏lasso实现高效通信

1.难点-如何实现高效的通信我们考虑下列的多任务优化问题:\[ \underset{\textbf{W}}{\min} \sum_{t=1}^{T} [\frac{1}{m_t}\sum_{i=1}^{m_t}L(y_{ti}, \langle \bm{w}_t, \bm{x}_{ti} \rangle)]+\lambda \text{pen}(\textbf{W})\tag{1}\...

2021-11-10 20:48:00 216

原创 并行多任务学习论文阅读(三):运用代理损失进行任务分解

1 代理损失函数——一种并行化技巧我们在本系列第一篇文章《并行多任务学习论文阅读(一)多任务学习速览》(链接:https://www.cnblogs.com/lonelyprince7/p/15481054.html)中提到,实现多任务学习的一种典型的方法为增加一个正则项[1][2][3]:\[\begin{aligned} \underset{\textbf{W}}{\min} ...

2021-11-05 11:10:00 316

原创 Python技法4:闭包

闭包:用函数代替类有时我们会定义只有一个方法(除了__init__()之外)的类,而这种类可以通过使用闭包(closure)来替代。闭包是被外层函数包围的内层函数,它能够获取外层函数范围中的变量(即使外层函数已执行完毕)。因此闭包可以保存额外的变量环境,用于在函数调用时使用。考虑下面这个例子,这个类允许用户通过某种模板方案来获取URL。from urllib.request import ...

2021-11-03 16:15:00 102

原创 并行多任务学习论文阅读(二)同步和异步优化算法

1、并行与分布式多任务学习(Multi-task Learning, MTL)简介我们在上一篇文章《并行多任务学习论文阅读(一)多任务学习速览》(链接:https://www.cnblogs.com/lonelyprince7/p/15481054.html)中提到,实现多任务学习的一种典型的方法为增加一个正则项[1][2][3]:\[\begin{aligned} \unders...

2021-10-30 22:15:00 546

原创 高性能计算学习路线(针对大二同学)

下面是给团队里的大二的同学列的高性能计算方向学习路线和学习资料汇总,可以供有这方面学习需求的同学参考。 (后面我会再加一个分布式机器学习方向学习路线,持续更新中...)基础课程(并行)算法设计与分析离散数学基础好的同学可以直接看《算法导论》,该书是算法设计领域非常权威的资料(对应MIT 6.006课程),比如20年CPC初赛的图BFS算法的伪代码就直接截取自该书。离散数学基础差一点的学习...

2021-10-30 16:01:00 1680

原创 并行多任务学习论文阅读(一):多任务学习速览

最近导师让我做并行多任务学习方面的工作,我开始着手阅读这方面的论文并归纳一个大致的速览。首先,我们看看什么是多任务学习,然后我们主要聚焦于基于正则化的多任务学习方法(这也是目前学术界主要的并行对象),并在此基础上讨论如何分布式并行。1、多任务学习介绍类似于迁移学习,多任务学习也运用了知识迁移的思想,即在不同任务间泛化知识。但二者的区别在于:迁移学习可能有多个源域;而多任务学习没有源域而只...

2021-10-29 16:22:00 479

原创 Python技法3:匿名函数、回调函数和高阶函数

1、定义匿名或内联函数如果我们想提供一个短小的回调函数供sort()这样的函数用,但不想用def这样的语句编写一个单行的函数,我们可以借助lambda表达式来编写“内联”式的函数。如下图所示:add = lambda x, y: x + yprint(add(2, 3)) # 5print(add("hello", "world!")) # helloworld可以看到,这里用到的l...

2021-10-20 09:51:00 262

原创 数值优化:一阶和二阶优化算法(Pytorch实现)

1 最优化概论(1) 最优化的目标最优化问题指的是找出实数函数的极大值或极小值,该函数称为目标函数。由于定位\(f(x)\)的极大值与找出\(-f(x)\)的极小值等价,在推导计算方式时仅考虑最小化问题就足够了。极少的优化问题,比如最小二乘法,可以给出封闭的解析解(由正规方程得到)。然而,大多数优化问题,只能给出数值解,需要通过数值迭代算法一步一步地得到。(2) 有约束和无约束优化一些...

2021-10-17 20:41:00 2532

原创 数值分析:矩阵奇异值分解

1. 奇异值分解(SVD)(1)奇异值分解已知矩阵\(\bm{A} \in \R^{m \times n}\), 其奇异值分解为:\[\bm{A} = \bm{U}\bm{S}\bm{V}^T\]其中\(\bm{U} \in \R^{m \times m}\),\(\bm{V} \in \R^{n \times n}\)是正交矩阵,\(\bm{S} \in \R^{m \times n}...

2021-10-16 22:58:00 1796

原创 数值分析:幂迭代和PageRank算法

1. 幂迭代算法(简称幂法)(1) 占优特征值和占优特征向量已知方阵\(\bm{A} \in \R^{n \times n}\), \(\bm{A}\)的占优特征值是比\(\bm{A}\)的其他特征值(的绝对值)都大的特征值\(\lambda\),若这样的特征值存在,则与\(\lambda\)相关的特征向量我们称为占优特征向量。(2) 占优特征值和占优特征向量的性质如果一个向量反复与同一...

2021-10-14 11:28:00 1305

原创 Python技法2:函数参数的进阶用法

1、关键字参数(positional argument)和位置参数(keyword argument)Python函数的参数根据函数在调用时(注意,不是函数定义时)传参的形式分为关键字参数和位置参数。(1)关键字参数:关键字参数是指在函数调用传参时,由标识符(如name=)引导的参数,或者放在一个由**引导的字典里进行传递。如下所示:complex(real=3, imag=5)com...

2021-10-13 12:08:00 81

原创 统计学习:线性支持向量机(SVM)

学习策略软间隔最大化上一章我们所定义的“线性可分支持向量机”要求训练数据是线性可分的。然而在实际中,训练数据往往包括异常值(outlier),故而常是线性不可分的。这就要求我们要对上一章的算法做出一定的修改,即放宽条件,将原始的硬间隔最大化转换为软间隔最大化。给定训练集\[\begin{aligned} D = \{\{\bm{x}^{(1)}, y^{(1)}\}, \{\b...

2021-10-12 21:08:00 584

原创 Python技法-序列拆分

Python中的任何序列(可迭代的对象)都可以通过赋值操作进行拆分,包括但不限于元组、列表、字符串、文件、迭代器、生成器等。元组拆分元组拆分是最为常见的一种拆分,示例如下:p = (4, 5)x, y = p print(x, y) # 4 5如果写成x, y, z = p那么就会抛出ValueError异常:“not enough values to unpack (expe...

2021-10-09 22:12:00 407

原创 因果推断-解决推荐系统公平性的新思路

论文引入近年来推荐系统公平性成为新的热点,在所有解决公平性问题的方法中,因果推断显得格外靓眼。我们以论文《Recommendations as treatments: Debiasing learning and evaluation》[1]做为引入,来看看因果推断是怎么应用在推荐系统公平性研究中的。改论文的思想如下:从因果推断的角度看待推荐问题,我们可以认为在推荐系统中给用户曝光某个商品...

2021-10-09 08:13:00 1844

原创 推荐系统公平性论文阅读(六)

做为最后一篇论文阅读记录,我决定对我目前为止粗读和精读的论文进行一次总结,然后陈述一些个人对该研究领域的见解和想法。论文总结归纳推荐系统中的偏差和不公平现象是随着推荐算法的诞生就与生俱来的,而不是人为故意产生的。目前我读过的论文中包括的一些典型的偏差和其主要的解决方案如下:(1) 人口平等(Demographic parity)描述 用户不应因为自身的性别、年龄、种族等特征而接收到不同...

2021-10-08 22:35:00 719 2

原创 推荐系统公平性论文阅读(五)

这几天我的主要任务是对论文《Towards Long-term Fairness in Recommendation》[1] 中所描述的算法进行编程实现,然后测试该算法的效果并记录。以下分模型算法细节实现、数据集、模型评估准则、测试结果记录四个部分来描述我的工作。模型算法细节实现由论文描述可知,论文算法最核心的部分就是以下带约束优化问题的求解:\[\begin{matrix} \...

2021-10-08 16:21:00 354 1

原创 推荐系统公平性论文阅读(四)

接下来我总共花了将近四天时间才将论文《Towards Long-term Fairness in Recommendation》[1]理解透彻。因为该论文用到了强化学习(Reinforcement Learning),而强化学习不像之前的生成对抗网络(GAN)一样简洁明了,涉及的数学知识非常多。在看论文之前我花费了很所时间去补强化学习的基础,其中牵涉到的知识点还包括随机过程、数值优化等,因此...

2021-10-08 09:56:00 415

原创 推荐系统公平性论文阅读(三)

这几天我的主要任务是调试和运行之前根据论文《Learning Fair Representations for Recommendation: A Graph-based Perspective》所编写的代码,然后测试该模型的效果并记录。以下分数据集描述、模型评估策略、超参数调整、测试结果记录四个部分来描述我的工作。数据集描述MovieLens-1M 是一个推荐系统的基准数据集,这个数据集...

2021-10-07 22:00:00 540 1

原创 推荐系统公平性论文阅读(二)

接下来我花一天时间精读了论文《Learning Fair Representations for Recommendation: A Graph-based Perspective》[1],将论文的结构和核心思想进行了详细地梳理,之后准备使用Pytorch框架对该论文进行复现。论文创新点该论文有两个要点,其一个是使用生成对抗网络(GAN)训练的滤波器对原始的用户-物品embeddings向量...

2021-10-07 15:34:00 477

原创 推荐系统公平性论文阅读(一)

公平性(fariness)-新的突破点推荐系统的公平性(fairness)正在成为推荐系统领域的一个新的突破点,目前对于推荐系统这种需要落地的应用,单纯的在模型领域取得准确率等指标的突破已经不是唯一的追求。虽然fancy的模型依然重要,但是越来越多的学者关注于模型在应用中的可解释性以及机器学习算法中性别偏见、种族歧视等不公平问题,而这也与社会学、人口学、经济学等不同学科产生了交叉。我决定先选...

2021-10-06 17:04:00 1471 1

原创 统计学习:线性可分支持向量机(SVM)

1. 模型1.1 超平面我们称下面形式的集合为超平面\[\begin{aligned}\{ \bm{x} | \bm{a}^{T} \bm{x} - b = 0 \} \end{aligned} \tag{1}\]其中\(\bm{a} \in \mathbb{R}^n\)且\(\bm{a} \ne \bm{0} , \bm{x}\in \mathbb{R}^n, b \in \mat...

2021-08-28 19:00:00 405

原创 统计学习:朴素贝叶斯模型

模型生成模型介绍我们定义样本空间为\(\mathcal{X} \subseteq \mathbb{R}^n\),输出空间为\(\mathcal{Y} = \{c_1, c_2, ..., c_K\}\)。\(\textbf{X}\)为输入空间上的随机向量,其取值为\(\textbf{x}\),满足\(\textbf{x} \in \mathcal{X}\);\(Y\)为输出空间上的随机变量...

2021-08-17 20:16:00 505

原创 UVa11054 Gergovia的酒交易(数学归纳法)

直线上有\(n\)个等距村庄,每个村庄要么买酒,要么卖酒。设第\(i\)个村庄对酒的需求为\(A_i\)(\(-1000 \leqslant A_i \leqslant 1000\)),其中\(A_i>0\)表示买酒,\(A_i<0\)表示卖酒。所有村庄供需平衡,即所有\(A_i\)之和等于0。把\(k\)个单位的酒运到相邻村庄去需要\(k\)个单位的劳动力,问最少需要多少劳动力...

2021-08-15 10:52:00 95

原创 UVa120 煎饼(选择排序思想)

题目背景给你一迭薄煎饼,请你写一个程式来指出要如何安排才能使这些薄煎饼由上到下依薄煎饼的半径由小到大排好。所有的薄煎饼半径均不相同。要把薄煎饼排好序需要对这些薄煎饼做翻面(flip)的动作。方法是以一抹刀插入一迭薄煎饼中,然后做翻面的动作(也就是说在抹刀上面的薄煎饼经翻面后,会依相反的次序排列)。若一迭共有n个薄煎饼,我们定义最底下的薄煎饼的位置为1,最上面的薄煎饼位置为n。当抹刀插入位置为...

2021-08-12 17:21:00 160

原创 解决pip安装包速度过慢问题

使用下列命令速度可达6MB/s以上pip --default-timeout=100 install 库名称 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

2020-09-01 16:13:32 315

原创 轮盘赌随机选择算法

本文转载自 https://my.oschina.net/u/1412321/blog/192454 一、遗传算法的应用函数优化(遗传算法的经典应用领域);组合优化(实践证明,遗传算法对于组合优化中的NP完全问题,如0-1背包问题,TSP等,非常有效);自动控制; 机器人智能控制; 组合图像处理和模式识别; 人工生命; 遗传程序设计; 二、遗传学基本概...

2020-08-12 19:47:00 3451

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除