叶落叶子-CSDN博客

原创【hadoop3.2.1】windows10 docker学习环境创建，windows和容器bridge模式下联网，测试例子

本地机器：windows10虚拟机：centOS7.9docker创建hadoop学习环境1.创建docker镜像（hadoop）下载centos镜像: docker pull centos启动一个容器：docker run -td --name base -i centos bash进入容器，安装jdk及hadoop，方法和主机一样容器中安装ssh：yum install openssh-server openssh-clients设置免密登录： ssh-keygen -t rsa cat

2022-05-31 16:55:49 365 1

原创【CTR优化】威尔逊区间

实际：正态分布采样得到的：不一样p^\hat{p}p^:wilson p:区间相等原则:（假设）P1/P2都是P,是实际值做CTR优化时p^\hat{p}p^为计算所得CTR=点击率/曝光率优化后的为w-疑问：why取w-?因为默认P<p(P1<p)whyP<p?威尔逊置信区间...

2022-05-12 19:33:46 338

原创深度学习训练时问题：调参/类别不平衡

快速迭代，过拟合：刚开始, 先上小规模数据, 模型往大了放, 只要不爆显存, 能用256个filter你就别用128个. 直接奔着过拟合去. 没错, 就是训练过拟合网络, 连测试集验证集这些都可以不用.为什么?+ 你要验证自己的训练脚本的流程对不对. 这一步小数据量, 生成速度快, 但是所有的脚本都是和未来大规模训练一致的(除了少跑点循环)+ 如果小数据量下, 你这么粗暴的大网络奔着过拟合去都没效果. 那么, 你要开始反思自己了, 模型的输入输出是不是有问题? 要不要检查自己的代码(永远不要怀疑工具库, .

2022-05-11 12:31:05 1483

原创【搜索排序】(ReRank)A Deep Look into Neural Ranking Models for Information Retrieval

文章目录数据集3. 同一框架4. 模型结构-对称与非对称对称结构：s,t可互换siamese networksSymmetric interaction networks,非对称结构query splitdocument splitJoint split,one-way attention mechanism基于表示的模型和基于交互的模型representation-focused architectureinteraction-focused architecturenon-parametric inte

2022-05-09 20:49:08 734 2

原创【搜索排序】预训练综述Pre-training Methods in Information Retrieval

文章目录相关性效率系统2. 召回阶段2.1 Sparse Retrieval Models2.2 Dense Retrieval Models。2.3 混合方式3.re-rank阶段4. 其他组件4.1 在query理解上4.2 在doc理解上：未来工作信息检索中的花式预训练综述（Pre-training Methods in Information Retrieval）Pre-training Methods in Information Retrieval核心：相关性传统检索模型Lear

2022-05-05 15:30:37 532

原创【信息检索导论1】布尔模型

信息检索导论

2022-04-29 12:26:31 1770

原创【搜索排序】召回综述Semantic Models for the First-Stage Retrieval: A Comprehensive Review

信息检索，召回

2022-04-29 00:55:23 2063

原创【搜索/推荐排序】Pairwise:BPR

1.BPR1.1 做法构建样本对假设背后是某个常见模型：如MF排序对成立情况下倒推U/V向量，计算UV乘积，得到完整评分矩阵矩阵分解：Xˉ=WHT\bar{X}=WH^TXˉ=WHT贝叶斯：P(θ∣>u)=P(>u∣θ)P(θ)P(>u)P(\theta|>_u)=\frac{P(>_u|\theta)P(\theta)}{P(>_u)}P(θ∣>u)=P(>u)P(>u∣θ)P(θ)<u,i,j> :P(i&gt

2022-04-20 11:07:19 700

原创【搜索/推荐排序】NCF，Deep&Cross,Deep Crossing，高阶：AutoINt,AFN

文章目录1.NCF1.1 问题：基于FM的问题问题动机：神经网络替代点积1.2 NCF模型图1.3代码2. Deep Crossing：微软：ResNet3.Deep&Cross1.NCF1.1 问题：基于FM的问题问题FM->MF来自于矩阵分解的思想，所以也有矩阵分解的问题实际上u1和u4更相似，但没有交互不代表不想似，而latent space隐式空间考虑的是交互。所谓潜在因素就是虽然用户与项目间有交互，但不一定用户就喜欢了，而没交互也不代表不喜欢，这就对隐形学习带来了噪音

2022-04-18 23:22:10 543

原创【搜索/推荐排序】总结

文章目录1.进化路线2. 公式比较1.进化路线LR：没有较叉项->FM:LR+交叉项，一个特征一个向量->FFM:一个特征对每一个field（属性名）的交互有一个向量，一个特征有一个特征矩阵。->AFM:每个内积都有一个权重，求内积加权和（self-attention）->FNN:预训练好的FM，输入DNN->PNN:embedding layer和first hidden layer之间增加了一个product layer->DeepFM：不预训练，不

2022-04-18 21:40:52 189

原创【搜索/推荐排序】FM，FFM，AFM,PNN,DeepFM:进行CTR和CVR预估

1.FM用处：用于是否点击预测、评分介绍code其中f/k:是v的size，n是特征的个数1.1代码-是否点击预测vx:使用embedding实现wx:也用embedding实现class FactorizationMachineModel(torch.nn.Module): """ A pytorch implementation of Factorization Machine. Reference: S Rendle, Factoriza

2022-04-16 21:23:26 1642

原创【Mysql】索引

选什么索引，为什么索引是帮助mysql高效获取数据的排好序的数据结构索引所用的数据结构二叉树如果顺序插入1-10，则为列表，无优化二叉排序树？红黑树：HashMAP底层采用本质是二叉平衡树树高不可控：树很高的时候需要多次I/O改进：控制树高<=4–放个森林？B-树Hash表B-Tree叶子节点具有相同的高度，叶子节点的指针为空所有索引元素不重复节点中的数据索引从左到右递增排序Mysql:使用B+树非叶子节点不存储数据，只存储索引（冗余的），可以放更

2022-04-05 21:08:36 1408

原创【网络搜索】学习资料

文章目录1.综述2.相关技术1.综述微软综述视频，较老但不过时2.相关技术相关技术目录

2022-03-21 18:57:40 109

原创中文实体、关系抽取工具

文章目录1.Information Extraction 信息提取工具这个是model2. CoreNLP3.AllenNLP1.Information Extraction 信息提取工具MITIE (C++) library and tools for information extraction安装、colab小数据集好，训练时间长codeDuckling (Haskell) Language, engine, and tooling for expressing, testing, a

2022-02-21 20:08:07 1455

原创博客的学习目录

1. 算法1.1 推荐算法1.1.1 推荐系统算法基础+综合项目实战（大牛老师主讲）推荐系统算法基础+综合项目实战（大牛老师主讲）学习笔记目录：【推荐系统算法学习笔记1】基本架构和专有名词...

2022-02-06 15:37:15 230

原创【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

1.架构推荐算法架构召回协同过滤基于内容的基于隐语义的排序召回决定了推荐的上线，排序逼近这个上限，体现推荐的效果CTR预估（点击率、LR），估计用户是否点这个商品，需要用户的点击数据用到的框架...

2022-02-06 15:30:46 2034

原创【大数据学习-hadoop1】大数据如何处理

文章目录1. 大数据启蒙1.1 意义1.1.1 查找元素1.1.2 单机处理大数据问题1.2 历史1.3 hadoop1. 大数据启蒙学习视频大数据多，复杂度很重要，内存不够，分治处理IO仍成为瓶颈，多机器并行多机器间通信也可以并行，但仍是个问题分发上传，累计计算的话，多台同时跑+通信也比一台快总结（大数据的重点）分而治之并行计算计算向数据移动：数据移动化成本高数据本地化读取1.1 意义1.1.1 查找元素1w个元素中查找X？线性查找：O(N)想要O(4)呢？

2022-01-28 17:22:31 1505

原创【java spring学习1】IOC理论，spring用DI实现IOC

狂神说javaspring:让java 开发更容易IOC：控制反转AOP：面向切面编程（业务面）2. spring组成和扩展2.1spring 组成2.4 拓展学习路线：spring boot:构建一切快速开发的脚手架基于spring boot可以快速开发单个为服务约定大于配置学习这个，需要学习spring和spring MVCspring cloudspringcloud基于bootspring的缺陷：发展太久之后，违背了原有理念，配置过于复杂–>所以

2022-01-28 16:43:47 706

原创模型训练trick

这里写自定义目录标题1. 多任务模型的权重：1.1 权重自动调节2.自动调参1. 多任务模型的权重：1.1 权重自动调节Multi-Task Learning for Dense Prediction Tasks: A Survey依据子任务loss的梯度，获得权重较好的实现：AutomaticWeightedLoss2.自动调参自动调参方法推荐GridSearchCV：sklearn.model_selection.GridSearchCVRandom Search：先

2022-01-26 00:35:15 1680

原创【量化投资1】

文章目录0.相关包及常识1.股票买卖收益分析2.双均线策略2.1 均线2.2 双均线2.2.1 金叉死叉的获取量化投资0.相关包及常识股票的买入卖出：最少为一手，100股tushareopen:开盘价格，close:收盘价格1.股票买卖收益分析每次至少买入1手最后一个日期手头如果还有股票，算目前持有的时候要加上股票的价值买入时看开盘价，卖出时算收盘价close2.双均线策略2.1 均线均线：滑动平均值ma5 = [（x1+x2+x3+x4+x5）/5,（x6+x2+x3+x4

2021-11-12 22:09:08 12575

转载往年笔试题

文章目录1 概率1.1 条件概率.每天9点到10点，小明和小红在同一个车站乘坐公交车上班。小明坐101路公交车，每5分钟一班{9:00, 9:05, 9:10, …}；小红坐102路公交车，每10分钟一班{9:00, 9:10, 9:20, …}，问小明和小红每天相遇的概率是多少？小明和小红结对编程完成了一个项目。在整个项目中，他们贡献的代码比例是3:5。据往常的统计，小明的bug率为10‰ ，小红的bug率为15‰ 。今天小猿在项目中发现了一个bug，那么该bug是小明编写的概率为多少？小明来猿辅导参加现

2021-07-27 00:57:08 284

原创【实体对齐·HGCN】Jointly Learning Entity and Relation Representations for Entity Alignment

文章目录1.动机2.输入输出3.相关工作4.模型4.1 GCN4.2 approximating relation representations4.3 joint entity and relation alignment1.动机动机没用关系表达关系和实体密切相关，所以应该有增益用了关系的：需要关系对齐的seedeg JAPE,IPTransE,MTransETransE:可以直接训练entity,rel表达式GCN:不能直接使用关系表达式–GCN是无向无标签的图RGC

2021-05-24 11:46:21 1726

原创【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches

文章目录1.Introduction2.Preliminaries2.2 Scope and Related work2.2.1 Entity Linking=entity disambiguation2.2.2 Entity resolution=entity matching=deduplication=record linkage2.2.3 Entity resolution on KGs1.Introduction动机比较：不公平经验估计设置不同只用KG/用额外信息一次对齐/

2021-05-19 20:45:40 2180

原创【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

文章目录1.动机2. 贡献+方法3.应用场景4.其他模型1.动机传统方法使用固有的语义信息：在不同KG间的异质且独立？namelogical expressionnatural language失效：在三元组的符号性质下难以对齐（都是用符号表示的三元组）embedding：单个KG多特定于实体对齐的embedding少缺乏足够的对齐数据(bootstrapping)2. 贡献+方法建模为分类问题source可分类为target中的哪一个:target范围在所有标

2021-05-19 15:56:34 1121

原创实体对齐汇总

文章目录1.综述2.技术论文3.汇总3.1定义3.2 评价指标3.3 数据集3.4 数据预处理技术3.5 索引3.6 对齐3.6.1 按属性相似度/文本相似度做：成对实体对齐3.6.2 协同对齐：考虑不同实体间的关联3.6.2.1 局部实体对齐3.6.2.2 全局实体对齐3.6.3 基于embedding的方法分类4.开源代码5.效果比较参考文献1.综述embedding 方法A Benchmarking Study of Embedding-based Entity Alignment for K

2021-05-14 11:58:01 4902 1

Spam Review Detection with Graph Convolutional Networks.pptx

空空如也