一杯拿铁go-CSDN博客

原创 mvn版本导致的Failed to execute goal on project问题与解决

Binary: 二进制文件，编译好的可以直接使用的程序，只需要把它解压缩到你想要安装的目录就马上可以使用。在maven下载官网(https://maven.apache.org/download.cgi)下载。最后souce ~/.zshrc or source ~/.bash_profile 使配置生效。解决方案有多种，文末的链接给了5种解决办法，我的解决办法是降版本到3.8.1之下。Souce：带源码，需要在计算机上编译后运行，安装的时间会比较长，文件也会大一些。解压到任意目录下就行。

2024-02-25 17:35:26 715

原创 java大顶堆小顶堆

堆又可称之为完全二叉堆。这是一个逻辑上基于完全二叉树、物理上一般基于线性数据结构（如数组、向量、链表等）的一种数据结构。堆又分成大根堆和小根堆。大根堆即根节点大于叶子节点，下面的父节点也比孩子节点大。大根堆相反即根节点小于叶子节点，下面的父节点也比孩子节点小。根堆的最常见的用法是获取数组的topN个数据。比如可以通过大根堆来得到数组中topK小的数据。

2024-01-29 17:39:24 443

原创 Scala项目找不到或无法加载主类

Scala项目无法创建scale和Java文件。file->“Project Strucure”->Models 下的另一个model去掉。该项目的Models下有多个model，导致加载的时候不知道加载那个项目的。

2023-07-27 19:27:35 2207

原创 idea项目依赖全部找不到

很久没打开的Java项目，打开之后大部分依赖都找不到，出现了所有的含有import语句的文件都会报错和一些注解报红报错，但pom文件中改依赖是确实被引入进去的。经过第一步之后程序中有的类明明有，但是import引用的时候总是报错，清理缓存重启之后就好了。.iml是 intellij idea的工程配置文件，里面是当前project的一些配置信息,有包的存放位置；.idea存放项目的配置信息，包括历史记录，版本控制信息等所有，只要删除这两个文件，重启，就可恢复默认；

2023-07-27 16:38:36 3687

原创 flink中watermaker的理解

一直以来对于python语句中print函数的用法以及产生随机数的方法一直是一知半解，可是平时有经常用到它们，索性今天就整理一下。一，产生随机数的方法

2023-04-19 11:19:23 401 1

原创 flink遇到的错误以及处理

flink遇到的错误以及处理重启策略 env.setRestartStrategy(RestartStrategies

2023-03-13 22:36:00 1184 1

原创 redis错误集锦

redis错误集锦工作中遇到的Redis出错备忘。

2023-03-13 21:58:33 569

原创 flink消费kafka落地到hdfs

flink消费kafka落地到hdfs发现是hdfs的地址没写全，在跳板机上即使不写全也能读写，但flink落hdfs的时候必须写全了。

2023-02-28 16:01:14 778 1

原创 Hoeffding不等式剪枝方法

对于两个物品的相似度，每次更新都能够得到一个新的相似度，这个新的相似度可以看做是一个随机变量，那么这个随机变量就有一个期望值。一旦物品之间的相似度可以以较高的置信度确认，它已经在期望值附近小幅度波动，就没必要再去更新了。如果进一步确定是一个比较小的相似度，甚至可以之间去掉这个物品对，其相似度不再参与计算更新。有了上面的表那么在一个物品对的更新次数已经达到最少更新次数时，且满足相似度误差时就可以不用再更新了。在实时推荐系统中就是历次更新得到的相似度平均值，公式中的n是相似度的更新次数。是随机变量X的期望值。

2023-02-19 22:48:50 344

原创 ChatGPT笔记

把微调好的SFT模型去回答prompt dataset某个问题，然后通过收集4个不同的SFT输出而获取4个回答，接着人工对这4个回答的好坏进行标注且排序，排序的结果用来训练一个奖励模型RM，具体做法就是学习排序结果从而理解人类的偏好。模型使用与 GPT-3 相同的预训练数据集，但进行了额外的微调，从而更擅长以下两点：更擅长上下文学习、对话可以生成更加符合人类期待的反馈。所谓的语言模型的训练，其实就是让模型调整候选句对应的概率，使我们人类希望输出的候选句的概率尽可能大，而不希望输出的概率尽可能小。

2023-02-15 19:23:46 5369

原创 maven相关概念以及no dependency information available错误修改

至于去哪里下载，Maven本身内置了一个中央仓库的地址"http://repo1.maven.org/maven2"，该中央仓库包含了世界上绝大部分流行的开源项目构件，Mavne会在需要的时候去那里下载，当然也可以配置自己的中央仓库地址，去自己的中央仓库下载构件。有了传递性依赖机制，在使用spring-core的时候就不用去考虑它依赖了什么，也不用担心引入多余的依赖，Maven会解析各个直接依赖的POM，将那些必要的间接依赖，以传递性依赖的形式引入到当前的项目中去。可以声明多个repository。

2023-02-14 15:34:19 1304 2

原创 tf中小数转化整数的函数

tf.rint(x, name=None) # 取最接近的整数。tf.ceil(x, name=None) # 向上取整。tf.floor(x, name=None) # 向下取整。小数部分大于0.5（注：0.5...x 也是大于0.5的），则进位；小数部分恰好为0.5，取其最靠近的整数。与tf.round一样，四舍五入取偶。小数部分小于0.5，则舍去；

2023-02-08 11:55:01 196

原创配置gitlab实现github和gitlab都能使用

按回车，再按3次enter键，在~/.ssh/目录下会生成对应的gitlab密钥：gitlab_rsa和gitlab_rsa.pub。私人电脑本身配置的有github，配置gitlab使之可以登陆公司的跳板机以及更新代码，这样处理问题时可以多一台机器可以处理。上面的参考中第三部分git仓库配置没有配置使用，以及第一部分的config文件也没有配置，也照样可以登陆跳板机。将gitlab公钥即gitlab_rsa.pub中的内容增加到公司的gitlab上面。一，配置gitlab。

2023-01-31 00:00:38 765

原创 flink环境参数引起的错误

flink执行时遇到在本地能执行打包在集群上报jar包冲突的问题

2023-01-17 11:22:12 541

原创 CF、MF、FM、FFM浅析

一，CF（协同过滤）协调过滤的目的都是预测用户是否喜欢某个物品1，userCF（基于用户的协同过滤）‘人以群分’。步骤：a，通过用户-物品行为历史信息，构建共现矩阵。行坐标为用户，纵坐标为物品；b，找到与用户x兴趣最相似的top n用户。通过用户购买物品的行为转变成用户向量，然后通过cosine距离或者是皮尔逊相关系数得到top n。c，然后根据相似用户对物品p的喜爱程度来决定是否将物品推荐给用户x。公式如下，物品p推荐给用户u的概率：Ru,p=∑sϵS(wu,s∗Rs,p)∑sϵSwu

2022-05-16 11:41:53 2929

原创 matplotlib简单使用

0,基础部分一个figure可以有多个坐标。pyplot.subplots创建一个独立的坐标轴,来线上数据。plot函数将数据绘制到坐标轴上。两种风格的画图方式(OO-style和pyplot-style)#OO-style fig, ax = plt.subplots() # Create a figure containing a single axes. ax.plot([1, 2, 3, 4], [1, 4, 2, 3]) # Plot some data on the axes. ..

2021-09-29 17:07:45 192

原创特征筛选--卡方检验

会粗略讲一下原理，主要在代码以及之后的实践上。主要用scala代码为例。一，卡方检验的步骤第一步确认“无关性假设”给出“原假设”和“备择假设”。通常卡方中的原假设是两个变量是独立没关系的。给出统计表：第二步，根据无关性假设生成新的理论值四格表显然，若是两个变量是独立无关的，那么四格表中的理论值与实际值的差别会很是小。第三步，计算X^2的值第四步根据自由度查表来判断是否相关。这里须要用到一个自由度的概念，自由度等于V = (行数 - 1) * (列数 - 1)，对四

2021-04-22 17:53:00 1009

原创 git密码更改之后导致的不能push数据

出错指令remote: HTTP Basic: Access deniedfatal: Authentication failed for 'http://git.int/.git/'解决办法：输入命令git config --global --unset user.password来消除密码；然后重新输入密码即可

2021-03-03 15:28:40 824 2

原创布隆过滤器

主要作用：根据给定的布隆过滤器判断值是否存在。尤其适用于当数据量非常大时的判断。但是会存在一定的误判率，属于是牺牲了准确率来提升判断速度和节省存储空间。原理是将数据映射到一个很长的二进制向量上，通过查询映射数据在二进制向量的存在情况来判断数据是否存在。核心概念是若k哈希函数和一个长度为m的超大的位数组。添加时将元素通过函数函数得到k个值，然后将位数组上的这个k个位置置为1；判断元素时，同样通过函数得到k个值，然后判断在位数组上着k个位置是不是都是1，如果不是那数据肯定不存在，如果是那数据可能是存

2021-01-15 12:13:37 186

原创二叉树的前序、中序、后续遍历递归和迭代的解法

二叉树的前序、中序、后续遍历递归解法 //先序遍历 void pre_order(TreeNode* root,vector<int>& number){ if(!root) return; number.push_back(root->val); pre_order(root->left, number); pre_order(root->right, number);

2020-11-04 23:25:16 156

原创 FM/FFM/wide&deep/deepFM笔记

一，FMFM在LR的基础上，增加了交叉特征，表达能力更强。FM为每个特征学习一个隐向量，在特征交叉时，使用两个特征隐向量的内积作为交叉特征的权重。FM的模型是：y~=w0+∑i=1nwixi+∑i=1n∑j=i+1n<vivj>xixj\widetilde{y}=w _{0}+\sum_{i=1}^{n}w _{i}x _{i}+\sum_{i=1}^{n} \sum_{j=i+1}^{n}<v_{i}v_{j}>x_{i}x_{j}y=w0+i=1∑nwixi+i

2020-11-04 15:37:51 708 1

原创大数相加和大数相减

1，大数相减大整数相减。有两个非常大的整数，因为太大所以用数组保存，计算大数相减的结果。使用C++语言实现大数相加和大数相减 //将大的值变成A，小一些的值变成B

2020-10-31 13:42:51 1542

原创【机器学习】从决策树到GBDT（二）

一，集成学习决策树的集成学习分成两大类，Bagging和Adaboost。AdaBoost中着重介绍boosting。Bagging的策略:（1）从样本集中重采样（有重复的）选出n个样本；（2）在所有属性上，对这n个样本建立分类器（ID3、C4.5、CART、SVM、Logistic回归等）；（3）重复以上两步m次，即获得了m个分类器；（4）将数据放在这m个分类器上，最后根据这m个分类器的投票结果，决定数据属于哪一类。在Bagging方法中，每个学习器之间彼此是相互独立的，这样的特点使得Bag

2020-10-30 11:11:10 153

原创 mac os mojave 安装lightgbm

1，安装cmake和gccbrewinstallcmake（安装cmake过程比较慢）brewinstallgccmac默认是有一个gcc的只是版本比较低是4.8的。直接使用版本查看命令是本机自带的'brew -v'，安装了新的gcc版本是10，地址在/usr/local/homebrew/Cellar/gcc/10.2.0。查看其版本信息‘/usr/local/homebrew/Cellar/gcc/10.2.0/bin/gcc-10 -v’2，安装lightgbm...

2020-10-25 20:32:33 166

原创【机器学习】常见的损失函数

机器学习中常见的损失函数一，回归问题1，MSE（均方误差）（Mean Square Error）均方误差也叫方法损失函数或者最小二乘法作为机器学习中常常用于损失函数的方法，均方误差频繁的出现在机器学习的各种算法中，但是由于是舶来品，又和其他的几个概念特别像，所以常常在跟他人描述的时候说成其他方法的名字。均方误差的数学表达为：如公式所示，通过计算每个预测值和实际值之间的差值的平方和再求平均，机器学习中它经常被用于表示预测值和实际值相差的程度。平方损失函数是光滑的，可以用梯度下降法求解，但是，当预

2020-10-16 21:36:23 705

原创深度学习常见的激活函数

一，什么的激活函数激活函数是神经网络中对数据做非线性变换的函数。如下所示：输入的x值，经过权值相乘合并之后再经过‘激活函数’得到一个映射值。二，激活函数的作用因为线性的数据表达过于单一，若没有激活函数，再多层的网络也不过是多套了几层的线性函数而已。以分类为例，线性函数只能处理线性可分的问题，对于复杂点的就无能为力了。而使用激活函数对线性数据改变之后，数据就是非线性的了。理论上网络层数足够的话可以拟合出任意函数，可以解决任何问题。三，常用的激活函数1，sigmoid函数这是神经

2020-10-16 17:15:33 232

原创指数函数，幂函数记录

1，指数函数底越小，曲线越缓；底越大，曲线越陡。

2020-07-03 10:51:08 391

原创 linux diff命令使用记录

参考链接https://www.cnblogs.com/sevck/p/5036976.html

2020-06-21 16:16:55 155

原创 docker目录迁移/var/lib/docker/overlay满了

先保存docker system df查看docker使用的磁盘情况，比如镜像、容器各占了多大的空间docker system prune命令可以用于清理磁盘，删除关闭的容器、无用的数据卷和网络，以及dangling镜像(即无tag的镜像)。迁移docker目录1,stop dockersystemctl stop docker2，创建新的docker目录mkdir l..3,迁移/var/lib/docker/目录下面的文件到新的文件夹rsync -avz /var/lib/dock

2020-06-10 11:30:52 1069

原创 grep的操作

1，查看某个文件是不是包含数据#查找当前目录下所有包含'check'词的文件grep 'check' *#查找当前目录下所有包含'check'词的以py结尾的文件grep 'check' *py#查找当前目录下所有包含'check'词的以down开头的文件grep 'check' down*就是可以通过配合linux自身的通配符来缩小查找文件来加快查找速度，linux常用的通配符| #管道符，或者（正则）> #输出重定向>> #输出追加

2020-06-05 11:34:11 238

原创在docker中更改时区以及安装crontab

一，更改时区确定现在的时区是不是正确的，输入命令:date更改之前显示的是：美国时间；更改之后显示的是：dateThu Jun 4 21:05:47 CST 2020更改时区的方法：cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime将上海时区的文件复制给localtime。二，安装crontab其实crontab可能是已经安装好了的，只是没有被启动，在本次的docker中，启动命令是：/usr/sbin/c

2020-06-04 21:39:32 431

原创 python3与2中的特异性记录

一，负数除以正数的值负数除以正整数的值为：-1+结果值。如下：>>> -15/60-1>>> -15/16-1>>> 15/160>>> -15/10-2

2020-05-19 10:57:37 199

原创 Python命令行输入多行代码

在命令行内输入多行python代码，在空一行之后按一下回车键，代码可自动执行需要用tab键来控制缩进

2020-04-21 15:47:55 3910 2

原创 linux 批量删掉进程

批量杀掉进程的的命令：ps uax | grep process_cut_word | grep -v grep | cut -c 9-15 | xargs kill -9查看带有‘process_cut_word’进程名，并去掉'grep'进程，然后去第9到15位置的字符，并使用'xargs'命令将进程号变成一行，最后使用'kill -9'杀掉进程。xargs命令的可以将管道或标准...

2020-04-07 16:01:04 334

原创【python】相对路径和绝对路径的使用

绝对路径：直接将文件在磁盘时所在的地址赋值给变量：user_path = {}user_path["WORK_DIR"] = "/data/home/zhbei/search-personword_offlao.net/"相对路径：是以当前执行脚本所在的目录来得到其地址，如：user_path = {}user_path["WORK_DIR"] = os.path.abspat...

2020-03-27 11:19:03 384

原创使用python操作redis数据库

一，连接redis数据库：在Linux环境下：redis-cli -h host -p port -a password比如：redis-cli -h 172.16.15.2008 -p 6379 -a 4uM5ormgE3YsssssssiBZvDT2dRPybFh172.16.15.2008:6379>使用Python脚本的话：def conn_redis(...

2020-03-22 20:53:15 455

原创训练样本的处理以及注意事项

官网：https://scikit-learn.org/stable/index.html在经过了数据的筛选，数据的清洗、数据的特征处理，给数据加标签之后就得到了数据的训练样本了。在得到训练样本之后还是要对训练样本做进步一的处理。需要考虑的问题有，训练样本的正负样本数的比例是怎么样的。比如在实际的应用场景中正负样本的比例的10：1，那么在训练数据的时候要保证训练数据和测试数据的正负样本比例...

2020-03-10 16:33:38 1555

原创阿里云presto的一些操作

1,将分组之后的string字符合并起来。如下所示：select distinct item_id,array_join(array_agg(distinct name),',') from shmods.mysql_shop_item_cids a inner join shmods.mysql_s__categories b on cid=b.idwher...

2020-02-28 16:58:46 592

原创 doc2vec的一些操作

1，从doc2vec模型中提取出word2vec向量表，代码如下：from gensim.test.utils import common_textsfrom gensim.models.doc2vec import Doc2Vec, TaggedDocumentdocuments = [TaggedDocument(doc, [i]) for i, doc in enumerate(c...

2020-02-27 11:19:43 582

原创 linux空间检测

一，背景：空间总是被占满，动不动就报警，需要找出谁占用的空间多，以及谁是压死骆驼的最后一根稻草二，步骤1，先查看当前空间占用的情况df -h2，进入到将被占满的空间查看该空间中那个文件夹占用的空间大du -sh * |grep G以G的量级展示文件夹占用的空间3,查看那个文件夹最近的产生新的数据#查看当前目录下24小时内更新的的常规文件find . -t...

2019-12-17 20:50:08 240

pandas执行失败,报错no module named -bz2

动态规划，建桥问题代码

opencv的问题。在里面构造函数时总是会提示错误