自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (2)
  • 收藏
  • 关注

原创 计算广告CTR----DeepFM学习笔记

论文:《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》Abstract  CTR预估中,一个很重要的内容就是去挖掘点击背后隐藏的特征交互(interaction),尽管取得了很大的进展,现有的方法似乎对低阶或高阶交互有很大的偏向,或者需要专门的特性工程。文章提出了DeepFM模型,能够实现...

2018-07-29 15:30:07 1053 4

原创 pip指定安装环境

./bin/pip3 install numpy --target=./lib/python3.9/site-packages/

2024-01-15 20:44:36 393

原创 多目标权重融合方式

【代码】多目标权重融合方式。

2023-10-19 20:01:48 209

原创 pyspark window排序

num 列的 5 位、6 位、7 位、8 位,也就是说,不考虑并列名次的情况。例如,前 3 名是并列的名次,排名结果就是正常的 1、2、3、4。,会占用下一名次的位置。例如,正常排名是:1、2、3、4,但是现在前 3 名是并列的名次,结果就是 1、1、1、4。,不占用下一名次的位置。例如,正常排名是:1、2、3、4,但是现在前 3 名是并列的名次,结果就是 1、1、1、2。ranking 列的 5 位、5 位、5 位、8 位,也就是说,如果。rank 列的 5 位、5 位、5 位、6 位,也就是说,如果。

2023-04-03 14:41:53 510

原创 Spark中函数addFile添加tar包

如果想在pyspark中 import tensorflow 来调用pb模型 分布式预测,那么将模型pb全部文件打包成tar包sc.addFile即可,spark会自动解析。

2022-11-07 10:13:37 836

原创 code day day up

code code

2022-10-20 20:19:44 132

原创 pyspark本地运行socket.gaierror: [Errno 8] nodename nor servname provided, or not known

解决方法,加一个函数即可:def patch_pyspark_accumulators(): from inspect import getsource import pyspark.accumulators as pa exec(getsource(pa._start_update_server).replace("localhost", "127.0.0.1"), pa.__dict__)patch_pyspark_accumulators()...

2022-04-25 18:40:39 367

原创 pypark本地运行报错Service ‘sparkDriver‘ could not bind on a random free port.

pyspark报错:Service ‘sparkDriver’ could not bind on a random free port. You may check whether configuring an app解决方法:增加.config(“spark.driver.bindAddress”, “127.0.0.1”)

2021-11-30 11:46:27 723

原创 pyspark添加jars,存tfrecord

直接上代码:spark = SparkSession \ .builder \ .appName("MIND") \ .config('spark.jars', 'xxx/spark-tensorflow-connector_2.11-1.11.0.jar') \ .getOrCreate()xxx为路径。

2020-08-17 15:04:52 932

原创 linux 下 pip 安装

下载文件wget https://bootstrap.pypa.io/get-pip.py --no-check-certificate执行安装python get-pip.py这就安装好了

2020-07-27 16:56:43 370

原创 pyspark orderBy 后dropDuplicates 保留第一个数据

一、pandas 可以取第一个df = df.sort_values(by=['uid', 'aid']).drop_duplicates(subset=['aid'], keep='first')二、pyspark 无法通过这种方式取第一个orderBy( [ 'uid', 'aid'], ascending=[ 0, 0, 0]).drop_duplicates( [ 'uid'])解决方案:window = Window.partitionBy(['uid']).orde.

2020-07-10 14:41:25 1212 1

原创 macOS中解压缩(unzip)出现illegal byte sequence的解决方案

ditto -V -x -k --sequesterRsrc filename.zip destination// filename为压缩文件的文件名 destination为解压的文件存放的文件夹名

2020-07-02 11:57:03 1198

原创 vim 编程命令

1、设置行号 set nu2、快速定位到最后一行:shift + G 快速定位到第一行:1 + shift +G 快速定位到第x行:40 + shift + G3、ctl+f---->向下翻页 ctl+b----->向上翻页4、打开一个文件时再打开另外一个 vsp filename...

2020-06-19 14:12:11 142

原创 hash编码在tensorflow 深度学习算法中的应用

1、安装mmh3(1) pip intallmmh3如果出现以下的报错:error: command 'g++' failed with exit status 1尝试使用以下命令安装:CFLAGS=-stdlib=libc++ pip install mmh3

2020-06-04 14:36:00 778

原创 常用linux命令总结

1、查看file.txt第n列有几种数据awk -F ‘#’ ‘{print $3}’ file.txt | sort -un

2020-05-11 14:19:18 102

原创 C++中static使用--静态成员变量、静态成员函数

而在C++的类中,也有静态成员变量同时还有静态成员函数,先来看看C++中静态成员变量与静态成员函数的语法://lieyingkub99#include <iostream>#include <string>using namespace std;class myClass{private: static int t_value; ...

2020-04-29 10:50:55 175

原创 Pycharm 搭建pyspark开发环境

一、spark安装spark下载下载地址 http://spark.apache.org/downloads.html export SPARK_HOME=spark目录/spark-2.4.5-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin验证spark是否安装成功:WARNING: Python 2.7 is not recom...

2020-03-03 22:26:11 1078

原创 知识图谱在推荐算法中应用

知识图谱在推荐算法中应用:https://mp.weixin.qq.com/s/ZSNY_EZdi03mWNZsL08_2wwor2vec中文词向量训练方法&增量训练:https://mp.weixin.qq.com/s/3xnY5Z5Fst9gKV8ULnDjbwTensorFlow框架实现DNN:https://mp.weixin.qq.com/s/GUHZxXWSf53Ed...

2019-11-10 15:34:25 971

原创 百科知识图谱三元组实体Embeddig

百度百科三元组实体embedding 可以用于推荐算法、问答系统等

2019-11-04 19:42:50 2269

原创 python实用语法总结

1、字符串数组转成float并保留5位小数import numpy as npdata = [‘1.04545677’,‘2.012411’,‘3.41521552’]data = np.around(np.array(data, dtype=float),decimals=3).tolist()print(data)》》[1.045, 2.012, 3.415]...

2019-05-28 17:51:40 124

原创 深度学习笔记整理

深度学习笔记整理:深度神经网络(DNN)https://www.cnblogs.com/pinard/p/6418668.htmlhttps://blog.csdn.net/smilejiasmile/article/details/80718490youtube基于深度学习的推荐http://d0evi1.com/youtube-recommend2/wide and deep 论文...

2019-04-04 16:50:00 1023

转载 tensorflow学习资料笔记

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。TensorFlow可被用于语音识别或图像识别等多项机器深度学...

2018-08-19 10:56:31 216

原创 python函数及语法笔记

1、Python中numpy库unique函数 对于一维数组或者列表,unique函数去除其中重复的元素,并按元素由大到小返回一个新的无元素重复的元组或者列表。import numpy as npA = [1, 2, 2, 5,3, 4, 3]a = np.unique(A)B= (1, 2, 2,5, 3, 4, 3)b= np.unique(B)C= ['fgfh','asd...

2018-08-18 21:28:01 229

原创 python使用@staticmethod或@classmethod

使用@staticmethod或@classmethod,不需要实例化,直接类名.方法名()来调用。 区别: @staticmethod不需要表示自身对象的self和自身类的cls参数。 @classmethod也不需要self参数,但第一个参数需要是表示自身类的cls参数。 代码如下:class Task(object): data_p = 1 def func(...

2018-08-16 11:55:32 255

原创 AUC详解与python实现

AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积,如下图: 要理解这张图的含义,得先理解下面这个表: 表中列代表预测分类,行代表实际分类: 实际1,预测1:真正类(tp) 实际1,预测0:假负类(fn) 实际0,预测1:假正类(fp) 实际0,预测0:真负类(tn) 真实负样本总数=n=fp+tn 真实正样...

2018-07-28 23:24:29 42063 12

原创 机器学习算法之LR

说起LR要从极大似然估计说起: 1、极大似然估计: http://www.cnblogs.com/sparkwen/p/3199728.html http://blog.csdn.net/zouxy09/article/details/8537620(讲的比较好)2、LR模型:   回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时...

2018-07-20 23:05:00 5399

原创 spark调优之cache&persist

调优概述Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。 原则一:避免创建重复的RDD 在开发...

2018-07-20 22:44:12 753

原创 阿里天池工业ai大赛季军方案分享

1赛题背景分析及理解 1.赛题背景 半导体产业是一个信息化程度高的产业。现有的产品质量检核方案是,生产机器生产完成后,对产品质量做非全面的抽测,一是不能即时的知道质量的好坏,二是在没有办法全面抽测的状况下,存在很大漏检的风险。难点,TFT-LCD的生产过程较为复杂,包含几百道以上的工序,需要考虑的过程变量较多;另外,这些变量的取值可能会存在异常(如测点仪表的波动导致、设备工况漂移等现象);...

2018-07-20 22:38:21 1633

原创 JSON-handle插件

一.下载地址 http://jsonhandle.sinaapp.com/ 二.安装 1.用chrome浏览器打开:chrome://extensions/ 2.把下载好的文件拖入该页面 三.使用 粘贴写好的json即可

2018-07-09 19:06:37 3556 1

原创 Hadoop学习笔记之win下安装及使用

一、下载hadoop 下载地址 : http://hadoop.apache.org(1)在Getting Started下找到:Download (2)找到To verify Hadoop releases using GPG下的:mirroor site (3)进入连接下载Hadoop: (4)下载winutils.exe,需要对应的版本.地址https://git...

2018-07-08 23:49:55 518

原创 Hadoop学习笔记之Hadoop基本介绍

说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的GFS(Google File System),从此文件系统进入分布式时代。除此之外,Google在GFS上如何快速分析和处理数据方面开创了MapReduce并行计算框架,让以往的高端服务器计算变为廉价的x86集群计算,也让许...

2018-07-05 00:05:10 332

原创 Python语法之进阶学习

python学习笔记:#@Author:lieying#@Function:Python进阶学习#@Data: 2017-05-01至2017-05-02#@Python:Python课程进阶学习#--------内容------##1、函数式编程#2、面向对象编程#3、能够编写模块化的程序#4、模块和包#5、面向对象#=========================...

2018-07-04 23:50:31 497

原创 Python语法之入门学习

翻看文件夹发现了我之前学习python的笔记分享下: 入门学习代码如下#@Author:lieying#@Function: Python学习#@Content: Python入门学习#@Data: 2017-04-30到2017-05-1#@Python版本:Anaconda 4.2.0---Python 3.5.2#=============================...

2018-07-04 23:47:14 212 1

原创 FM算法python实现

在计算广告中,CTR预估(click-through rate)是非常重要的一个环节,对于特征组合来说,FM(因子分解机)是其中较为经典且被广泛使用的模型。 1、FM 算法模型: 2、FM交叉项求解过程 代码简单实现:添加依赖项:from __future__ import divisionfrom math import expimport pandas as pdf...

2018-07-03 14:14:53 9294 4

原创 二分查找-python

概念及其步骤: 1.二分查找又叫折半查找, 2.前提是有序列表有序表中, 3.取中间记录作为比较对象,若给定值与中间记录的关键码相等,则查找成功; 若给定值小于中间记录的关键码,则在中间记录的左半边继续查找; 若给定值大于中间记录的关键码,则在中间记录右半边区继续查找。 4.不断重复上述过程,直到查找成功,或所查找的区域无记录,查找失败。 二分查找的时间复杂度是O(log(n)...

2018-06-29 10:01:59 126

原创 图片清晰度识别之改进ssim算法

针对图片的清晰度识别,针对数据量比较大,对性能要求较高时,简单可靠的算法尤为重要,因此,经过对比,发现SSIM的算法可以在结合图片的结构,亮度,对比度三个条件下对图片进行分析。 step1:先将图片预处理裁剪首先说明下我引用的用的python包:import numpy as npimport mathimport cv2import urllib裁剪图片视情况而定,主要结合业...

2018-06-28 22:07:05 4588 1

原创 protocol buffer在python中使用

1.首先是安装protobuf:在此链接下载 在下面的连接https://blog.csdn.net/warrially/article/details/52683611中下载如下两个文件,2.然后将potoc-3.0.0-win32.zip下 文件 protoc.exe,放到protobuf-python-3.0.0\protobuf-3.0.0\src中,在cmd 下在文件夹prot...

2018-06-28 21:08:33 746

原创 全局变量global的python用法

在函数内部将global变量定义为全局变量。实现在函数内部改变变量值。 如下: def train(): global x x =1def test(): print(x)if __name__ == '__main__': train() test()在train中定义全局变量,在test直接输出:1...

2018-06-26 10:14:03 1852

原创 数据结构---二叉树遍历(递归与非递归)

数据结构—二叉树二叉树的定义代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键二叉树的定义 二叉树(Binary Tree) 是n(n>=0)个节点的有限集合,该集合或者为空(称为空二叉树),或者由一个根节点和两颗互不相交的、分别称为根节点的左子树和右子树的二叉树组成 —— 《大话数据结构 》 二叉树的

2017-12-30 16:53:36 799 2

原创 数据结构之排序算法

自己总结了数据结构中常用的几个排序算法,下面以C语言的形式列出来,欢迎批评指正。话不多说直接上代码。。#includeusing namespace std;//========================1、直接插入排序void InsertSort(int a[], int n){for (int i = 1; i{if (a[i] {

2017-11-08 13:57:57 185

机器学习算法之---AFM算法

机器学习算法之---AFM算法,AFM: Learning the Weight of Feature Interactions via Attention Networks, IJCAI 2017

2018-10-26

前馈神经网络知识点

神经网络是一种大规模的并行分布式处理器,天然具有存 储并使用经验知识的能力。它从两个方面上模拟大脑:(1)网 络获取的知识是通过学习来获取的;(2)内部神经元的连接强 度,即突触权重,用于储存获取的知识。

2018-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除