自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 presto将字段分割,统计分割之后的数量

如有个字段叫a,里面都是字符串 1_2_3;需要分割之后统计每个部分的次数。

2023-08-17 11:59:07 222

原创 Python 多个连续空格只保留一个

【代码】Python 多个连续空格只保留一个。

2023-04-02 00:37:56 370

原创 impala 代替 hive SQL 中的 collect_set()

【代码】impala 代替 hive SQL 中的 collect_set()

2023-03-30 15:28:43 427 2

原创 二分类和多分类交叉熵手动计算

如果用TensorFlow计算二分类交叉熵和手动计算的原理

2023-02-26 00:00:16 558

原创 推荐模型DIN中的Attention实现

attention实现

2022-12-21 17:36:17 303

原创 tensorflow tf.tile 使用教程·

csdn产品经理有……*&……&( 为啥要强制写摘要??

2022-11-09 23:56:08 337

原创 spark scala,展开数组里的数组

111

2022-09-14 19:18:36 594

原创 Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession

1

2022-08-26 17:33:29 1725

原创 Spaek DataFrame 一列变成多列,

111 csdn产品经理是 s d

2022-07-07 20:54:10 834

原创 Latex 生成参考文献 及 无法生成参考文献原因

\bibliographystyle{ACM-Reference-Format}\bibliography{sample-base}有的期刊给的模板 之后这两行,但是将引用的参考文献换一个文件名就编译不出来,这一点我也没有想出来为啥,后来找资料,发现加一句\printbibliography就可以出来了,有大佬知道为啥的 可以下面评论就是他原来的模板 没有\printbibliography 这一句也能出来参考文献,但是我将”sample-base“ 参考文献bib换成...

2022-04-03 12:17:05 2190

原创 tf.nn.dropout 用法

DropoutDropout在训练时会随机丢弃一些神经元,这样会导致输出的结果变小。而预测时往往关闭dropout,保证预测结果的一致性(不关闭dropout可能同一个输入会得到不同的输出,不过输出会服从某一分布。另外有些情况下可以不关闭dropout,比如文本生成下,不关闭会增大输出的多样性)。为了对齐Dropout训练和预测的结果,通常有两种做法,假设dropout rate = 0.2。一种是训练时不做处理,预测时输出乘以(1 - dropout rate)。另一种是训练时留下的神经元除以(1

2022-02-25 18:24:50 1343

原创 spark RDD[Char] to 转换 RDD[String]

保存成HDFS是必须是RDD[String] 类型比如一个 val s = "12e2321312"spark.sparkContext.parallelize(s)直接这样返回的是 RDD[Char] 类型spark.sparkContext.parallelize(Seq(s))这样返回的就是RDD[String]

2022-01-26 20:25:42 1516

原创 Exception in thread “main“ java.lang.ArrayStoreException: java.lang.Double at ther.ArrayStoreExce

出现这种报错可以检查一下 类型转换的代码 比如 String转Double,或者相反还有就是解析JSON文件时。{"v1":-0.08643,"v2":0.192}和{"v1":"-0.0321312","v2":"0.105392"}是有区别的,比如把这个JSON解析成Map[String,Double] 还是Map[String,String] 要根据这个JSON里面的value有没引号...

2021-12-22 21:07:36 408

原创 TensorFlow二维张量和三维张量内积

方法1 爱因斯坦求和d = tf.ones(shape=[4, 2, 5], dtype=tf.float32) w = tf.random.normal(shape=[2, 4]) einsum = tf.einsum('be,ebd->bd',w,d)print(einsum)输出输出的shape=(2,5)也可以将维度小的一个增加一维,然后交换维度,再按第一维求和d1 = tf.ones(shape=[4, 2, 5], dtype=tf.float32) .

2021-11-19 19:45:40 1568

原创 Scala spark 数据形式 Array[((String, Double), Double)] 怎么变成 Array[(String, Double, Double)]

有大佬知道吗 ?

2021-10-02 23:47:41 356 1

原创 RDD 转成 Array

rdd.collect()

2021-10-02 23:17:23 823

原创 TensorFlow将float转成byte,byte转int

h = [[312312312.7],[321423423.4]]h = tf.cast(h, dtype=tf.float32)j = tf.bitcast(h, tf.int32)print(j)其中h中的 float是将int转成byte,再转成float32的,所以底层存的还是字节码,现在可以将其还原。tf.Tensor([[1301605392] [1301890114]], shape=(2, 1), dtype=int32)...

2021-09-19 17:00:32 345

原创 tensorflow 按位置字符串拼接 横向拼接

t1 = [ [123], [456], [1234567],[32131]]t2 = [[-1], [-1], [8],[-1] ]t3 = [[6],[8],[10]]t1 = tf.cast(t1, dtype=tf.int32)t2 = tf.cast(t2, dtype=tf.int32)print(t1)print(t2)minus = tf.ones_like(t2) * -1t2_s = tf.strings.

2021-09-18 23:45:24 219

原创 Python byte数组和float、Int 互相转换 struct pack unpack

def byte2float(x): return struct.unpack('=d', x)[0]def float2byte(f): return [hex(i) for i in struct.pack('f', f)]def int2byte(f): return struct.pack('l', f) # b'\xa0\xb3\xc3=\x0c\x00\x00\x00'def new_float2byte(f): return struct.pa.

2021-09-09 19:37:08 3594

原创 Python int和字节数组转换

def int_to_bytes(x): return x.to_bytes((x.bit_length() + 7) // 8, 'big')def int_from_bytes(xbytes): return int.from_bytes(xbytes, 'big')b'\x0c=\xc3\xb3\xa0'52575843232输入整数为52575843232

2021-09-09 16:36:05 1380

原创 java.lang.NumberFormatException: For input string: ““ org.apache.spark.SparkException: : Task[scala]

User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 14.0 failed 4 times, most recent failure: Lost task 0.3 in stage 14.0 (TID 390, 9.54.136.125, executor 9): java.lang.NumberFormatException: For i

2021-09-03 11:35:41 367

原创 type mismatch; foundRDD[(Array[Object], Array[Object])] required: RDD[(Array[Int], Array[Int])]scala

type mismatch;found : org.apache.spark.rdd.RDD[(Array[Object], Array[Object])]required: org.apache.spark.rdd.RDD[(Array[Int], Array[Int])]比如我一个方法需要传入的数据是下面的格式可以看到 Array里面需要Int类型的数据,但是没有类型转换的话,会报错,AnyRef 是所有类型的基类,将Array转化一下val data = array...

2021-09-02 15:00:00 1167

原创 java.lang.NumberFormatException: For input string: “4504.0“ scala 将字符串转成整数

val ss = "4504.0" val ew = ss.toDouble.toInt println(ew)结果:4504

2021-08-30 19:14:34 115

原创 scala 求数组偶数下标位置的元素

object test_string { def main(args: Array[String]): Unit = { val cbdshb = Array(1, 2, 3, 4, 5, 6, 5) val cdsv = cbdshb.zipWithIndex.filter(f => f._2 % 2 == 0).map(f => f._1).map(x => BigDecimal.valueOf(x.toString.toDouble).toI.

2021-08-30 17:20:49 759

原创 使用过draw.io绘图的 改连接线为单向箭头

最近使用这个来画图,琢磨了一个小时没找到,最后 找到了 写下来一共其他人查看使用drawio 绘制箭头连接两个方框时,自动连接的线的双向箭头的,怎么修改成 向下的单向箭头呢分别对应起始位置的箭头的 类型 点击那里可以修改...

2021-02-04 20:39:23 6358

原创 mac 安装 brew wget出错 No formula or cask found for “wget“

这里写自定义目录标题安装brew替换homebrew源替换homebrew默认源替换homebrew-core源brew更新安装brew/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"如果出现什么连接拒绝的错sudo vim /etc/hosts添加一些GitHub的主机名:~|⇒ brew install wgetUpdating Ho

2020-07-01 11:27:54 9857

原创 spark scala 读取文件 Caused by java.lang.NumberFormatException For input string XXX

最近再用spark读取文件sc.textFile读取文本文件出现上面的错,我的文件是以“|” 分割的,怀疑是不是每行的文本串行了,导致字符串移到了下一位 .map(line =>line.split("\\|")) .filter(_.length == 6) 过滤一下每行字符串分割之后的长度就可以了。根据你的需要。注意 “|” 这个符号作为分隔符 要 用\\| 来转义,不然会出错,当时也是在这卡了一会 ...

2020-05-30 20:36:31 780

原创 NVIDIA-docker2.0 安装 docker 安装 英伟达 docker

之前按照一个博客安装 运行还是各种坑按照如下的步奏成功了安装(2.0版)Felix Abecassis编辑了此页面on 1 Dec 2017·5次修订先决条件运行nvidia-docker 2.0的先决条件列表如下所述。有关如何为Linux发行版安装Docker的信息,请参阅Docker文档。内核版本> 3.10的GNU / Linux x86_6...

2019-08-30 16:29:00 2332

原创 python 图片和base64编码的转换·

#image转base64import base64with open("panda.jpg","rb") as f:#转为二进制格式 base64_data = base64.b64encode(f.read())#使用base64进行加密 print(base64_data) file=open('panda_base64.txt','w')#写成文本格式 ...

2019-08-01 11:00:59 560

原创 QXcbConnection: Could not connect to display

#在linux 服务器上面运行代码出现QXcbConnection: Could not connect to display 这样的 错误首先vim ~/.bashrc然后在里面添加export QT_QPA_PLATFORM='offscreen'即时生效source ~/.bashrc这样就可以额每次修改.ba...

2019-05-10 16:18:45 29271 14

原创 xgb gbdt lgb 算法的比较

本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。 AdaBoost原理 原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有对有错,我们就在每...

2018-09-24 00:32:36 6825 3

原创 MySQL性能优化

1、应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。 2、对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 3、应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is...

2018-08-25 13:16:01 101

原创 面试sql笔试题

建表1.创建student和score表CREATE or REPLACE TABLE  student (id  INT(10)  NOT NULL  UNIQUE  PRIMARY KEY  ,name  VARCHAR(20)  NOT NULL ,sex  VARCHAR(4)  ,birth  YEAR,department  VARCHAR(20) ,add...

2018-08-25 13:12:58 239

原创 虚拟机安装Ubuntu 显示全屏

在刚安装完ubuntu后,屏幕不能全屏显示,此时: 1、安装VMware Tools  步骤:      1.1     进入ubuntu系统后,点击虚拟机上的【虚拟机】->【安装 vmware tools】,回到桌面回看到一个vmware tools的  cdrom图标。     1.2   复制 VMwareTools-10.0.10-4301679.tar...

2018-08-23 19:39:08 658

原创 pycharm+PyQt5+python最新开发环境配置

最近要用QT来做界面,安装的时候找了半天 我网上很多都是误人子弟。特别是外部工具PYuic 的安装首先安装pycharm 用pip安装 pyQt5  多试几次,在安装设置外部工具  QTcreator    设置 pyuic   我看了很多其他教程  全都是将这个program 设置成python程序的路径,但是这样设置 在将UI文件转换成PY文件会出错,比如下面。  反正我的电脑这样设置会错误 ...

2018-05-01 21:47:47 518

原创 主流机器学习模型模板代码+经验分享[xgb, lgb, Keras, LR]

XGBoost调参大全: http://blog.csdn.net/han_xiaoyang/article/details/52665396XGBoost 官方API:http://xgboost.readthedocs.io/en/latest//python/python_api.htmlPreprocess# 通用的预处理框架import pandas as pdimport numpy ...

2018-04-22 10:55:10 623

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除