袁一白-CSDN博客

前几天，有人质疑说sigmoid不能做回归，我翻了一下资料某自编码机源码，采用sigmoid+BCEloss进行矩阵重建【这个矩阵数据被变换到了0-1】，论文里面确实是采用sigmoid做回归本CSDN，采用distilbert用sigmoid做回归，完成STSB任务，（回归到1-5）其实可以推导一下：sigmoid+BCE，大致等于直接回归+MSE++++++++++++++++++以下实验正文++++++++++++++++++sigmoid回归# 环境配置!pip install tra

2021-09-06 02:24:20 1750

原创 BN-tmp

问题：GN论文里面LN的 C的问题所有以4D数据[Bbatch=128,Cchannel=3,Hheight=384,Wwidth=384][B_{batch}=128,C_{channel}=3,H_{height}=384,W_{width}=384][Bbatch=128,Cchannel=3,Hheight=384,Wwidth=384]为例LN以3D数据[Bbatch=128,Wword=512,Eembedding_dim=768][B_{batch}=128,W_{word}=51

2021-08-18 01:49:36 235

原创【论文解读-未完成】-A Survey of Transformers-【一篇论文了解整个Transformers王国】

PTMsA Survey of Transformers1 INTRODUCTION 引言2 BACKGROUND 背景-介绍了 Transformer的架构和关键组件。2.1 Vanilla Transformer-原始Transformer2.2 Model Usage-模型使用2.3 Model Analysis-模型分析2.4 Comparing Transformer to Other Network Types-比较trm和其他2.4.1 Analysis of Self-Attention 自

2021-08-14 10:31:23 824 1

原创 Python数据可视化-基于Python-matplotlib

这里写自定义目录标题相关类-Correlation1.相关类-散点图-Scatter plot2.相关类-带边界的气泡图-Bubble plot with Encircling3.相关类-带线性回归最佳拟合线的散点图-Scatter plot with linear regression line of best fit4.相关类-抖动图-Jittering with stripplot5.相关类-计数图-Counts Plot6.相关类-边缘直方图-Marginal Histogram7.相关类-边缘箱形

2021-08-10 14:41:22 1536

原创【优化】-权重初始化

为啥要合适的初始化【不放大缩小，方差稳定性】过大或者过小的初始化：过大，梯度爆炸，使得网络不收敛，参数更新的幅度也会很大，这就导致loss function的值在其最小值附近震荡；过小，梯度消失，更新的幅度也很小，着就会导致loss的收敛很缓慢，或者在收敛到最小值前在某个局部的极小值收敛了【破坏对称性（差异性）】《速通》里面认为：初始化如果没有差异，那么梯度过程和结果也没有差异，冗余（多通道只是一个通道，多头attention只是一头，FC只是一个神经元），因此要破坏"对称性"（《花书》(&8

2021-06-30 10:39:37 372

原创 Docker占用C盘过大迁移

WSL发行版迁移此处转载自xhznl 博客：https://www.cnblogs.com/xhznl/p/13184398.html0.查看wsl -l -v1.首先关闭docker2.关闭所有发行版：wsl --shutdown3.将data导出到D:\WSLData（注意，原有的docker images不会一起导出）wsl --export docker-desktop-data D:\WSLData\docker-desktop-data\docker-desktop-data.

2021-05-19 16:39:34 572

原创说一说sklearn和jieba做tf-idf做领域关键词提取的区别

这里写自定义目录标题首先先定义一下问题的范围sklearn的策略：类似BNjieba策略：单独的idf首先先定义一下问题的范围我们只涉及提取关键词，而不是生成关键词本文不讨论分词，不讨论具体的理论，只是论述这个坑坑：sklearn和jieba在tf-idf的区别sklearn的策略：类似BN这里说一下：sklearn的tfidf:全世界有100万文章，我训练是10万文章，TfidfTransformer是一万一万的fit然后提取tf-idfsklearn搞得跟BN一样,一批一批的idfsk

2021-04-22 10:24:56 520

原创基于BERT的ASR纠错

基于BERT的ASR纠错链接：https://pan.baidu.com/s/1meoXKmNpDybyc80G7KBnXA提取码：4ljr分享嘉宾：魏天闻小米人工智能部导读：小爱同学是小米公司开发的智能语音系统，已广泛应用在手机、手环、音箱、电视等电子产品中，并支持闲聊、问答、语音控制等多种语音交互场景。语音系统中语音内容识别 ( ASR ) 的精准性，是影响智能语音产品发展的关键制约因素，用户query的文本，通常是由ASR系统将用户的语音命令转换而成，但由于技术上的原因，这些由ASR生成的

2021-01-05 17:43:14 833

原创 parquet在spark，impala，hive等的兼容性分析

Parquet是一种存储格式，其本身与任何语言、平台都没有关系，也不需要与任何一种数据处理框架绑定。但是一个开源技术的发展，必然需要有合适的生态圈助力才行，Spark便是Parquet的核心助力之一。作为内存型并行计算引擎，Spark被广泛应用在流处理、离线处理等场景，其从1.0.0便开始支持Parquet，方便我们操作数据。Apache Arrow是Apache基金会下一个全新的开源项目，同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。在数据挖掘小组，语言是pytho

2020-09-04 15:51:51 495

原创 python-使用dataframe，不使用科学计数法

法一： dir_path = "F:\\python\\python\\MultiLabelETL_py\\data\\a.csv" df = pd.read_csv(dir_path) #,converters={"ID": str}) df['ID'] = df.apply(lambda x: '%d' % (x['ID']), axis=1).astype(object) writer = pd.ExcelWriter("xxxxxxxxxx.xlsx") df

2020-08-31 16:42:54 5908

原创 SVM的预测部分不一致的问题

首先，先看结果，矛盾了#===这里演示一下由OVO，两条路，不矛盾===#1.这是libsvm的底层拿到的OVO[[0.62205951 0.96867402 1.05203884 1.04267148 0.96880563 0.70934004 0.70606668 0.32225327 0.17647241 0.03762073]]#2.这是sklearn暴漏的接口，这里是OVO然后，经过OVR聚合，然后拿到最大值# 2.1 这里是OVO[[0.62205951 0.9686740

2020-05-12 17:46:34 2113 2

原创 IO密集型使用异步；CPU密集型使用同步

IO密集型使用异步；CPU密集型使用同步。所以这里使用同步，这里给两个程序# -*- coding: utf-8 -*-"""======================@author:YuanYihan@time:2020/5/6:19:37@email:[email protected]@phone:18192015917======================"""...

2020-05-07 15:07:13 455

原创教科书级别的完美回答-感谢大神

问你个问题，看你这scala老手多长时间给出答案?List(Some(3), None).flatMap(e => e)的结果是什么? 为什么?=================今天走在路上，忽然想到上次说的这个问题可以从语言上层的理论来解释：在面向对象的编程中，一切皆对象，类比到函数式编程，一切皆函数，也可以称为一切皆monad，也就是说我们在函数式编程中见到的应该都是monad...

2020-03-07 23:50:46 433

原创旧项目的TEZ优化

最近搞数据挖掘，在前期的ETL部分，是pig来写的，大约有4283+行据说运行非常慢，所以，准备TEZ一下，这里先贴个tez的页面：https://tez.apache.org/#tez化cmd="pighcatalogcmd−Dhive.metastore.uris=thrift://192.168.1.190:9083−pinput={pig_hcatalog_cmd} -Dhive....

2019-11-18 13:44:38 439

转载 Spark2.3.0解决Exception in thread “main“ java.lang.IllegalArgumentException: Illegal pattern component

转载：https://blog.csdn.net/lds_include/article/details/89329139Spark2.3.0解决Exception in thread “main” java.lang.IllegalArgumentException: Illegal pattern component: XXX 报错出错的调用代码此问题出现在调用spark.read.j...

2019-09-04 15:30:30 2635

转载 scheme-谈语法

https://henix.github.io/feeds/yinwang/2013-03-08-on-syntax.html

2019-07-16 21:45:03 588

原创 python一堆僵尸进程！杀！一个开发杀423个进程的感觉真爽

首先CDH显示swap持续的居高不下，长期1.7G其次查使用swap最多的进程最后#!/bin/bash function killswap {for pid in `ps -ef | grep "wechat_multi_multifile.py"|grep -v grep| awk '{ print $2 }' ` ; doecho "pid=$pid" >>...

2019-04-30 19:40:06 523

原创【spark程序第一次把磁盘IO作为瓶颈了】今天写个博客，关于运维（但是，我TM是开发）

问题引入今天CDH的管理，报130失去连接，ssh也连不上，但是能ping通查看系统日志echo 0 > /proc/sys/kernel/hung_task_timeout_secs disables this message百度结果：https://blog.51cto.com/10983441/1782411问题原因：默认情况下， Linux会最多使用40%的可用内存作为...

2019-04-23 16:03:37 593 1

原创江湖救急，帮之前的同事画板子

之前同事江湖救急，我提前第二天我直接休假了，没想到晚上4点多就搞完了

2019-03-15 13:02:28 78

原创一个有意思的spark代码，今天闲的蛋疼了

package com.wby.fans.increimport java.util.Dateimport com.wby.annotation.Workflowimport com.wby.data.common.Common.{platformFilterSQLParms, refreshTable}import com.wby.data.common.{CodeTransform,...

2019-03-15 12:42:57 263

原创关于SparkSQL中UDAF的一次设计失误

首先我们先贴一下同事的UDAF函数package com.wby.fans.commonimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.s...

2019-03-14 19:51:52 410 1

原创 UDF非预期返回null

背景今天写了一个UDF函数，算粉丝互动率的参数def getInteractionProportion(platform_type:String, follower_count:Long,media_count:Long,interaction_sum:Long):Float={1.2f}当有视频数的时候,interaction_sum除以视频数，否者除以粉丝数；当写成上述的时候，仍...

2019-01-24 17:16:37 1103

原创记spark2.3.x的一个bug

背景在做spark重构代码的时候，账号的二期的有些计算，使用了sparkSQL，这个时候，发现要进行多次的left join，考虑效率问题，提出重分区： val price = s""" |select |identify_id,weibo_type,price_info |from dm_account.hogwarts_ac...

2019-01-23 09:29:39 553

原创 spark Thrift JDBC/ODBC Server配置

必要性spark Thrift JDBC/ODBC Server服务能降低Spark的使用难度（对外仅SQL）配置过程首先，正常配置spark编写脚本 start-thriftserver.sh 启动服务（包含动态资源申请）[root@prd-pg-cdh-node-190 spark-2.3.1-bin-hadoop2.6]# cat start-thriftserver.sh #!...

2019-01-04 18:31:55 2686

原创记一次Hive的失败事件

现象root用户报错：Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskhue等账号：正常所以排除是：表，hive等问题。排查过程首先，报错看日志核心报错如下：org.xml.sax.SA...

2019-01-04 18:05:19 905

原创 Nifi博客之一：概述贴

NIFI的总体论述简介：2006年NiFi由美国国家安全局（NSA）的Joe Witt创建。2015年7月20日，Apache基金会宣布ApacheNiFi顺利孵化成为Apache的顶级项目之一。Apache NiFi的设计目标是自动化管理系统间的数据流，其基于工作流式的设计理念具有很强的交互性，非常强大、易用。本文简要介绍NiFi的相关特性，以及常见的应用场景，为系统间或者系统内的数据流管理提...

2018-11-28 17:20:43 628

原创记一次hive drop table 卡死的事故

事故总述这次事故是可以避免的，责任在于Hive的管理团队未把hive的使用规范告知使用者。现象A同事在测试程序时，首先发现Hive-metastore的连接非常缓慢。B同事在测试程序时，在HUE发现有一个表drop不掉（卡死，直到timeout）。查询资料发现：https://blog.csdn.net/u010689354/article/details/79844513 论述要改字符...

2018-11-20 17:31:40 3512 2

原创好久没写blog了，抄个简单的

Windows系统安装java语言开发包、配置环境变量https://jingyan.baidu.com/album/4b52d702db5982fc5c774bc3.html?picindex=2开发工具idea的下载与安装https://jingyan.baidu.com/article/25648fc16db2909191fd0082.htmlidea 配置mavenhttps:...

2018-11-07 15:56:22 296

原创记一次HDFS容量失误事件

新集群有8台电脑（还在不断迁移集群），在2018年9月11日，发生了115节点的磁盘爆满的问题。通过df -h命令获取容量得到结果为3.7T通过hadoop dfsadmin -report获取容量可以看到认为是12.56TB数据通过MegaRAID查看/opt/MegaRAID/MegaCli/./MegaCli64 -PDList -aALL | egr...

2018-09-13 15:17:59 372

原创 CDH5.15搭建四之四（微播易公司搭建手册-踩坑部分）

1. 安装踩坑记1.1. 安装kudu踩坑:NTP对时问题Kudu在启动时，要求ntp对时，但不是被动的对时，而是kudu主动对时。之前系统搭建时候采用的对时策略是：一个主服务81链接ntp服务器，并且自己作为二级ntp服务器；82-84作为客户端，在定时操作中使用ntp指令向81对时。问题在于82-84是定时对时，没办法在kudu软件中由它主动完成，而是被动接受系统时间，这样的...

2018-07-30 14:07:02 1474

原创 CDH5.15搭建四之三（微播易公司搭建手册-组件部分）

4. 安装CDH4.1. 登录4.2. 选择CM版本本文档选择Cloudera Express免费版。4.3. 指定主机在搜索主机名和IP地址框输入node[169-172]，这里输入的内容支持正则表达式。输入后点【搜索】按钮，出现机器列表：选择“当前管理的主机“选择项卡，点【继续】。4.4. 选择CDH版本这里需要选择制作本地源时的版本。 ...

2018-07-30 13:52:24 2030 2

原创 CDH5.15搭建四之二（微播易公司搭建手册-基础部分）

1. 安装总概1.1. 软件环境本文将介绍Centos7.5（首先用cat /proc/version和getconf LONG_BIT）离线安装CDH和Cloudera Manager过程，软件版本如下表1-1所示：表1-1 软件版本选取 NO. 软件名称版本 1 操作系统 Centos7.5 64 位 2 JDK jd...

2018-07-30 10:45:59 3626 2

原创 CDH5.15搭建四之一（微播易公司搭建手册-概要部分）

1 集群管理工具选型1.1 什么是CDH，ambari？Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。 Apache Ambari 支持HDFS、MapReduce、Hi...

2018-06-29 15:26:38 1149 3

原创工作流开源系统--OOZIE之安装spark2

引言使用Hue可以方便的通过界面制定Oozie的工作流，支持Hive、Pig、Spark、Java、Sqoop、MapReduce、Shell等等。Spark？当让可以，但是自带是spark1的，那能不能支持Spark2的呢？接下来本文章就主要讲述如何使用Hue创建Spark1和Spark2的Oozie工作流。安装spark2-lib到oozie环境说明 spark2 ： CD...

2018-06-26 15:55:51 1394 4

转载【转】消息中间件全面对比的内功心法

转自：消息中间件全面对比的内功心法消息中间件全面对比的内功心法 ——从Kafka与RabbitMQ的对比来看全局有很多网友留言：公司要做消息中间件选型，该如何选？你觉得哪个比较好？消息选型的确是一个大论题，实则说来话长的事情又如何长话短说。对此笔者专门撰稿一篇内功心法：如何看待消息中间件的选型，不过...

2018-06-26 10:25:26 195

原创工作流开源系统--OOZIE-test测试文档

之前的工作流是rundeck，这主要是处理过程大多数是使用脚本语言。新的布局是使用oozie，基本的可以看我之前的文章：oozie 首先，先看一下成果这里用一个例子来说明oozie的使用，首先上测试图：1 重点聊一下spark集群在oozie上的特殊性这里有2个坑，分别是集群的参数和del先讨论参数问题从上图可以看出，1和2是运行成功的，3是失败的我们看一...

2018-06-25 20:17:05 511

原创工作流开源系统--DRAKE

1工作流开源系统概要以下是各类数据分析的工作流pipeline管道模型的框架和库包，包含特定科学等业务领域行业或者通用领域，结合大数据big data分析的各种开放源码项目。包括下一代测序技术(NGS)打开了数据分析的空间，生物学成为数据密集领域，越来越多的生物数据需要通过复杂的计算工具（集群、云端和网格计算）进行NGS处理和分析。工作流开源系统网址现类Arvadoshttp://arvados....

2018-06-22 09:55:46 2825

原创工作流开源系统--OOZIE

对比Oozie以及Azkaban，个人觉得选择Oozie作为流程引擎的选型比较好，理由如下： 1.Oozie是基于Hadoop系统进行操作，而Azkaban是基于命令行进行操作。使用hadoop提供的第三方包JobClient比直接在底层跑shell命令开发成本小，可能遇到的坑也少（一个是基于平台，一个是基于系统）。 2.Oozie的操作是放在Hadoop中，而Azkaban的运行是服务器运行...

2018-06-22 09:02:26 553

原创 WEB开发模型-贫血模型和充血模型

引入在看《大网站技术架构》其中第79页有一段说明：那么今天来聊聊贫血和充血模型一、贫血模型所谓贫血模型，是指Model 中，仅包含状态(属性），不包含行为(方法），采用这种设计时，需要分离出DB层，专门用于数据库操作（数据库作为状态）。二、充血模型Model 中既包括状态，又包括行为，是最符合面向对象的设计方式。以下为举例说明：对于员工Employee来...

2018-06-15 17:05:08 1435