阿君聊风控-CSDN博客

原创 python 正则-常见题目

常见日期格式：yyyyMMdd、yyyy-MM-dd、yyyy/MM/dd、yyyy.MM.dd。#强密码(以字母开头，必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)8位例如：0511-1234567、021-87654321。

2024-01-04 14:47:47 509

原创如何删除字符串中的表情符emoji

\p{So}\p{Sk}]+是一个正则表达式，表示匹配一个或多个Unicode符号和特殊字符。\p{So}表示Unicode中的“其他符号”（如音符、货币符号等），\p{Sk}表示Unicode中的“符号标记”（如重音符、变音符等）。+表示匹配一个或多个前面的字符。

2024-01-03 11:05:11 457

5）取多列：data.loc[:,[‘col1’, ‘col3’]]、data.loc[:,[‘col2’, ‘col3’]]2）取多行：data.loc[[‘row1’, ‘row3’]] 、data.loc[[‘row1’, ‘ro3’],:]3）取连续多行：data.loc[‘row1’:‘row3’] 、data.loc[‘row0’, ‘row3’,:]5）取多列：data.iloc[:,[0,2]]、data.iloc[:,[0,2]]取多列：data[[‘col1’,‘col2’]]

2024-01-03 10:49:55 456

原创 tf-idf +逻辑回归来识别垃圾文本

【代码】tfidf +逻辑回归来识别垃圾文本。

2024-01-02 16:01:53 560

原创使用apriori来挖掘关联规则

可以简单理解为：在全集的情况下，尿不湿的概率为80%，而在包含啤酒这个子集中，尿不湿的概率为100%，因此，子集的限定，提高了尿不湿的概率，啤酒的出现，提高了尿不湿的概率。置信度 (Confidence)：指的就是当你购买了商品 A，会有多大的概率购买商品 B，在包含A的子集中，B的支持度，也就是包含B的订单的比例。提升度 (Lift)：我们在做商品推荐或者风控策略的时候，重点考虑的是提升度，因为提升度代表的是A 的出现，对B的出现概率提升的程度。提升度 (A→B)=1：代表有没有提升，也没有下降；

2023-12-14 15:08:54 73

原创 python networkx 网络展示的代码

1、创建一个无权重的图，并展示。

2023-12-06 14:52:12 91

原创朴素贝叶斯算法来识别垃圾文本

在电商平台中有大量的垃圾或者欺诈消息msg，如何识别召回这些垃圾消息是风控经常遇到的问题，今天我们来尝试用传统的朴素贝叶斯分类算法来挖掘分类模型来识别垃圾消息下面的样本中，标签1是垃圾消息，标签0是正常消息。

2023-12-06 14:12:00 78

原创 python的制图

plt.bar: 是 Matplotlib 库中用于绘制柱状图的函数之一，它可以接受多组数据作为输入，每组数据可以包含 x 轴和 y 轴的坐标值。width：每个柱子的宽度，可以是一个数字或者一个数组，如果是一个数组，则每个柱子的宽度可以不同。linestyle: 折线的样式，可以是字符串（如 ‘–’）或者一个包含实线、虚线等样式的元组。marker: 数据点的标记样式，可以是字符串（如 ‘o’）或者一个包含圆形、正方形等样式的元组。x：x 轴的标签，可以是一个数组、列表或者 Series 对象。

2023-12-01 17:33:29 108

原创自编码欺诈检测代码

数据还是使用信用卡的数据，数据来自于kaggle上的一个信用卡欺诈检测比赛，数据质量高，正负样本比例非常悬殊，很典型的异常检测数据集，在这个数据集上来测试一下各种异常检测手段的效果。当然，可能换个数据集结果就会有很大不同，结果仅供参考。信用卡欺诈是指故意使用伪造、作废的信用卡，冒用他人的信用卡骗取财物，或用本人信用卡进行恶意透支的行为,信用卡欺诈形式分为3种：失卡冒用、假冒申请、伪造信用卡。

2023-12-01 16:54:39 64

原创 iforest(孤立森林)来预测信用卡欺诈

iforest 孤立森林算法在信用卡欺诈检测中的应用代码

2023-12-01 16:35:42 81

原创 spark数据倾斜的解决思路

数据倾斜是：多个分区中，某个分区的数据比其他分区的数据多的多。

2023-11-23 10:30:43 746

原创 Spark RDD、DataFrame和Dataset的区别和联系

RDD可以通过并行化的方式在集群中进行分布式计算，支持多种操作，如转换操作（如map、filter、join等）和行动操作（如count、collect、reduce等）。总之，RDD、DataFrame和Dataset都是Spark中的重要概念，它们各自有不同的优势和适用场景。DataFrame可以通过Spark SQL查询进行操作，支持SQL语句和DataFrame API。是Spark中的三种不同的数据结构，它们都可以用于分布式数据处理，但是它们的实现方式和使用方法略有不同。

2023-11-22 17:35:52 811

原创 scala的类介绍

scala的类、抽象类、接口、对象。

2023-11-22 15:47:24 640

原创 SparkSession介绍

【代码】SparkSession介绍。

2023-11-22 14:41:02 936

原创 spark如何配置checkpoint

如果你希望先对模型进行优化保存，再将优化后的结果缓存下来，那么就应该先使用 checkpoint() 函数，再使用 cache() 函数。而 cache() 函数是一种缓存方法，可以将模型的某些计算结果缓存下来，以便下次使用时可以直接调用，避免重复计算，提高模型的训练速度。如果你希望先缓存模型的某些计算结果，再对模型进行优化，那么就应该先使用 cache() 函数，再使用 checkpoint() 函数。checkpoint() 函数是一种优化方法，可以。这两个函数的使用顺序取决于具体的场景。

2023-11-22 10:11:41 629

原创 flask模型部署教程

具体参考https://blog.csdn.net/weixin_42126327/article/details/127642279。

2023-08-18 11:52:52 1193 1

原创网络诈骗的套路

根据我多年风控分析师的工作经验，以及周边的真实案例，总结了下面一些常见的网络诈骗的套路

2023-03-15 16:10:58 505 1

原创 GBDT算法

gbdt的技术总结

2023-02-15 18:42:12 401

原创 hive 随机抽样 distribute by rand() sort by rand() limit n

hive表随机抽样 distribute by rand() sort by rand() 以及分层抽样

2023-02-08 15:06:12 3302

原创 spark sql map():_*函数

spark sql map()._* 循环对字段进行处理

2023-02-07 16:52:52 718

原创 hive sql 经典题目连续登陆｜间隔连续登陆｜行列转换｜累加｜topN | 炸裂

hive sql的经典题目连续登陆｜间隔连续登陆｜行列转换｜累加｜topN | 炸裂

2023-02-07 15:07:43 1845 1

原创 hive 表操作的基本sql

hive表的接本操作语句

2023-02-07 14:23:57 168

原创 spark-sql to_unix_timestamp from_unixtime字符串和时间戳的相互转化

spark sql 字符串和时间戳之间的相互转换

2023-02-02 18:25:48 1968

原创 spark-sql:DSL语法的单引号，双引号的区别

spark-sql DSL中单引号和双引号的区别

2023-02-02 18:03:16 484

原创 spark的脚本提交参数

spark提交参数以及参数解读

2023-01-30 18:44:25 766

原创 spark的shuffle

spark的shuffle

2023-01-29 18:52:56 78

原创 hive系列1-开窗函数

hive的开窗函数

2023-01-29 11:49:59 340

原创 git常用命令

一文给你讲清楚git的常用命令和原理

2023-01-16 18:44:55 1366

原创黑产系列02-黑产画像

黑产无利不起早，在利益的驱动下黑产几乎是屡禁不止，作为风控从业人员我们需要全方位的了解黑产，了解我们的对手，才能知己知彼，接下来我将结合我多年风控经验以及查阅的相关的资源，全方位介绍下黑产以及他们的主要攻击手段

2023-01-11 14:46:07 1404

原创黑产系列01-如何发现黑产情报

作为风控从业人员，及时了解黑产情报或者发现黑产的攻击是我们的必修课，那么如何做到呢？结合我的实战经验，可以从下面的几个方面入手，一般都可以及时发现问题

2023-01-10 18:39:16 676

原创社区发现系列05：图的构建

电商和互金小贷场景，如何构建社交图

2023-01-09 17:06:32 247

原创社区发现系列04-社区的特征分析

在前面的文章中我们研究了目前最有效的**社区发现算法是Louvain算法**，可以用该算法进行社区发现，得到一个个社区。得到社区后，我们如何从中分析和挖掘我们关注的作弊团伙呢？可能不同的业务场景关注的重点不同，可以去分析下面的一些基本问题

2023-01-09 16:06:36 518

原创社区发现系列03-Louvain算法分辨率

louvain算法存在的问题：分辨率局限，如何解决呢？设置分辨率参数

2023-01-09 15:46:43 1080

原创社区发现系列02-算法介绍

今天我们就来聊一聊常用的社区发现算法和原理，以及通过实验来来对比不同社区发现算法划分的效果,选择最优的社区发现算法来挖掘社区吧

2023-01-06 18:11:04 2551

原创社区发现系列01-复杂网络介绍

作为互联网风控从业人员，我们很难绕开的一个话题就是作弊团伙。我们一般可以碰到的作弊团伙多种多样，比如：薅羊毛团伙、垃圾注册团伙、欺诈团伙、职业打假人团伙等等，虽然每种团伙的特点不同，作弊方式也不同，但是作为风控算法或者策略工程师，我们需要了解他们的共性，深度理解其背后的原理，才能知己知彼，百战百胜。那么这些团伙的共性是啥？首先他们都是社区，属于复杂网络，接下来我们就来聊聊什么是复杂网络，以及复杂网络的特性是什么？我们在风控时如何利用这些特性来打击作弊团伙的攻击

2023-01-05 16:49:41 1014

原创算法题：N个元素之和

三数之和、四数之和的解题思路

2022-12-19 16:39:52 558

原创常用的排序算法

常用的排序算法快速排序思路：以数组中的第一个元素作为基准，对数组进行调整，使得左边的元素都小于基本，右边的元素都大于等于基准；然后再分别对左右两边的数组进行如上方法的排序import numpydef partition(nums, l, r): t = nums[l] start = l l+=1 while l <= r: wh...

2022-11-30 09:45:16 365

原创使用paddle ernie预训练模型进行中文文本分类代码

使用paddle的预训练模型ernie进行中文文本二分类的代码实现包括：模型训练、模型预测、动静图模型转化、模型的部署和上线预测

2022-06-22 15:41:00 1657 1

原创使用paddlepaddle的LSTM进行文本分类的代码

用paddlepaddle的LSTM进行文本分类的代码

2022-06-15 18:51:01 848

原创 lr模型的训练和预测代码demo

1、模型的训练# -*- coding: utf-8 -*-import sysfrom pandas import DataFrame, Seriesfrom sklearn.preprocessing import KBinsDiscretizerimport numpy as npimport mathimport datetimefrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selecti

2021-11-25 16:24:17 934

在线考试系统

空空如也