自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Change the World by Program

每个人都翅膀但是不会代表每个人都可以学会飞翔

  • 博客(82)
  • 资源 (4)
  • 收藏
  • 关注

原创 【8月31日 国内从备案到获客首批大模型厂商名单】

百度(文心一言)、抖音(云雀大模型)、智谱AI(GLM大模型)、中科院(紫东太初大模型)、百川智能(百川大模型):商汤(日日新大模型)、MiniMax(ABAB大模型)、上海人工智能实验室(书生通用大模型)

2023-08-31 09:30:20 486

原创 【亲测有效】 通过mysql指令 导出数据库中表名 和 表名的备注

将上述指令中的"你的数据库名"替换为你实际使用的数据库名称,执行该指令后,将会返回表名和表名的备注。你可以将结果导出到文件中以便后续使用。WX:去归科技 领取全栈工程师资料 公众号。

2023-07-19 16:53:25 834

原创 asyncio是Python标准库使用说明

asyncio.StreamReader/StreamWriter:提供异步I/O操作的抽象,用于实现协程中的网络通信等操作。任务调度:asyncio提供了一种任务调度机制,能够让不同的协程在不同的时刻被执行,从而实现异步逻辑的编写。协程:asyncio提供了基于协程的异步编程方式,协程是一种轻量级的线程,能够在单线程下并发执行多个任务。asyncio.gather():在一个协程中同时等待多个协程完成,并获取它们的执行结果。asyncio.run():在新的事件循环中执行一个协程,并关闭事件循环。

2023-05-11 15:19:19 607

原创 python 打印log 日志方法 请详细描述 且 举例说明使用方法

可以使用logging.basicConfig()来设置日志的输出格式以及日志级别,level参数可以设置为:DEBUG,INFO,WARNING,ERROR,CRITICAL等,可以根据自己的需求来设置。可以通过logging模块的5个不同的级别来输出日志,例如logging.debug(),logging.info(),logging.warning()等等,每个级别都有相应的输出方法。在python中,可以使用logging模块来打印日志。(1)首先引入logging模块。

2023-05-08 16:24:59 837

原创 rui-chatgpt-on-wechat 项目部署运行

3、设置wechaty 环境变量。4、运行wechaty。

2023-04-25 19:21:12 392

原创 在Python中,使用asyncio库来进行异步编程。async与await是两个关键字,用于异步编程。

在主程序中,获取了Event Loop,并使用loop.create_task()函数将两个异步函数添加到任务列表中,最后使用loop.run_until_complete()函数执行所有任务。async与await是两个关键字,用于异步编程。定义异步函数:使用async关键字定义一个异步函数,定义格式为:async def 函数名(参数列表)。调用异步函数:由于异步函数不是立即执行的,需要使用Event Loop调用异步函数。需要等待的操作:在异步函数中,使用await关键字,等待某个操作完成。

2023-04-24 17:58:11 208

原创 第二篇 chatgpt-on-wechat项目 Docker部署问题 build.alpine.sh文件内容解读

chatgpt-on-wechat项目 Docker部署问题 build.alpine.sh文件内容解读

2023-04-23 16:36:45 2321

原创 chatgpt-on-wechat项目 Docker部署问题 Dockerfile.alpine文件内容解读

【代码】chatgpt-on-wechat项目 Docker部署问题 Dockerfile.alpine文件内容解读。

2023-04-23 16:33:31 565

原创 ubuntu 操作系统部署flask项目 执行步骤

3、在运行Flask应用时,请务必使用python来启动应用程序,而不是Apache或其他方式;1、在安装Python和安装Flask时,请务必按照正确的顺序安装,以免出现意外情况;2、在虚拟环境下安装Flask时,需要使用pip安装,而不是apt-get安装;4、在部署Flask服务时,需要按照正确的流程进行,以免出现问题。ubuntu 操作系统部署flask服务 步骤以及注意事项。2、安装Apache2、MySQL、PHP等必要组件;1、安装Ubuntu系统,并设置网络环境;三、部署Flask服务。

2023-03-26 20:53:59 1571

原创 vue以及前端css组件

它提供了一套完整的CSS和JavaScript组件库,使用简单且可定制,可以让你在少量的时间内完成大量的开发任务。Semantic UI React:Semantic UI React是一个基于Semantic UI的CSS框架,提供了一套完整的CSS组件库,可以让你快速轻松地创建网站和Web应用程序,具有优雅的外观和流畅的交互。Semantic UI:Semantic UI是一个强大的CSS框架,提供了一整套完整的CSS组件库,可以让你快速轻松地创建网站和Web应用程序,具有优雅的外观和流畅的交互。

2023-03-17 17:55:39 695

原创 openai 介绍

OpenAI(开放人工智能)是美国一个人工智能研究实验室,由营利组织 OpenAI LP 与母公司非营利组织 OpenAI Inc 所组成,目的是促进和发展友好的人工智能,使人类整体受益。OpenAI成立于2015年底,总部位于加利福尼亚州旧金山,组织目标是通过与其他机构和研究者的“自由合作”,向公众开放专利和研究成果。创始人山姆·柯曼以及伊隆·马斯克的动机是出于对强人工智能潜在风险的担忧。]至2018年,OpenAI的总部坐落于旧金山的米慎区,与伊隆·马斯克的另一座公司Neuralink在同一办公室大楼。

2023-03-17 09:40:17 3261

原创 网易云课堂-课程分析

网易云课堂不同类目的数据分析、包括会员、价位、课程数量、类目等等

2022-11-21 20:39:34 584 3

原创 斗鱼美女主播封面爬取 python request urlretrieve jsonpath 爬虫

斗鱼美女主播封面爬取 python request urlretrieve jsonpath 爬虫输出结果

2020-05-30 22:02:34 830

原创 java虚拟机知识____应付面试应该是够用了

JVM 目录JVM 体系结构概述1.1 类的加载机制1.2 类的加载器有哪几种1.3 双亲委派机制1.4 沙箱安全机制堆 体系结构概述堆 参数调优入门1.JVM体系结构概览2. 类加载器类的加载器一共有三种 BootStrapClassLoader、ExtensionClassLoader、AppClassLoader。加载顺序如下BootStrapClassLoader 加载下面路径下的依赖包C:\Program Files (x86)\Java\jdk1.8.0

2020-05-09 18:11:49 243

原创 HIVE之Map数据类型应用

使用场景场景一 (博主实际使用场景)因为公司近期涉及埋点数据的业务逻辑,对于扩展字进行补充因此采用map数据类型存储扩展字段.场景二 (其他业务场景)场景2.1我的项目里,生成的一个中间表,为了优化性能,里面有一列最好是个数组,因为如果把数组打散,每行上存一个元素,会因为其他列的重复导致数据量爆炸。首先想从上游表中生成这个数组,搜索半天文档,发现唯一的方式是把源数据列先转STRI...

2020-04-19 18:31:33 2204 1

原创 MySQL 拉取数据 、pandas转 excel 中文乱码

步骤1、Mysql 拉取数据2、封装data Frame类型3、转csv 文件输出 ( excel 打开中文乱码问题) import logging from tool.db_client.mysql_client.mysql import MySqlClient from config.file_conf import BASE_DATA_DIR fr...

2020-03-27 11:19:03 194

原创 json 转 csv

json 转 csvimport pandas as pdimport jsonfile_path = "country_2.json"with open(file_path, encoding='utf-8') as file_obj: lines = file_obj.readlines() dict_lines = [json.loads(line) for li...

2020-03-26 14:02:03 297

原创 生产环境数据库开发规范

生产环境数据开发规范以及注意事项(内容会不断更新)效率规范唯一索引名为 uk_字段名;普通索引名则为 idx_字段名单表行数超过500万或者单表容量为2G的时候建议分库分表(经验值)、如果表数据量在3年内达不到500万的时候不需要在建表的时候进行分库分表。业务上具有唯一属性的字段或者组合字段也需要建立唯一索引3张表关联的时候保证关联字段的数据类型一致并且关联字段建立索引isNull(...

2019-10-30 11:47:00 1344

原创 pySpark 离线安装 python3

由于通过本地安装太慢、因此本人通过离线安装的方式 、加快安装速度。离线安装包 地址https://files.pythonhosted.org/packages/37/98/244399c0daa7894cdf387e7007d5e8b3710a79b67f3fd991c0b0b644822d/pyspark-2.4.3.tar.gz将下载下来的gz包解压 放到D:\test_fl...

2019-08-20 14:53:36 1866

原创 Mysql 中的 case when 与HIVE 中 case when 的漏斗模式 区别

''' ,CASE WHEN social_credit_code IS NOT NULL THEN '10-统一社会信用代码' WHEN organization_structure_code IS NOT NULL THEN '20-组织机构代码' WHEN business_license IS NOT N...

2018-10-29 16:58:38 617 2

原创 python - mysql insert语句问题

1、python 数据插入问题 par=[] for a in params: if type(a) == list: par.append(‘“str(a)”’) else: par.append(a) for b in ...

2018-02-11 16:40:07 4425

原创 互联网金融风控模型

一、市场调研目前市面主流的风控模型 1、互联网金融前10名排行榜(数据截止日期2017-09-12)互联网金融公司排名分别是蚂蚁金服、陆金所、京东金融、苏宁金融、百度金融、腾讯理财通、宜信、钱大掌柜、万达金融和网易理财。1.1 蚂蚁金服1.1.1 大数据技术 对接第三方征信公司芝麻信用分,通过用户信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度对...

2018-02-08 12:00:22 49752 6

原创 (8) Hadoop-工作流调度器azkanban

有个StreamSet工具可以使用 看着还挺不错的!工作流调度概述通常来说一个完整的数据采集流程都是各个单元组成前期的数据采集Flume或者linux脚本crontab,数据的预处理(MR),在处理后的数据导入到HIVE仓库,将多个表的数据进行join处理生成明细表,根据业务需求生成最后的数据报表,供起业务调用等 一套完善的流程。每个部分都是先后依赖存在时间关系,因此需要将各个单元有序的结合起来所

2017-12-19 00:11:16 650

原创 (4) Hadoop-MapReduce计算模型

1. MapReduce计算模型理解因为mapreduce是大型分布式计算框架 ,出先两个关键词 1.分布式 2.计算框架。 可以从名字中解读就是运行在不同服务器上面的负责计算处理数据的框架。 关于MapReduce就是别人的博客出现最多的关键词就 “分而治之” ,分就 想个大的问题 分成若干小问题去解决,最后在合并到一起。 类似与 算1到10的和 可以单独两个数进行运算,最后在合并到一起求和 。

2017-12-19 00:10:44 364

原创 (3) Hadoop-HDFS分布式文件系统

1. HDFS入门1.1 HDFS基本概念HDFS就是一个分布式文件系统,既然是文件系统就会有树形结构,既然是分布式就会涉及到集群的概念。所有文件系统都是用来存储数据的,而它的特点就是用来处理大数据和存储大数据。 1.2 HDFS解决的问题那些故障的检测和自动快速恢复 (一旦计算失败会恢复到曾经的状态从新计算)注重是数据高吞吐量 (吞吐量代表的是单位时间内处理的数据量) 可以用来存储大数据

2017-12-19 00:07:05 417

原创 MapReduce 原理深度剖析

一 . MapReduce 工作机制详解 1. MapTask工作机制2. ReduceTask工作机制3. Shuffle 机制Shuffle 就是从map的输出 到 Reduce阶段的输入 在这一过程中经历了OutPutCollection阶段的根据HashPartition的分区,到maptask阶段的缓存区的2:8划分 ,排序 ,Combiner的合并,当内存大于8的时候溢出到磁

2017-12-19 00:04:05 299

原创 (12) Hadoop 升级技能

NameNode 元数据管理 (重点)0. fsimage/editsedits 存储的是对HDFS操作记录 fsimage 存储的是hdfs上面文件信息 nameNode 存储的数据的元数据信息,datanode的节点状态,block块的状态 1. 元数据目录元素据目录所在/home/hadoop-2.7.4/tmp/dfs/name/current Hadoop

2017-12-19 00:02:41 300

原创 hadoop汇总

Hadoop流程框架数据采集分两种,1.web服务器日志信息采集(通过埋点手段);2. 使用Flume工具将数据落地到HDFS上面 数据预处理通过MR Storm Spark等计算框架将数据日志信息进行过清洗导入HIVE仓库清理后的数据导入到HIVE仓库中ETL 对数据进行分析、统计,生成对应报表导入mysql数据库利用sqoop数据导入mysql数据或者或者HIve等。数据展示利用ec

2017-12-18 23:56:36 267

原创 HIVE汇总

Beeline version 1.2.1 by Apache Hive beeline> ! connect jdbc:hive2://node-1:10000HIVE 优化 (重点别不当回事)方法一 通过设置 set hive.groupby.skewindata = false,可以解决负载均衡问题。底层原理不清楚。使其不安装key的hash取模的方式,使其随机发送到reduce。减小

2017-12-18 23:54:19 1348

原创 scala - 基础知识

1.def 定义的是一个方法,用下划线可以转换为方法 2.window 换行符是/r/n linux /n 《逐云》Scala 概述 2.11.8优雅,速度快,融合hadoop生态圈。未来或许会替代MR,个人认为不可能。最关键的就是 面向对象编程 和 面向函数编程 Windows 安装Scala编译器下载scala-2.11.8.msi后点击下一步就可以了。Linux安装Scala

2017-11-28 09:41:16 312

原创 (1) Hadoop-网站流量日志数据自定义采集

数据与业务结合当想到业务 与 数据结合 , 数据 与 业务结合 当看到业务的时候 必须要联想到对应的技术点—- 这才是学习大数据的核心内容科技带来的发展(1) 分布式系统分布式项目CDN 动态资源服务器 nginx 静态资源服务器 (2) 大数据分析系统1. Web访问日志日志是用来手机 用户浏览 点击 访问行为的数据 日志的收集 分两种形式WEB服务器 例如 Httpd,ngi

2017-10-30 20:13:15 3475

原创 (2) Hadoop-集群搭建 HDFS入门

1.Hadoop 介绍概述用java编写开源框架,允许使用简单的API在大量的 计算机集群上 针对 大型数据集 进行分布式处理 。 Hadoop 核心组建 (狭义)HDFS (分布式文件系统):针对海量数据的存储 YARN (作业调度,集群资源管理框架) : 解决资源任务调度,资源包括内存 CPU 磁盘。。 MAPREDUCE(分布式运算编程框架):解决海量数据的计算Hadoop 生态圈

2017-10-30 18:41:01 334

原创 基础加强 -zookeeper

Zookeeper1. 概述zookeeper是分布式协调服务,从本质上来说也是一个小型的分布式文件存储系统 ,有自己的树形目录结构,可以用来存储,监听,修改整个集群的状态。诸如统一命名服务、分布式配置管理、分布式消息队 列、分布式锁、分布式协调等功能。在dubbox集群中 作为dubbox服务的注册中心在solrcloud集群中作为 JAVA_OPTS=”-DzkHost=192.16

2017-10-29 13:56:28 334

原创 基础加强-vmware-linux-shell

Vmware 、Linux虚拟网卡概念一台电脑上面可能有一个或者多个网卡,当创建一台虚拟机的时候就会有自动创建20虚拟交换机,VMnet0、VMnet1、VMnet8三中交换机,分别对应VMWare三种网络模式,虚拟网桥(Bridge)、虚拟DHCP服务器、虚拟NAT服务器虚拟交换机概念虚拟交换机就相当于路由器,每个交换机(路由器),创建一个虚拟机的时候就会创建20虚拟机MAC地址是什么?

2017-10-29 13:53:28 311

原创 基础加强-Linux时间同步

时间同步 CentOs说明:由于大数据中,集群对时间要求很高,所以集群内主机要经常同步时间(包括时区的同步)。常用的手动进行时间的同步date -s “2017-03-03 03:03:03”或者网络同步:yum install ntpdatentpdate cn.pool.ntp.org还可以进行如下的设置:1、yum install ntp2、vi /etc/ntp.conf修改如下部分:

2017-10-28 16:43:35 483

原创 EditPlus 远程修改服务器的文本文件

我们可以使用 EditPlus 远程修改服务器的文本文件的内容,更加便捷(1)在菜单选择 FTP Settings(2)点击 ADD 按钮(3)输入服务器信息(4)点击高级选项按钮(5)选择 SFTP 端口 22(6)OK 。完成配置 连接

2017-10-20 18:22:41 2410

原创 Lucene-基础篇

LuceneLucene 介绍它是一个构建搜索引擎核心类库,solr搜索引擎就是基于它去构建的,主要用来创建索引,查询索引(多中方式去查询)Lucene 搜索过程 (有点乱)核心功能 创建索引 查询索引,基于海量数据的查询倒排索引 比如100M的文本数据,将多文本逐行去查询,先进行分词,然后在提取关键词,建立索引库文件,根据用户输入的关键词去索引库去查询比对Lucene 的依赖包<de

2017-10-16 21:05:54 813

原创 购物车逻辑实现 思路

购物车列表数据的存储判断当前用户是否登陆 (通过用户名字去判断)登陆 从redis中获取购物车列表 , 从cookie中获取购物车列表,两种购物车列表合并 通过商品ID , 商品数量,添加到购物车中 未登录 从cookie中获取购物车列表 将商品添加到购物车中 商品信息添加到购物车中通过购物车页面 封装pojo实体private String sellerId;//商家IDp

2017-10-16 16:41:03 13154

原创 网页静态化技术Freemarker

网页静态化技术Freemarker 整合spring容器介绍FreeMarker 是一个用 Java 语言编写的模板引擎,它基于模板来生成文本输出。解决了数据库负载问题,数据量大的文本内容等情况,同springdataredis是相辅相成的。 主要用到的场景有新闻的详情的文本内容,电商项目中的新闻详情页 小demo依赖包<dependency> <groupId>org.freemarke

2017-10-16 16:38:11 304

原创 单点登陆CAS

单点登录系统 CAS什么是单点登陆?单点登录(Single Sign On),简称为 SSO。一个项目通常有很多的子系统,在A子系统登陆后 无需在重复登陆B子系统 简称单点登陆。什么是 CASCAS Server 和 CAS Client。CAS Server 需要独立部署,CAS Client 负责处理对客户端受保护资源的访问请求,需要登 录时,重定向到 CAS Server CAS 服

2017-10-16 16:36:39 293

SQL语法总结(精华版).docx

mysql 语法总结(精华版) sdf s f 创建表 修改表 查询语句 语法优化

2019-10-21

Kylin 使用指南

这本书是我朋友推荐的希望大家看看,我也看过一小部分,对于部分公司来说的程序员来说可以使用,也可以作为面试指导工具

2018-07-24

统计学 贾俊平 第六版

涉及到统计学与机器学习相结合的部分对于新手来说是入门的最好选择

2018-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除