自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

晴空

仰望星空,脚踏实地

  • 博客(270)
  • 收藏
  • 关注

原创 【huggingface transformers笔记】基于Bert的中文电商文本分类

基于Bert的中文电商文本分类

2022-10-31 00:12:39 596 1

原创 python逐行读取文件

最近在看迭代器与生成器,记录一点读取大文件的脚本:读取的文件有1.16G# -*- coding: utf-8 -*-"""读取一个大文件,简单统计有多少行记录@Time : 2022/5/29 16:04@Auth : Eve@File :read_big_data.py@IDE :PyCharm"""import timet1 = time.time()cnt = 0with open(r'D:\frequencepy\itertools\thisisbigdata.txt'

2022-05-29 17:48:22 1637

原创 使用CNN进行CIFAR-10图像分类-基于keras

比较了三种训练效果,加深网络的层数带来的效果提升是显著的。# -*- coding: utf-8 -*-"""@Time : 2022/4/6 22:22@Auth : Eve@File :CIFAR-10.py@IDE :PyCharm"""import numpy as npimport pandas as pdimport tensorflow as tffrom tensorflow.keras import datasets, layers, models, optimize

2022-04-13 22:26:30 998

原创 python多进程实现jieba分词

使用多进程提升python的效率是非常有用的,抽时间来学习下。说明:1、使用python multiprocessing模块下的Pool具体用法参考官方文档:https://docs.python.org/zh-cn/3/library/multiprocessing.html2、思路是将dataframe拆成小块喂入pool中,由于参数是多个,用到了functools下的partial,具体意义可以参考网上资料3、数据集来自今日头条公开的新闻数据集(约38W条数据)代码如下(文件路径隐去):

2022-04-07 21:53:38 874

原创 使用keras进行简单网络训练

代码参考书籍《深度学习实战:基于Tensorflow2和Keras(原书第2版)》分别尝试了简单神经网络搭建、增加网络深度(层数)、使用dropout方式训练三种方法。1、不使用隐藏层的简单神经网络# -*- coding: utf-8 -*-"""不使用隐藏层的简单神经网络@Time : 2022/3/22 23:10@Auth : Eve@File :01.py@IDE :PyCharm"""import tensorflow as tfimport numpy as npfr

2022-04-04 11:11:30 2167

原创 fasttext进行短文本分类实战(今日头条数据集)

1、数据清洗# -*- coding: utf-8 -*-# @Time : 2021/7/13 12:57# @Author : Li Daji# @File : text_cleaner.pyfrom types import MethodType, FunctionTypeimport jieba# 导入用于繁体/简体转换的包from langconv import *def clean_txt(raw): fil = re.compile(r"[^0-

2021-11-06 19:35:02 3270 4

原创 sklearn笔记整理——(六)支持向量机(SVM)

SVM官网说明:https://scikit-learn.org/stable/modules/svm.html文章目录算法概述算法原理优势与劣势评价标准参数与接口案例代码算法概述支持向量机是机器学习中关注最多的算法之一,也是被实践证明了的强大的算法。有着完美的数学推导,并且在分类(线性分类、二分类、多分类)与回归、聚类、半监督学习方面都有应用。算法原理关于支持向量机的推导,网络与教材中都有很多介绍。这里推荐:1、周志华《机器学习》第六章2、浙大研究生课程相关理论推导部分。(强推浙大视频,数

2021-08-11 18:00:53 352

原创 sklearn笔记整理——(五)逻辑回归(Logistic Regression)

线性回归官网说明:https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression逻辑回归(对数几率回归)也在线性回归部分。目录算法原理优势与劣势评价标准参数与接口算法原理逻辑回归主要被应用在金融领域,其数学目的是求解能够让模型对数据拟合程度最高的参数θ的值(让损失函数最小的参数θ取值,损失函数使用极大似然函数推导),以此构建预测函数y(x),然后将特征矩阵输入预测函数来计算出逻辑回归的结果y。返回的y有着概

2021-07-26 11:21:45 555

原创 python可视化——激情学习pyecharts

echarts酷炫强大,3年前就已听闻,很遗憾后来一直没有深入学习,作图水平始终停留在excel阶段= =。后来学习了python,学习了matplotlib绘图,有一说一,matplotlib很方便,很多统计学的图表,但是画出来的图总觉得缺少(那么一丢丢)美感。直到最近梳理数据分析的技能框架,才发现pyecharts强大又好用~而且连说明文档都有中文版的!(国人开发的)实在是太友好了~于是激情学习一波绘图,这里存放学习资料:1、pyecharts使用(配置)说明https://pyecharts.o

2021-07-24 18:15:16 330 2

原创 sklearn笔记整理——(四)线性回归(linear regression)

线性回归官网说明:https://scikit-learn.org/stable/modules/linear_model.html算法原理最小二乘法:通过最小化真实值与预测值之间的RSS(残差平方和)来求解参数的方法叫做最小二乘法。推导过程参见菜菜《线性回归大家族》。优势与劣势线性回归是托生于传统统计学的方法,比较成熟。由推导过程可知,逆矩阵存在的充分必要条件是特征矩阵不存在多重共线性。多重共线问题是线性回归需要重点考虑的问题。在统计学中,使用最小二乘法来求解线性回归的方法是一种“无偏估计”的

2021-07-22 17:11:41 3145

原创 sklearn笔记整理——(三)随机森林(random forest)

随机森林官网说明:https://scikit-learn.org/stable/modules/ensemble.html#forests-of-randomized-trees算法原理随机森林属于集成算法的一种,基于bagging集成算法。所有基评估器都是决策树。sklearn中随机森林包括随机森林分类与随机森林回归。另外官网也提供了超树(ExtraTreesClassifier)等接口,并且从案例来看,拟合效果也很优越。超树比随机森林还要随机,优势与劣势一般来说,随机森林的效果要好于单棵决策

2021-07-20 22:20:51 1555

原创 sklearn笔记整理——(二)决策树(decision tree)

决策树官网说明:https://scikit-learn.org/stable/modules/tree.html算法原理将分类(回归)问题考虑成一棵树成长的过程,将特征作为节点,寻找最佳节点与最佳分支,并且防止过拟合。决策树(DTs)是一种用于分类和回归的非参数监督学习方法。其目标是通过学习从数据特征中推断出的简单决策规则,创建一个预测目标变量值的模型。树可以看作是一个分段常数近似。决策树学习的关键是如何选择最优划分属性。我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越

2021-07-20 15:08:35 455 1

原创 sklearn笔记整理——(一)参考资料

阅读官网说明是最好的学习方式。sklearn官网:https://scikit-learn.org/stable/index.html官网介绍算法大致为综述、优势及劣势、案例,接口、参数说明等。尤其是参数说明,用的时候翻一翻,简单明了。a、书:用的书是周志华老师的《机器学习》(其实李航的《统计学习方法》可能更加友好一些。)、张学工编著的《模式识别》(这本书是研究生课程用书,似乎不是主流机器学习用书,但是讲解也很清楚。)b、课程:浙江大学-浙江大学-研究生机器学习课程-

2021-07-20 11:45:28 297

翻译 numpy/pandas 10min了解pandas

目录前言jupyter自动补全代码10min了解pandas创建对象粗略查看数据查询数据按标签(索引、列名)查找按位置查找(输入数字)布尔索引查找赋值操作缺失值处理运算统计分析Apply直方图统计字符串方法merge与concat前言查看官方文档是最有效的学习方法:https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html#selection这里仅贴出‘10min了解pandas’的相关内容,作为复习巩固来使用。有一说一,nu

2021-06-26 18:21:18 175

翻译 MySQL非聚合函数窗口函数用法(8.0+版本)

mysql非聚合函数的窗口函数用法,翻译自mysql官方参考手册英文版。

2021-06-24 17:11:06 882

翻译 MySQL窗口函数定义、用法(8.0+版本)

根据mysql使用手册,整理窗口函数的定义、用法、最新变动。方便日后使用快速查找。

2021-06-24 10:45:15 1006

原创 matlab图像识别处理代码——线性变换/滤波过滤/逻辑运算/边缘检测

数字图像识别这门课结束,留存下最终作业的代码。感觉matlab的语法确实不是很友好,其实有些在python里面写也是可以的呀~逻辑运算:题目:用程序设计语言编程画出下图中的S、T。图像R、Q是由图像S和T的逻辑运算得到,请编码实现之。%S:x1(65:192,65:192) = uint8(0);x1(1:64,1:256) = uint8(255);x1(193:256,1:256) = uint8(255);x1(65:192,1:64) = uint8(255);x1(65:192,

2021-04-11 20:54:54 1108

原创 python数据分析项目——【国家统计局】学历分布/CPI/金融行业学历分布

数据来源:从国家统计局上获得的数据,有部分数据进行了调整。其中学历分布、金融行业学历分布基于第6次人口普查结果(2010)年,CPI趋势为截止2021.3.1之前最近18个月。文中使用到的数据:链接: https://pan.baidu.com/s/1tAlniahVYyi4Bmp-YQJw_w提取码: 2x4v分析目的:根据统计局公布数据,进行可视化展示查看受教育程度分布情况,CPI变动走势情况,金融行业学历分布等分析。一、学历分布#数据来源:http://www.stats.gov.cn

2021-04-03 22:08:15 2577 3

原创 python数据处理常用语法示例-(pandas)

算是总结下pandas,numpy的一些基本、实用使用语法,基于一个学生信息表的样例数据。文章结构为jupyter代码+返回截图。导入包:import numpy as npimport pandas as pd from pandas import Series,DataFrame使用字典方式创建dataframe对象:#创建班级,学生,兴趣爱好,考试科目,学号,考试成绩的表studentdata = pd.DataFrame({'姓名':['alici','bob','cindy','

2021-03-30 22:43:15 567

原创 python可视化总结(官方教程)——2饼图

import matplotlib.pyplot as plt# Pie chart, where the slices will be ordered and plotted counter-clockwise:labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'sizes = [15, 30, 45, 10]#explode为偏移explode = (0, 0.1, 0, 0) # only "explode" the 2nd slice (i.e. 'Hogs

2021-03-13 16:56:47 169

原创 python可视化总结(官方教程)——1条形图

import matplotlibimport matplotlib.pyplot as pltimport numpy as nplabels = ['G1', 'G2', 'G3', 'G4', 'G5']men_means = [20, 34, 30, 35, 27]women_means = [25, 32, 34, 20, 25]x = np.arange(len(labels)) # the label locationswidth = 0.35 # the width

2021-03-13 16:22:37 135 1

原创 python可视化总结(官方教程)——2种基本画法

上面这张图涵盖了大部分信息。画法1(OO风格)import matplotlib.pyplot as pltimport numpy as npx = np.linspace(0, 2, 10)# Note that even in the OO-style, we use `.pyplot.figure` to create the figure.fig, ax = plt.subplots() # Create a figure and an axes.ax.plot(x, x, l.

2021-03-13 14:40:11 81

原创 Mysql安装记录(无坑亲测有效版)

前言:周一的时候在新电脑上装mysql,太坑了,那台电脑是先装了navicat(似乎之前没有装mysql?),无法创建本地连接,就考虑重新装mysql,修改本地连接的密码。网上教程也很多,但不得不说每个电脑装起来都无法按照教程那么顺利,在此记录下安装过程,另外也记录下在每一步(如果有)什么坑。一、mysql安装(1)从官网下载软件包https://dev.mysql.com/downloads/mysql/我的电脑是64位的,下载的是这一版。小坑:关于文件的存放路径,看了一些博客说使用英文路径

2020-11-29 11:06:35 162

原创 mysql存储过程/函数编写

mysql创建存储过程与函数类似,区别是存储过程没有返回值,函数必须有返回值资料:1、mysql之自定义函数内容:介绍函数的定义、样例等测试代码CREATE DEFINER=`root`@`localhost` FUNCTION `myselect5`(name varchar(15)) RETURNS intbegin declare c int; select id from c_nav where fp =name into c; return c;end

2020-11-05 20:41:38 327

原创 【MOOC学习笔记】数据挖掘——不推荐

中央财经大学的数据挖掘课程,没有特别期待能够讲多深,至少要了解数据挖掘这块的基础。算入门了。由于课程看得比较快,记录思维导图比较方便。学习时间:2020.10.27第一单元:介绍了数据挖掘的基础概念。...

2020-10-28 00:38:14 181

原创 【网络学习笔记】python数据分析笔记

目前的计划是10.25 - 11.25 一个月的时间学完这套课程。可能完不成,因为中间有概率统计的知识,差不多忘光了,需要再看数学消化消化。说明:这套课程是使用python语言进行数据分析,目前已有python基础,python的面向对象内容在学习中,虽然还没写大的项目,但基本能看懂了。有爬虫的底子(老实说爬虫真的很烦,之所以想搞数据分析不想搞爬虫,感觉爬虫就是工具人= =)推荐指数:☆☆☆☆☆课程名:【python教程】数据分析——numpy、pandas、matplotlib链接:https:

2020-10-25 18:20:27 184

原创 Mysql慢查询调优记录

1、使用set profiling方法语句:#profiling状态默认为0,先打开set profiling = 1#执行SQL语句#此处省略代码#执行profile查询show profiles#根据ID查询show profile for query 56查询的结果如下:选中ID查询:2、使用explain方法这个方法可以帮助定位到查询执行过程中使用索引的情况,很有用使用方法就是把关键字explain放在要执行的语句前面即可:可以清晰看到查询执行中的情况

2020-10-23 20:27:46 85

原创 mysql关于查询的语句及文章汇总

mysql与oracle还是有些不一样的,有必要对于mysql的一些查询(或常用查询、容易踩的坑做个备注),持续更新,分为两块:1、官方网站2、收藏文章链接 :主要是汇总的一些文章3、查询留存:按查询功能分大类,包括文章和查询示例一、官方网站MySQL 5.1中文文档https://www.mysqlzh.com/PS:没事多翻翻,虽然感觉不全,但是有些很基础的东西还是蛮有用的三方网站:W3Cschool的sql教程SQL 教程https://www.w3school.com.cn/s

2020-07-05 23:31:42 280

原创 数据库汇总梳理

今天终于把MySQL装上了,从安装到建表、查询完整地梳理下,不断更新。1、MySQL的安装这个教程写的比较详细,按这个安装应该没什么问题。不过要提前安装一个Navicat,这个文章中也有写到。PS:我的下载下来没有data文件夹,要自己手动创建(一个空白的data文件夹)超详细的MySQL8.0.20安装教程及其安装问题处理2、创建数据库在连接建立好之后,就可以创建数据库了。这一步没什么问题。3、创建数据表选中数据库,右键打开命令列界面,就可以写命令啦~贴一段创建的学生表(每一行前导-&g

2020-06-14 21:19:47 396

原创 【网络学习笔记】Excel数据分析实战项目—淘宝用户画像

一下午+晚上,刷完了第二个课程。推荐指数:☆☆☆课程名:项目实战:用excel如何实现淘宝用户画像数据分析应用链接:https://www.bilibili.com/video/BV1c64y1M7ph?from=search&seid=4242111463585738627tips:这个课程是基于Excel做了一个对于电商用户的数据分析。主要内容为:拿到原始数据->原始数据处理->使用函数对于数据做汇总、提取、筛选、sumif,countif等->数据透视图、透视表、切

2020-06-02 23:05:58 2522 2

原创 【网络学习笔记】Excel数据分析图表课程

考研告一段落~虽然没能如愿去自己想去的学校(甚至没能如愿待在江苏学校,吐血),调剂了一所普通双非的非全【计算机真的人太太太太多= =】,但,也是一个新的开始。未来读研计划的方向是数据分析、大数据、机器学习、数据处理之类的(总之就是跟数据打交道),这几天一边佛系找工作,一边再学习数据分析的相关技能:Excel+Python数据分析,开搞!这个系列将总结自己从B站或者中国大学mooc上等学到的比较好的数据分析的课程,再写一些学习笔记,算是留个爪~今天介绍第一个课程。课程名:25堂课,零基础教你做出高逼格的

2020-05-29 17:26:55 665

转载 C语言左右对齐、占位

%d 十进制有符号整数%u 十进制无符号整数%f 浮点数%s 字符串%c 单个字符%p 指针的值%e 指数形式的浮点数%x, %X 无符号以十六进制表示的整数%0 无符号以八进制表示的整数%g 自动选择合适的表示法1.左对齐方式1printf("%d\n",101010);默认打印格式为左对齐;方式2printf("%-10d\n",101010...

2020-03-27 08:20:45 8601

原创 (算法练习)蓝桥杯——小明对数位中含有 2、0、1、9 的数字很感兴趣

要求:https://www.dotcpp.com/oj/contest2325_problem16.html感觉蓝桥杯的代码比较难AC,处处有坑= =不过这一题算比较简单了~AC代码:#include <stdio.h>#include <string>#include <iostream>#include <sstream>us...

2020-03-24 11:21:29 5499

原创 (算法练习)蓝桥杯——冰雹数

要求:https://www.dotcpp.com/oj/contest2325_problem7.html这一题真的太坑了!!首先理解错了题目意思,不超过,不超过!也就是事实上要从1开始数到<N,得到最大的那个数——那么问题就来了,时间复杂度受不了呀= =网上找到有人用递归做的,感觉递归也不是最好的办法,数字大了肯定会爆栈,这一题应该是考怎么优化这些算法的想的是分成大小数来讨论,但...

2020-03-23 12:00:01 342

原创 (算法练习)蓝桥杯——小明希望用星号拼凑,打印出一个大X

要求:https://www.dotcpp.com/oj/contest2325_problem4.html这一题主要是记录下这种hash表的用法,感觉找到了这种打印图形的题目新的方法~AC代码#include <stdio.h>int main(){ int m,n; scanf("%d %d",&m,&n); bool num[n][n+m-1];...

2020-03-22 22:46:45 432

原创 (算法练习)蓝桥杯——X星球居民小区的楼房全是一样的

要求:https://www.dotcpp.com/oj/contest2325_problem3.html这题暂未AC,存个代码,有时间再来看看哪里的问题= =#include <stdio.h>#include <math.h>#include <algorithm>using namespace std;int main(){ int w...

2020-03-22 21:50:37 395

原创 (算法练习)蓝桥杯——饮料换购

记录这一题,实在是看起来简单,但提交了N次才完全正确= =要求:https://www.dotcpp.com/oj/contest2325_problem1.html一开始想着分类讨论,实际上不用分类讨论,每一次瓶盖数都是变化的,不需要另外的变量记录上一次剩的瓶盖。。AC代码:#include <stdio.h>#include <math.h>int ma...

2020-03-22 17:46:44 364

原创 (算法练习)——问题 1127: [C语言训练]尼科彻斯定理

要求:https://www.dotcpp.com/oj/problem1127.html比较基础的题了,而且没有为难你AC代码:#include <stdio.h>#include <iostream>#include <string>#include <math.h>using namespace std;int main()...

2020-03-20 12:11:10 237

原创 string的大小写转换

之前也做了一些大小写转换的题,但没好好总结,现在小小说明下~主要是C++头文件algorithm下的transform调用(algorithm真是个小宝库~)transform(str.begin(),str.end(),str.begin(),::toupper);三个参数分别为:字符串起始、字符串结束、字符串返回值存储的位置、大小写代码如下:#include <stdio.h&...

2020-03-19 13:13:49 3527

原创 用python解决汉诺塔问题

不得不说,python对于大整数的运算真的太方便了!(不用绞尽脑汁去搞大整数的输出= =)汉诺塔的原理就是递归,百度都能找到资料,这里直接放代码https://www.dotcpp.com/oj/problem1109.htmlAC代码(比C慢、内存耗大)# -*- coding: utf-8 -*-def h(x): if x==1: return 2 ...

2020-03-18 12:31:23 354

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除