自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 python-爬虫

对于自动化办公而言,网络数据的批量获取完数据可以节约相当的时间,因此爬虫在自动化办公中占据了一个比较重要的位置。Requests简介Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。安装方法:pip install requests或者conda安装conda install requestsre.status_code 响应的HTTP状态码re.text 响应内容的字符串形式rs.co

2021-06-28 21:57:18 259 4

原创 文件自动化处理

文件自动化处理1.1 读写文件1.1.1 文件与文件路径1.1.2 当前工作目录1.1.3 路径操作1.1.3.1 绝对路径和相对路径1.1.3.2 路径操作1.1.3.3 路径有效性检查1.1.4 文件及文件夹操作1.1.4.1 用os.makedirs()创建新文件夹1.1.4.2 查看文件大小和文件夹内容1.1.6 文件读写过程1.1.6.1 用open()函数打开文件1.1.6.2 读取文件内容1.1.6.3 写入文件1.1.6.4 保存变量1.1 读写文件我们知道,程序运行时,可以用变量来保存

2021-06-16 22:02:55 428

原创 数据分析-学术前沿趋势分析三

数据分析-学术前沿趋势分析三简介数据处理正则表达式具体代码实现以及讲解简介该博客将继续对论文进行分析,这次是论文代码统计,统计所有论文出现代码的相关统计,使用正则表达式统计代码连接、⻚数和图表数据。数据处理正则表达式在进行数据处理之前,先对正则表达式进行介绍:正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。普通字符:大写和小写字母、所有数字、所有标点符号

2021-01-19 16:16:53 379 1

原创 数据分析-学术前沿趋势分析二

数据分析-学术前沿趋势分析二简介数据处理具体代码实现以及讲解数据读取数据统计简介该篇博客将会针对于上一篇博客继续进行分析,这次将对论文作者进行统计。还是用pandas进行练习,学习使用pandas读取数据并使用字符串操作。数据处理在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例子:C. Bal\\'azs, E. L. Berge

2021-01-16 20:33:40 334

原创 数据分析-学术前沿趋势分析一

数据分析-学术前沿趋势分析1 简介1.1 问题背景1.2 数据说明2 数据介绍3 具体代码实现3.1 导入相关package并读取原始数据3.2 数据预处理3.3 数据分析及可视化总结1 简介该博客将对于学术前沿论文做一些pandas操作。1.1 问题背景本篇博客是对于kaggle里面一个比赛为例子,比赛地址:https://www.kaggle.com/Cornell-University/arxiv,对使用公开的arxiv论文完成一些数据分析操作,实现具体的可视化分析。这篇博客统计2019年全年

2021-01-13 20:34:10 1120

原创 基于机器学习的文本分类

基于机器学习的文本分类机器学习模型文本表示方法 Part1One-hotBag of WordsN-gramTF-IDF基于机器学习的文本分类Count Vectors + RidgeClassifierTF-IDF + RidgeClassifier机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多种分支,对于学习者来说应该优先掌握机

2020-07-25 21:38:01 2220

原创 NLP实践(新闻文本分类)-数据读取与数据分析

数据读取与数据分析读取数据数据分析句子长度分析新闻类别分类字符分布统计统计出现频率最多的字符数据分析结论总结读取数据赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('train_set.csv', sep='\t', nrows=100)#这里的read_csv由三部分组成,第一个为路径,第二个为分割符,第三个为读取行数(这里训练集比较大,因此

2020-07-22 09:32:53 1187

原创 无人机简介与功能

无人机简介与功能无人机简介无人机功能无人机简介在聊无人机之前,先说一下航空器与航天器的区别。航空器:通过机身与空气的相对运动(不是由空气对地面发生的反作用)而获得空气动力升空飞行的飞行器航天器:地球大气层以外的宇宙空间中,基本按照天体力学的规律运动的飞行器卡门线:是公认的外太空与地球大气层的分界线,也是航空与航天的分界线,位于海拔100 km处。为表彰西奥多·冯·卡门对航空飞行的高度极限的探究,此线被命名为卡门线。补充:由于空气太过稀薄,飞行器难以在此高度产生足够支持航空飞行的升力(飞行器的速

2020-07-21 19:38:46 5279

原创 NLP实践(新闻文本分类)-赛题理解及思路

赛题理解及赛题思路赛题理解数据获取赛题思路赛题理解数据获取这次比赛是天池NLP入门级的比赛,操作和往常一样。先报名,再拿数据。注意一下标准。赛题思路由于赛题给出的数据是匿名化的,因此我们无法使用分词等操作提取关键词来简单预测,我们可以使用的是对文本提取特征的分类器或者是深度学习分类器,综合我们有如下思路:思路1:TF-IDF + 机器学习分类器:直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM、LR、或者XGBoost。思路2:FastTe

2020-07-20 22:16:20 712

原创 AI入门知识及资料整理

现在我们谈的人工智能大多数都是指的是机器学习,下面我就介绍一下关于机器学习等一些概念及学习路线。机器学习概念1.人工智能概念人工智能、机器学习与深度学习模式识别预测任务推荐算法分布式容错性协同过滤2.获取数据与特征工程数据集离散数据、连续数据特征、特征向量、样本、标签递归、迭代、并行PCA,降维分布、主题分布、⻓尾分布特征选择3.模型训练梯度下降表征学习监督学习和非监督学习BP神经网络过拟合,欠拟合1.人工智能概念人工智能、机器学习与深度学习1.人工智能网上关于人工智能的介绍的有很多说法,不过在《

2020-06-05 17:26:00 2328

原创 数据分析中的mysql高级

之前的文章介绍了sql的分类以及一些基础知识,本篇博客将介绍mysql里面函数和高级查询的用法。之前博客:传送门。mysql函数与查询1.函数1.1 单行函数1.2 聚合函数1.3 分组函数1.4 加密函数1.5 流程函数2.高级查询2.1 连接查询2.2 子查询2.3 联合查询3.总结1.函数1.1 单行函数数学函数 # 绝对值 abs() # 向上取整,最接近并且大于等于该值的整数值 ceiling()/ceil() # 向下取整,最接近并且小于等于该值的整数值 floo

2020-05-27 21:15:04 258

原创 数据分析中的mysql基础

引言:之前的博客对mysql的一些入门知识进行了讲解,该博客将对sql的四个分类进行讲解。之前博客地址:https://blog.csdn.net/weixin_45696161/article/details/106310108sql的分类1.DDL1.1 ddl操作1.1.1 数据库操作1.1.2 数据类型和表操作1.2 数据完整性1.2.1 实体完整性1.2.2 域完整性1.2.3 引用完整性1.3运算符1.3.1 算术运算符1.3.2 比较运算符1.3.3 逻辑运算符1.3.4 位运算符2.D

2020-05-25 13:43:16 1881

原创 数据分析中的mysql入门

数据分析中的mysql1.数据库和数据库管理系统1.1 数据库(DataBase)1.2 数据库管理系统(DBMS)1.3 数据库在数据分析中的作用和地位1.4 Mysql数据库管理系统1.5 Mysql数据库管理系统与数据库的关系2.sql初识2.1 什么是sql2.2 sql的分类1.数据库和数据库管理系统1.1 数据库(DataBase)按照数据结构存储数据的仓库1.2 数据库管理系统(DBMS)(Database Management System)是操纵和管理数据库的软件系统

2020-05-24 09:00:07 400

原创 数据读取与数据扩增

数据读取与数据扩增一.数据读取1.pillow1.opencv二.数据扩增方法1.数据扩增介绍2.数据扩增作用3.数据扩增方法4.数据扩增库三.Pytorch读取赛题数据上一篇博客对赛题的内容和思路进行了说明,该文章将【定长字符识别】思路来构建模型,逐步讲解赛题的解决方案和相应知识点。一.数据读取由于比赛数据是图像数据,赛题的任务是识别图像中的字符。因此我们首先需要完成对数据的读取操作,在Python中有很多库可以完成数据读取的操作,比较常见的有Pillow和OpenCV。1.pillowPill

2020-05-23 17:52:53 475

原创 零基础入门CV之街道字符识别—01

赛题理解和思路介绍赛题理解1.数据标签2.读取数据思路分析赛题理解赛题名称:零基础⼊入⻔门CV赛事- 街景字符编码识别赛题地址:????????????https://tianchi.aliyun.com/competition/entrance/531795/information一些注意事项和赛题数据见比赛官网,这里就不在过多累赘。1.数据标签对于训练数据每张图片将给出对于的编码标签,和具体的字符框的位置(训练集,测试集和验证集都给出字符位置),可用于模型训练:字符的坐标具体如下所示:

2020-05-20 13:52:38 395

原创 Django基础

Django基础简介MVT与MVC简介首先,什么是Django?Django是一个基于Python的Web应用框架。这里我把关于web框架的知识阐释一下,web框架(web framework)或者叫做web应用框架(web application framework),是用于进行web开发的一套软件架构。大多数的web框架提供了一套开发和部署网站的方式。为web的行为提供了一套支持支持的方法。使用web框架,很多的业务逻辑外的功能不需要自己再去完善,而是使用框架已有的功能就可以。关于web框架的

2020-05-09 23:23:28 269

原创 06-边缘检测

边缘检测简介算法理论介绍Sobel算子Canny边缘检测基于OpenCV的python实现Sobel算子Canny算法简介首先要知道什么是边缘,边缘是图像强度函数快速变化的地方。那么如何去检验边缘?为了检测边缘,我们需要检测图像中的不连续性,可以使用导数来检测不连续性。如上图所示,上图的第一幅图表示一张数字图片,我们对水平红线处进行求导,便可得到上图二中的关系,可以看到在边缘处有着较大的...

2020-05-01 17:48:56 341

原创 05-图像分割/二值化

图像分割/二值化简介算法理论介绍1.最大类间方差法(大津阈值法)2.自适应阈值基于OpenCV的python实现1.简单阈值2.自适应阈值简介图像阈值化分割是一种传统的最常用的图像分割方法,因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术。它特别适用于目标和背景占据不同灰度级范围的图像。它不仅可以极大的压缩数据量,而且也大大简化了分析和处理步骤,因此在很多情况下,...

2020-04-29 20:28:41 3866

原创 04-图像滤波

图像滤波一.简介二.算法理论介绍滤波分类均值滤波方框滤波(盒子滤波)高斯滤波三.基于Python-OpenCV的实现2D卷积(图像过滤)图像模糊(图像平滑)1.平均2.高斯模糊3.中位模糊(非线性滤波)4.双边滤波一.简介图像的实质是一种二维信号,滤波是信号处理中的一个重要概念。在图像处理中,滤波是一种非常常见的技术,它们的原理非常简单,但是其思想却十分值得借鉴,滤波是很多图像处理的前置步骤或...

2020-04-27 18:50:51 518

原创 03-颜色空间互转

颜色空间互转简介算法理论介绍颜色空间转换1.RGB与灰度图互转互转公式2.RGB与HSI互转HSI简介互转公式3.RGB与HSV互转HSV简介互转公式总结简介图像颜色空间互转在图像处理中应用非常广泛,而且很多算法只对灰度图有效;另外,相比RGB,其他颜色空间(比如HSV、HSI)更具可分离性和可操作性,所以很多图像算法需要将图像从RGB转为其他颜色空间,所以图像颜色互转是十分重要和关键的。算...

2020-04-25 19:32:21 633

原创 02-图像的几何变换

图像的几何变换一.简介二.算法理论介绍1.公式2.坐标系变换3.向前映射法和向后映射法向前映射法向后映射法4.插值三.基于OpenCV的python实现及效果展示平移旋转仿射变换透视变换一.简介几何空间变换是图像处理中的最基础的算法,几何变换的原理大多都是相似,只是变换矩阵不同,因此,我们以最常用的平移和旋转为例进行学习。在深度学习领域,我们常用平移、旋转、镜像等操作进行数据增广;在传统CV领...

2020-04-23 19:56:26 1303

原创 01-OpenCV框架与图像插值算法

OpenCV框架与图像插值算法文章目录OpenCV框架与图像插值算法一.简介二.算法理论介绍1.最近邻插值算法原理计算公式效果展示图2.双线性插值算法原理计算公式效果展示图3.映射方法向前映射法向后映射法三.基于opencv的python实现总结一.简介在图像处理中,平移变换、旋转变换以及放缩变换是一些基础且常用的操作。这些几何变换并不改变图象的象素值,只是在图象平面上进行象素的重新排列。在...

2020-04-20 10:54:26 1028 1

人工智能中的知识图谱.zip

工作中心已经转移到现在的知识图谱,最近找到了一个很新的综述报告,资源如下,先对知识图谱进行整体把握,再逐步对各个关键技术进行学习,并以图片的形式展示

2020-09-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除