自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (1)
  • 问答 (6)
  • 收藏
  • 关注

原创 避免检测:安卓模拟器/安卓虚拟机/root环境

使用隐藏 Root 的应用:有一些应用,如 “Hide My Root” 或 “Root Hide (SU Hide)”,可以帮助你隐藏 Root 状态。使用 Magisk:Magisk 是一个流行的 Android Root 解决方案,它具有一个名为 “Magisk Hide” 的功能,可以隐藏 Root 状态,使应用无法检测到 Root 权限。请注意,随着应用安全技术的发展,它们可能会采用更先进的方法来检测 Root。然而,需要注意的是,随着安全技术的发展,应用可能会采用更先进的方法来检测虚拟机。

2023-07-03 20:11:26 18664 5

原创 python-docx:将excel爬取题库转化为word格式便于浏览

新的改变代码实例。

2023-07-03 14:46:28 915

原创 正则匹配提取文档各级标题--标题提取

从政府报告等文档中直接提取标题复制到xmind思维导图中。exec内的赋值是局部变量。修改list勾选标题格式。中文标点需要单独转码匹配。

2023-05-18 17:14:37 424

原创 年报文本分析:jieba词频统计

目录添词、计数特定章节选取添词、计数import osimport reimport timeimport mathimport openpyxlimport fitzimport jiebaimport jieba.analysefrom collections import Counter'''使用Python操作PDF:常用PDF库总结 - 知乎https://zhuanlan.zhihu.com/p/352722932'''def pdr_reader(file):

2022-05-18 13:38:01 1720

原创 re正则:匹配、定位、替换、提取

目录re说明re.compilere.matchre.findre说明re.compilere.matchre.find

2022-05-04 10:32:26 381

原创 Beautiful paper(updating.....)

CONTENTSkillToolSkill配色Toollatexmarkdown

2022-05-03 17:18:19 104

原创 python封装类:博客目录索引

目录标题表格处理表格处理(79条消息) Python封装类:openpyxl文件对象操作封装_无敌的前任的博客-CSDN博客

2022-05-03 10:23:48 580

原创 Python封装类:openpyxl文件对象操作封装

目录标题xlsx对象xlsx对象import osimport reimport timeimport mathimport openpyxl```class xlsx(object): def __init__(self, file): if os.path.splitext(file)[1]=='.xlsx': self.name = file self.wb = openpyxl.load_workbook(file

2022-05-03 10:21:50 548

原创 用try-else语句检测pdf损坏文件异常并重新下载

目录标题说明检测代码重新下载代码说明先用notepad++写ansi编码的bat文件创建好损坏文件的下载目录用python下载pdf容易受到网络等环境干扰导致文件损坏检测代码import osimport reimport timeimport mathimport openpyxlimport fitzrow=0order=0mywb = openpyxl.Workbook()mysheet = mywb.activeinput=r'G:\年报'for i in range

2022-04-20 08:46:32 1042

原创 python批量下载年报(反爬虫应对版)

from win32com.client import Dispatch#pip install win32compat#pip install pywin32from fake_useragent import UserAgentimport osimport reimport openpyxlimport randomimport requestsimport urllib.requestimport timedef download(url, downpath,filename,

2022-04-17 22:40:11 1171

原创 python批量下载巨潮PDF年报

目录标题背景代码块背景(70条消息) 迅雷API批量下载巨潮年报_无敌的前任的博客-CSDN博客代码块from win32com.client import Dispatch#pip install win32compat#pip install pywin32import osimport reimport openpyxlimport requestsimport urllib.requestimport timedef download(url, downpath,filen

2022-04-16 20:03:01 3294

原创 迅雷API批量下载巨潮年报

目录说明代码说明下载路径分开保存的一种方法:如何使用python批量下载-用Python调用迅雷实现后台批量下载还是要手动确认保存感觉有点不够方便代码from win32com.client import Dispatch#pip install win32compat#pip install pywin32import osimport reimport openpyxlimport timedef xunlei(url, downpath,filename): #运行之前

2022-04-14 12:20:16 1836

原创 用python修复RIS关键字格式供vosviewer做文献分析

目录标题文献分析应用背景代码实现文献分析应用背景(60条消息) 如何用VOSviewer分析CNKI数据?_nkwshuyi的博客-CSDN博客(60条消息) 如何用VOSviewer分析CNKI关键词共现?_nkwshuyi的博客-CSDN博客代码实现import reimport osinput= r'E:\Alark\Desktop'os.chdir(input)file='RISsample.txt'output="RIS参考文献.txt"if output in set(o

2022-03-23 15:14:09 741

原创 python文件处理日志

python日志:去掉noteexpress导出参考文献题录的空格

2022-01-13 13:44:39 217

原创 python日志:去掉noteexpress导出参考文献题录的空格

目录知识点回顾源代码知识点回顾txt文件的打开、读取、写入、编码参数re.sub替换,本次不需要正则匹配源代码import reimport osinput= r'E:\Alark\Users\Desktop'os.chdir(input)file='3434.txt'output="参考文献.txt"if output in set(os.listdir()): os.remove(output)f=open(file, 'r',encoding='utf-8')#wit

2022-01-13 13:42:21 1085

原创 正则匹配:用Python将复制到txt中的stata结果保存到Excel中

待解决的问题1、re.match,re.findall 不可用2、迭代变量第二次循环没有被执行import osimport openpyxlimport reinput= r'D:\Users\Desktop'os.chdir(input)output='表单.xlsx'if output in set(os.listdir()): os.remove(output)file='新建文本文档.txt'f=open(file,'r')mybook = openpyxl.Wor

2022-01-04 00:26:07 596

原创 Python:使用wps缓存值保存excel公式值

data_only==True 返回None值由于excel公式计算规则复杂,因而第三方无法独立计算公式生成的值,需要有缓存数据,这之前需要用excel或者wps等软件打开再保存会有缓存值。安装pywin32调用wps报错,安装调用excel更好一些,然而运行时打开的文件在wps中闪现似乎匪夷所思。import osimport openpyxlimport refrom win32com.client import Dispatchdef just_open(filename):#解决值丢

2021-12-24 19:19:49 875

原创 uibot小作业:检测并输出在科创板审核网站无法搜索到有关公司的证券简称

目录知识点代码块知识点1、txt文件读取,分行遍历2、浏览器调用3、JS调用:获取对象及其文本Tips:console测试JS;源代码中不含动态元素;代码块function(){x=document.getElementById("zeroRecordDiv_stock_list")if (x!=null){return x.textContent}else{return null}}//sRet = File.Read('''C:\Users\huang\Desktop\搜索

2021-12-19 23:23:46 137

原创 UIbot学习笔记:通过分隔符拆解实现按行读取txt文件

Dim sRet//sRet = File.Read('''C:\Users\huang\Desktop\搜索关键字.txt''',"utf-8")Function file_readline(path,nline,sCharset='utf-8') Try Dim sText= File.Read(path,sCharset) dim arrText = Split(sText,"\n") Dim nLines = UBound(arrText

2021-12-19 14:48:33 1042

原创 (连载)用python在excel中对财务报表项目进行提取和计算

目录作者的话代码示例作者的话基本思路:用name代表科目名称,后面贴一个数字代表不同年份,因为需要截取的数据不同,后缀的年份长度有变化。exec()语句不同于宏定义,在自定义函数内使用会报错,所以这里只用了一个循环语句。反思:这里提交的代码是半成品,没有准确和完整实现要求,但是基本方法成型;我觉得需要人工浏览并且修改和统一每一张报表的格式便于代码操作,这是不可省略的努力,否则代码的错误只会使人更加心疲。代码示例import osimport openpyxlimport reinput=

2021-12-14 11:35:41 2303

原创 (连载1.2)招股说明书提取报表的可行方法

目录背景说明代码实现背景说明承接上一篇用直接从pdf提取的论文,运行后发现pdf文件处理时间过长且有些文件提取错误。各公司文本内容形式和文件格式的可转化性各不相同,同一代码外推适用性较差。改进思路:用acrobat的pdf格式转换是最佳选择。结合使用按键精灵脚本,依次用home,end,pageup,pagedown作为快捷键调用,每个pdf分五六步人工半自动操作对报表部分进行页面提取单独保存。运用按键精灵全自动操作讲pdf通过acrobat转化为word文档。对word文档进行代码转换的效率比较

2021-12-13 08:43:18 691

原创 (连载1.1)从招股说明书pdf文件中批量提取财务报表数据

这里写自定义目录标题背景说明阅读代码时注意点背景说明本文选取的是当前日期上交所科创板所有的上市公司样本。用八爪鱼从上交所公告页面爬取公告下载链接,使用迅雷批量下载。阅读代码时注意点流程思路:1、通过文本识别锁定报表页码区间。2、提取该区间所有表格保存在sheet表中。3、继续依靠表尾文本识别,分割sheet表保存到三个表页中。注意点:1、由于同一张报表跨页所以含“项目”的表头出现了不止一次,通过条件筛选直接跳过这一行的输出。2、PyPDF2对中文支持不好,所以选用了pdfplumber

2021-12-11 12:39:49 2041

原创 按键精灵入门指引——应用导向学习

这里写自定义目录标题基本方法:新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入基本方法:你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章

2020-09-20 14:50:30 1777

原创 能够避免各种麻烦的网络账户管理方法

有价值的账户我们的用的账户有很多,但总的来说,有价值的账户主要有4类:1、与户籍、学籍等重要信息认证有关的账户,例如学信网、政府服务网、省教育考试网报名账户等,此类账户通常可以和身份证绑定。2、开通了各种付费资源的账户3、存有大量文稿资料等经营过的账户4、加了很多好友的账号多账号管理有一句话叫别把所有鸡蛋都放在一个篮子里,但是就账号管理来说,最好把所有付费资源和个人编辑整理的资料放在一个主要账号中便于管理。因为账号混乱带来的资源丢失远比黑客盗号更容易发生。手机、微信、QQ、微博绑定当前生态

2020-06-05 21:38:15 251

原创 汽车排产问题单线生产最短时间

关于汽车排产问题一般汽车排产问题总是被作为动态规划的简单例子,然而这只是考虑一个产品生产的最短路径问题,当大量产品需要在最短时间内生产出来的时候,需要把所有的(哪怕是低效的)产能全部调用起来,此时很难在每个产品进入流水线的每个环节都作出最优选择,不过最短路径作为判别标准,仍然可以作为一种可行的方案。多种结果之间只有进行比较才能判定效率的高低。其中,单线生产作为特殊情况,所需时间可以作为比较的参照...

2020-02-09 15:06:25 1405

原创 PDF转化经验之谈

有没有多快好省的pdf转word解决方案?

2020-01-13 15:38:31 377

原创 (连载0.2)加强版Python提取上市公司年报报告中财务报表

新的改变我的开篇博客给出了需要更多手动操作的简化版:续篇的重要改进主要有:采用了函数的形式,便于参数的输入以及反复调用;考虑到不同公司财务报表第一行标题的差异,建立了一个集合用于判断;新的改变在之后的文章里,将会上传提供一系列财务分析指标,企业估值,资本成本计算等一站式服务的Excel模板以及相应数据录入和处理的代码。"""TabFromDocx上市公司财务报表提取"""imp...

2020-01-08 23:47:41 6465 6

原创 (连载0.1)实践报告:在深度系统用Python3对上市公司年度报告财务报表进行提取

一些必要的前期工作上市公司的年度报告在证交所网页下载pdf(厉害的同学可以尝试使用爬虫)使用Acrobat R``eader DC进行pdf格式转化(在Windows虚拟机环境下)打开word(Ctrl+H查询命令定位“合并资产负债表”,Ctrl+Shift+Home选中删除前面部分,Ctrl+Shift+End选中后面部分Delete删除)安装docx、openpyxl模块运行代码s...

2020-01-04 19:33:59 2734

Q语言实战(示例1)

Q语言是在VBScript的基础上发展起来,专用于按键精灵系列产品(包括但不限于按键精灵、按键小精灵、简单游等)的一种易学易用、功能强大的脚本语言。Q语言以VBScript为基础,去掉了少量不重要的功能,且增加了很多更易于使用,更符合国情的新功能。

2020-09-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除