自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 爬取商品网站重定向链接信息

有些商品网站点击购买后,网站自动跳转到其他商品界面,所以我们可以用如下方法实现真实的商品链接,进而获得实际商品的ID信息。在上述代码中获取页码的方法有很多种,现在最常用的是selenium框架来提取,也可以用我上面的自增方式,后者比较简单。网络不好的情况下会出现无法连接的问题,我们可以设置sleep值。实在不行重复RUN!在代码运行过程中,尽量每输出一段代码测试一遍,不然不知道BUG在哪儿。当然了,不要随便爬取某些大型网站,越爬越刑!

2024-02-28 15:26:00 386

原创 python获取商品信息

为你要爬取的网站的实际URL。此外,这个程序只会抓取商品名称和商品链接中的一部分内容,你需要根据实际情况修改这部分代码以获取你需要的所有信息。这个程序也假设了商品名称和部分链接会出现在相应的HTML元素中,实际情况可能会有所不同。在使用这个程序时,你需要确保你有权限爬取这些网站的内容,并且遵守网站的爬虫使用政策。在没有得到网站所有者许可的情况下,过度使用爬虫可能会导致你的IP地址被封禁。要注意,为了防止爬虫被网站封禁,你需要使用适当的代理或者设置合理的爬取频率。你需要替换上述代码中的。

2024-02-19 23:01:43 334

原创 python获取关键字

【代码】python获取关键字。

2024-02-19 22:56:52 340

转载 Scrapy爬虫

https://blog.csdn.net/ck784101777/article/details/104468780

2024-02-18 21:52:30 590

原创 批量下载图片

【代码】批量下载图片。

2024-02-18 14:45:12 311

原创 爬取房天下

【代码】爬取房天下。

2024-02-18 14:43:28 368

原创 获取小说工具

【代码】获取小说工具。

2024-02-18 14:41:59 317

原创 python写一个GUI小程序:Word和PDF互转。但是有中文乱码以及图片乱码问题,求大佬解决!

【代码】python写一个GUI小程序:Word和PDF互转。但是有中文乱码以及图片乱码问题,求大佬解决!

2024-01-11 22:40:39 349

原创 python爬取网页信息并保存为word文件

4、检查文档打开时的编码设置: 在使用 Microsoft Word 打开文件时,确保选择正确的编码选项。通常情况下,它会自动检测文件的编码。1、确保网页编码正确: 在获取网页内容时,指定正确的编码。例如,如果网页是以 UTF-8 编码,可以在请求时指定编码。2、BeautifulSoup 解析时指定编码: 在使用 BeautifulSoup 解析页面时,指定正确的编码。3、使用正确的编码保存文件: 确保在保存 Word 文档时使用正确的编码。这也是最常见的解决中文乱码的方式之一,请大家务必记住!

2024-01-09 22:33:04 796

原创 python实现多个PDF文件的合并,并转换为word,并消除水印。

意思是pdfFileMerger函数在pypdf包里不存在了,需要换为PdfMerger函数。

2024-01-09 21:02:07 361

原创 python项目-批量获取王者荣耀皮肤

1、首先,伪装用户代理访问要爬取的皮肤网站:鼠标点中一个皮肤后,鼠标右键选“检查”,选择“Network”,复制User-Agent后面的代码。我们的项目是获取所有英雄的皮肤,并且要把皮肤照片保存到各自英雄的文件夹中,文件夹以英雄名字命名,下载时间是每隔一秒下载一个。2、下一步,每个英雄皮肤有1到n个不等,所以我们需要遍历对应英雄的每个皮肤。尽量用chrome浏览器的xpath插件,没有的话应用商店下载一个即可。如果右键选检查后出现空白框则需要刷新。

2024-01-08 17:18:43 828 2

原创 python实现从文档里生成词云图

用到jieba和python-docx wordcloud matplotlib库。出现乱码,应该是中文乱码问题。检查发现第18行代码有问题。找想要的字体并复制路径。

2024-01-06 20:49:21 376

原创 python实现pdf转word,并且保留原有格式、消除水印。pdf2docx和pymupdf库。

请注意,消除水印可能是一个复杂的任务,具体的实现方式取决于水印的类型和嵌入方式。它会尝试尽可能地保留PDF中的格式和布局,并将多页PDF转换为多页Word文档。使用这个库,你可以轻松地将PDF文件中的内容提取并保存为Word文档,这在处理文档转换的应用场景中非常有用。库被用于创建Word文档,并通过遍历PDF页面将每一页的图像添加到Word文档中。这是一个方便的工具,特别是在需要将PDF内容转换为可编辑的Word文档时。是一个功能强大的PDF处理库,可用于各种任务,包括文本提取、图像提取、PDF渲染等。

2024-01-06 17:59:11 780

原创 python报错:ImportError: cannot import name ‘Self‘ from ‘typing_extensions‘

3、模块加入不会影响程序的运行不会报正式的错误,pycharm支持typing检查错误时会出现黄色警告。2、作为开发文档附加说明,方便使用者调用时传入和返回参数类型。1、类型检查,防止运行时出现参数、返回值类型不符。需要对typing_extensions版本升级。

2024-01-05 22:21:41 2605

原创 斜杠和反斜别傻傻分不清!

在 Python 中,斜杠 / 通常用作路径分隔符。例如,folder/subfolder/file.txt 表示文件在名为 subfolder 的文件夹中的 file.txt。反斜杠 \ 在 Windows 环境下也可以用作路径分隔符,但在 Python 中,使用斜杠是跨平台的习惯做法。如果你遇到路径相关的问题,可以考虑使用原始字符串(在字符串前加。),这样可以避免反斜杠被视为转义字符。

2024-01-05 22:03:02 318

原创 python实现word转换PDF

python-docx 来读取 Word 文档内容,并使用 reportlab 来创建 PDF 文件。请确保替换代码中的输入和输出文件路径为你实际的文件路径。这个简单的示例逐行将每个段落的文本添加到 PDF 文件,适用于基本的文本内容。如果有更复杂的格式、图像或表格,可能需要更多的处理。

2024-01-05 21:59:15 1271 2

转载 linux 内核接口atomic_long_try_cmpxchg_acquire/release详解

12。

2023-11-27 13:05:21 79

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除