Taurus.W_-CSDN博客

原创爬取商品网站重定向链接信息

有些商品网站点击购买后，网站自动跳转到其他商品界面，所以我们可以用如下方法实现真实的商品链接，进而获得实际商品的ID信息。在上述代码中获取页码的方法有很多种，现在最常用的是selenium框架来提取，也可以用我上面的自增方式，后者比较简单。网络不好的情况下会出现无法连接的问题，我们可以设置sleep值。实在不行重复RUN！在代码运行过程中，尽量每输出一段代码测试一遍，不然不知道BUG在哪儿。当然了，不要随便爬取某些大型网站，越爬越刑！

2024-02-28 15:26:00 386

原创 python获取商品信息

为你要爬取的网站的实际URL。此外，这个程序只会抓取商品名称和商品链接中的一部分内容，你需要根据实际情况修改这部分代码以获取你需要的所有信息。这个程序也假设了商品名称和部分链接会出现在相应的HTML元素中，实际情况可能会有所不同。在使用这个程序时，你需要确保你有权限爬取这些网站的内容，并且遵守网站的爬虫使用政策。在没有得到网站所有者许可的情况下，过度使用爬虫可能会导致你的IP地址被封禁。要注意，为了防止爬虫被网站封禁，你需要使用适当的代理或者设置合理的爬取频率。你需要替换上述代码中的。

2024-02-19 23:01:43 334

原创 python获取关键字

【代码】python获取关键字。

2024-02-19 22:56:52 340

转载 Scrapy爬虫

https://blog.csdn.net/ck784101777/article/details/104468780

2024-02-18 21:52:30 590

原创批量下载图片

【代码】批量下载图片。

2024-02-18 14:45:12 311

原创爬取房天下

【代码】爬取房天下。

2024-02-18 14:43:28 368

原创获取小说工具

【代码】获取小说工具。

2024-02-18 14:41:59 317

原创 python写一个GUI小程序：Word和PDF互转。但是有中文乱码以及图片乱码问题，求大佬解决！

【代码】python写一个GUI小程序：Word和PDF互转。但是有中文乱码以及图片乱码问题，求大佬解决！

2024-01-11 22:40:39 349

原创 python爬取网页信息并保存为word文件

4、检查文档打开时的编码设置：在使用 Microsoft Word 打开文件时，确保选择正确的编码选项。通常情况下，它会自动检测文件的编码。1、确保网页编码正确：在获取网页内容时，指定正确的编码。例如，如果网页是以 UTF-8 编码，可以在请求时指定编码。2、BeautifulSoup 解析时指定编码：在使用 BeautifulSoup 解析页面时，指定正确的编码。3、使用正确的编码保存文件：确保在保存 Word 文档时使用正确的编码。这也是最常见的解决中文乱码的方式之一，请大家务必记住！

2024-01-09 22:33:04 796

原创 python实现多个PDF文件的合并，并转换为word，并消除水印。

意思是pdfFileMerger函数在pypdf包里不存在了，需要换为PdfMerger函数。

2024-01-09 21:02:07 361

原创 python项目-批量获取王者荣耀皮肤

1、首先，伪装用户代理访问要爬取的皮肤网站：鼠标点中一个皮肤后，鼠标右键选“检查”，选择“Network”,复制User-Agent后面的代码。我们的项目是获取所有英雄的皮肤，并且要把皮肤照片保存到各自英雄的文件夹中，文件夹以英雄名字命名，下载时间是每隔一秒下载一个。2、下一步，每个英雄皮肤有1到n个不等，所以我们需要遍历对应英雄的每个皮肤。尽量用chrome浏览器的xpath插件，没有的话应用商店下载一个即可。如果右键选检查后出现空白框则需要刷新。

2024-01-08 17:18:43 828 2

原创 python实现从文档里生成词云图

用到jieba和python-docx wordcloud matplotlib库。出现乱码，应该是中文乱码问题。检查发现第18行代码有问题。找想要的字体并复制路径。

2024-01-06 20:49:21 376

原创 python实现pdf转word，并且保留原有格式、消除水印。pdf2docx和pymupdf库。

请注意，消除水印可能是一个复杂的任务，具体的实现方式取决于水印的类型和嵌入方式。它会尝试尽可能地保留PDF中的格式和布局，并将多页PDF转换为多页Word文档。使用这个库，你可以轻松地将PDF文件中的内容提取并保存为Word文档，这在处理文档转换的应用场景中非常有用。库被用于创建Word文档，并通过遍历PDF页面将每一页的图像添加到Word文档中。这是一个方便的工具，特别是在需要将PDF内容转换为可编辑的Word文档时。是一个功能强大的PDF处理库，可用于各种任务，包括文本提取、图像提取、PDF渲染等。

2024-01-06 17:59:11 780

qq_45023811的博客