Pzxc-CSDN博客

原创读书笔记：Transformers vs. OCR: an in-depth comparison for Information Extraction

在关系提取任务中，需要找出文本中的相关实体并分类其关系，如“Getúlio Vargas - 总统 - 巴西”，“Getúlio Vargas - 诞生于 - São Borja”，“Getúlio Vargas - 参与 - 1923年Rio Grande do Sul的内战”。然而，此法存在噪声和成本高，图像处理效果不佳，需要完美的输入等问题。结果表明，基于Transformer的方法比基于OCR的方法更优秀，它的准确度可以达到98%，并且实现了实体的自动分类，使其成为一个端到端的解决方案。

2023-09-27 09:15:02 86

原创线性回归【Tensorflow】

用Tensorflow2.0实现线性回归算法

2022-06-06 22:35:13 162

原创 word2vec编程【Tensorflow】

目录1. 学习目的2. 使用平台3. 参考资料4. 学习步骤1. 学习目的学习NLP的入门编程word2vec2. 使用平台Google Colab3. 参考资料2022年B站up主的Tensorflow教程! 4. 学习步骤先观看上述资料的Tensorflow视频的第四十一讲点击该Colab分享链接（需要科学上网）需要用到Kaggle的API下载数据集，没有的话，请先注册Kaggle就酱，接下来就看Colab里的内容就好了。...

2022-02-09 02:14:21 728

原创图像增强【Tensorflow】

目录1. 学习目的2. 使用平台3. 参考资料4. 学习步骤1. 学习目的学习对图像进行增强的一系列方法（持续更新中）2. 使用平台[Google Colab](https://colab.research.google.com/)3. 参考资料2022年B站up主的Tensorflow教程! 用到的数据分类代码来源4. 学习步骤先观看上述资料的Tensorflow视频的第四十一讲点击该Colab分享链接（需要科学上网）需要用到Kaggle的API下载数据集，没有的话，请先注册K

2022-02-05 21:08:26 975

原创自然语言处理（NLP）沉淀【0】

接下来的一系列关于NLP的文章都会是我基于DeepLearning.AI课程的个人理解。这也是我本人第一次写这个方向的博文，所以第一次应该都会尽量以最大可能把每一步都给写清楚，因为没准哪个语言学系的在校学生看到了这篇文章，会突然发觉连博主这样缺少语言学的domain knowledge的人都能写这个内容，自己没准在未来也能跨学科转编程算法岗做个NLP大佬呢 ???? 。先开个坑，后续随时回来再做修改。...

2021-11-19 06:05:46 744

原创数据科学的科学方法

数据科学家使用数据的方式是至关重要的，由以下数个步骤组成。这个科学方法的第一步骤是提出问题，然后提出一个猜想来试图回答这个问题。为了证明我们的猜想我们需要，我们可能设计一系列的实验。我们需要分析以及解释实验的结果，并最终对这些结果进行讨论和交付。如何提出一个好问题- 科学从业者必须具有研究课题的背景知识，了解问题是否和自己的研究背景相关联- 科学从业者需要知道这些问题是否可以被客观回答- 科学从业者需要了解是否可以设计一个实验来验证这个问题，以及实验的结果能否被良好地分析和解释。提出假

2021-09-22 13:59:42 510

原创 Spark 集群

为什么我们需要Spark集群？Spark 高性能的关键在于其使用了并行计算。在传统的关系型数据库中，匹配大数据的扩展工作仅限于一台机器，计算性能有限。而Spark可以进行水平扩展，也就是可以近乎无限地添加新的机器或算力到一个集群中。集群里的机器可以像一个团队一样工作，并且产出数据分析师想要的结果。Spark集群里的两种角色集群中存在两种角色，分别是Driver和Worker。我们可以假设集群中的某台机器是Driver，Driver负责管理一条查询语句所请求的工作量。Driver会决定如何拆分

2021-08-26 19:58:03 384

原创使用Docker 容器快速构建 Apache Spark环境

最近突然想回顾下在悉大学的Spark内容，但是一回想到那个Spark的安装全内容，就感觉累了，难了，繁琐了。然后我就突然想起在悉大学云计算时有位同学说可以用Docker安装Spark。因此，让我们看看是否真的可以用Docker下载。首先我会默认大家已经学会了Docker的基本操作，如果不会的话，请看我的这个Docker系列跟着做下载镜像我们先去下载jupyter/pyspark-notebook而这，只需要我们执行一条命令：docker run -p 8888:8888 jupyter/pysp

2021-08-16 15:32:26 472

原创在2021年为七夕Python程序与Docker牵线配对

起因今天看到了大佬发布了自己的七夕小程序，就感觉挺好玩的，把复制粘贴到了我的Pycharm里运行，然后发现出现了些安装包问题。然后突然就想，我能否帮大佬把依赖问题或者说运维类问题给用Docker解决了，所以就开始我们本博文的编写吧。准备首先确保大家主机上都安装了Docker后开始下列操作创建一个文件夹：mkdir Dockerfile创建一个Dockerfile文件vi Dockerfile在文件内粘贴入下列内容：FROM python:3.9.6ENTRYPOINT ["pyth

2021-08-14 03:46:49 683 1

原创大数据介绍（2）大数据需求

Databricks认为的组织会有的三种高级别大数据需求，收集数据，存储数据，以及使用数据产出可操作的见解。收集数据在上图中，收集数据阶段可能由一系列事件或者事务来触发，这些被收集的数据也被称为High flux event data。存储数据之后数据必须要被存储起来，不同公司的话会有不同的存储解决方案。这些存储解决方案可能是以下数种：对单一业务使用多个不同的数据库一个集中的数据库，比如一个数据仓库（data warehouse）data lake。 data lake现在十分流行因为它

2021-08-11 18:21:14 442

原创大数据介绍（1）大数据挑战时会遭遇的困难

我们不妨用工作任务的方式解释应对大数据挑战时会遭遇的困难提出一个任务目标创建一个dashboard显示用户的交易数据任务解析输入可能是数百个数据文件需要从不同的数据源拉取数据需要兼容不同的文件格式潜在的任务时间限制可能出现的困难缺少工具如果我们要完成这个任务，我们可能需要借助相关工具的帮助，但有时候也可能发现没能找到合适的工具。有时候，在公司解决业务是否能成功的问题前，可能不会去关心程序可扩展性相关的事情，比如如何让数百万用户都成功用上这功能。这种情况下，我们可能会用一个临时方案（

2021-08-11 17:44:13 192

原创大数据介绍（0）什么是大数据？

该系列博文会根据Databricks的授课内容与个人理解进行博文的撰写。截至今日，大数据之类的讨论已经非常随处可见，但是如果有人问大数据具体怎么定义？可能也不是很多人可以回答上来。所以我们这篇博文先来看看Databricks对大数据的理解。大数据的特征大数据有五种特征，分别为Volume, Velocity, Variety, Veracity和Value。VolumeVolume，在这里我个人理解是指量，可能也是很多人对大数据最初的理解，大数据，大量的数据（massive volume of d

2021-08-10 20:13:13 504

原创新人也能做的Docker项目 (8) Docker bind volumes

好的，让我们直接开始我们的最后一讲吧，bind mount。volume mount 和 bind mount的区别是什么？这里的话，我会推荐阅读另一篇文章，Docker 101: Volume & Bind Mounting比较关键的一段是，“The main difference between bind mounting and volume mounting is that we use bind mount to create the persistent volume on the

2021-08-08 23:39:44 208

原创新人也能做的Docker项目 (7) Docker volumes

在这一讲，我们会学习如何用Docker persist data (翻译为持久化数据？) 。有时候感觉如果持久化这个翻译没有很好做到本土化，第一次听的人会感觉一头雾水。那解释成学习如何保证Docker 不会丢失数据如何? ????为什么我们需要Docker volumes？依然，我们先抛出一个问题。无论何时，我们创建一个Docker 容器，容器都会包含两层，第一层是image layer （Read-only layer），我们到目前为止还不能对这层进行修改。所有的修改都会发生在第二层，也就是cont

2021-08-08 03:09:38 175

原创新人也能做的Docker项目 (6) 容器间的通信

OK，能跟到这里实在不容易，我们已经胜利在望了。这讲我们要一起学习的是Docker 容器间的通信。在那之前，我们先再学几个命令。让我们先试试删除所有的容器执行下列命令：docker stop $(docker ps -aq)如果大伙已经跟着我完成了前面的实践的话，应该可以猜到这条命令是先获取所有docker 容器并返回给docker stop作为传入参数，这条命令会停止所有的容器。下面这条命令会删除所有的容器：docker rm $(docker ps -aq)删除custom newo

2021-08-08 01:23:06 107

原创新人也能做的Docker项目 (5) Docker Networks

Docker NetworkDocker 默认提供三种网络类型：Bridge networkNone NetworkHost NetworkBridge network当我们运行一个容器而不给它任何其它参数的时候，Bridge network将会是缺省网络类型。例如：docker run ubuntu以上命令默认创建了一个Bridge network当网络被创建后，它会有一个默认ip，在这个例子中它是172.17.0.0。每当一个新的容器被创建，新的ip就会在这个子网内被创建，并分

2021-08-07 13:44:49 428

原创新人也能做的Docker项目 (4) 部署一个Web应用程序

Hello，各位！这一讲开始，我们就要开始我们的应用咯！请坐稳扶好，咱要发车了！为什么我们要部署Jenkins呢？安装很多有趣的第三方程序有可能会是我们日常工作或个人开发时会遇到的遇到的一些基本需求，所以是的，这次我们就以Docker容器的形式部署Jenkins为例。首先，先让我们从第一步开始。让我们逛下Docker hub好的，我们成功地在Hub里找到了Jenkins。点进这个jenkins详情页里，我们会注意到右边有条下载命令：docker pull jenkins所以，这意味着

2021-08-07 00:29:17 310 1

原创新人也能做的Docker项目 (3) 继续学习一些Docker命令

好的，这一讲，我们继续来学习一些Docker命令。我的每一个系列连载章节都可能会依赖上一讲的实践内容，所以如果你还没有完成上一讲的实践，建议先去上一讲完成实践后再来看这讲。移除一个容器我们现在来试试如何移除一个容器，我们首先用下列命令来查看可以被我们删除的容器：docker ps -a在里面定位你要删除的容器，在这里，我会删除上一讲我们运行的ubuntu容器，所以运行下列命令：docker rm [把这里替换成容器ID]如：docker rm b7需要注意的是，rm并不能删除一个运行中

2021-08-06 22:56:44 91

原创新人也能做的Docker项目 (2) 部署第一个Docker容器

好的，既然我们已经完成了Docker的各种前期准备工作，那我们现在就开始部署我们的Docker 容器吧！接下来的内容，我们就要开始使用Docker CLI了运行个Hello world看看在Terminal执行以下命令：docker run hello-world不出意外的话，我们能看到下列输出：Docker registry所以上面这条命令它背后做了什么事情呢？首先它会先搜索本地机器是否存在你想要运行的image，如果找不到它就会从某些地方下载，而这些地方就被称为Docker regis

2021-08-06 02:40:26 218

原创新人也能做的Docker项目（1）

该文会根据Saurabh Dhingra的项目指导和谷歌云课程进行博文的编写，其中也会加入个人的一些见解。项目环境Ubuntu 20.04 LTS已经装好的Docker环境（这个可以看Docker官网教程安装，也可以看国内某些大佬的安装教程）为什么我们要用Docker？一如往常，先抛出疑问，为什么要用这技术？当我们在我们机器上部署某些应用程序的时候，比如MySql， ANSIBLE或者Tomcat，你可能要为他们安装一些库或者依赖，有一些应用程序还会对操作系统或者服务器配置也有要求。不同程序

2021-08-05 04:15:10 344

原创 Kubernetes连载（3）Deployment

在这一讲里，我们可以一起探讨下如何在Kubernetes集群中以Deployment 的形式部署Pods，但在那之前，我们再了解一个Kubernetes object，也即是Replication set。Replication set上一篇博文我们讲到了Replication controller（下称RC），在功能性方面，Replication set与RC非常相似。然而Replication set是一个更新的Kubernetes object, 它有一个额外的特点，也就是set based se

2021-08-03 14:00:38 78

原创 Kubernetes连载（2）Services

之前我们已经了解如何通过Replication Controller部署pods。但我们之前只是通过使用Kubectl显示运行的pods数量进行验证，这是远远不够的。因此如果可以从pod的外部访问运行在pod上的内部服务的话，将能更好地说明我们已经正确部署了Pods。我们将会通过使用Kubernetes cluster中的Pod的Service来实现这一目标。为什么我们需要Services？因为Kubernetes cluster的Pods是不稳定的。Pods随时都可能因各种突发情况而离线然后被重新创建

2021-08-03 01:42:38 129 1

原创 Kubernetes连载（1）Replication controller

什么是Replication controller？为什么我们需要Reoplication controller？Replication controller是一个比pods更高级别的Kubernetes object。事实上，我们不会直接操作pods，而Replication controller会为我们进行pods的各种操作，让我们的生活更简单。Replication controller可以帮助我们维护pods的状态。所以，第二我们可能想问pods的状态是什么意思？举个例子，如果您想要运行一定数

2021-08-02 21:41:54 222

原创 Kubernetes连载（0）

最近在做一些关于Kubernetes的技术沉淀，接下来会基于Anju M Dominic女士的项目指导内容以及谷歌云的官方课程并加入个人理解进行这个Kubernetes系列博文的编写。首先我们描述一下当前的时代背景当前我们处于一个微服务架构备受关注的世界，我们经常会在一天内遭遇数十亿个容器（containers）。因此我们需要一个可移植的，稳定的和可扩展的平台来管理容器。这就是Kubernetes的全部意义所在。Kubernetes可以译为舵手（Helmsman），因为我们需要将大量的容器与多个机器

2021-07-31 03:35:17 115

原创对并发的粒度的认知

Interleaving依然，我不太清楚这个术语Interleaving怎么翻译好，看到有前人翻译成顺序交错，我们就用这个译名好了。顺序交错是指当有多个协程共同工作时，代码的执行顺序会有多种可能性。并发发生在机器码等级并发发生在机器码等级，而不是源代码等级。也就是说Interleaving并不是Go 源代码的Interleaving，而是底层的机器码指令的Interleaving。不管您的平台是什么，Go 源代码都会被编译成机器。这些机器码指令是一系列比源代码更小的指令，这些指令才是实际造成inte

2021-07-21 19:21:55 452

原创如果我只有一个单核处理器，我还有必要用并发机制么？

如果我只有一个单核处理器，我还有必要用并发机制么？Hiding Latency最近在看加州大学某学院的课程，教师在普及并发知识的时候谈到了这个单核处理器是否有必要做并发的问题。答案是是的，即使只有单核处理器和不用并行处理的情况下，并发依然可以极大地改善程序运行性能。原因就是并发可以隐藏延迟。Hiding Latency（这个术语我不太清楚怎么翻译比较好，或许我们可以称为隐藏延迟。）这时候需要介绍下背景。有时候任务需要周期性地等待某些会造成计算延迟的事件的发生和完成。一个例子是存储读取事件。在我们

2021-07-20 22:31:45 617

weixin_44732780的博客