格物钛工程师-CSDN博客

原创智能汽车：构建高价值场景库，打造数据闭环

自动驾驶竞争进入新阶段，解决罕见的长尾场景、构建数据闭环的高效研发框架是目前行业公认的重点，格物钛助力车企更好更快赢得智能化优势。数据定义价值，高效迭代致胜自动驾驶落地面临数据挑战格物钛为您构建高价值场景库高价值场景库决定了自动驾驶系统应对特殊情况（Corner Case）的能力。格物钛数据平台助力企业快速提取出雨雪、大雾、隧道行车与道路施工等边缘场景数据，无需复制即可自定义组织合并，快速实现复杂场景检索和结果查看，构建高价值场景库。格物钛助您快速实现数据闭环迭代格物钛数据平台为企业打造

2022-04-07 15:25:47 803

原创格物钛成为FinOps云成本优化产业标准生态联盟首批会员

Gartner 研究显示：在过往，企业上云会节省 14% 的成本，但是在 2020 年，由于缺乏成本优化手段，80% 企业的云资源成本大幅超出预算；同时，45% 的企业由于缺乏优化措施，在直接迁移上云的过程中，会超买 55% 的资源，并且在上云的前 18 个月内会多花 70% 的费用。于是，FinOps的概念应运而生。FinOps 是“Finance”和“DevOps”的综合，意为“云财务管理”，旨在通过云平台、最佳实践和文化的结合，提高组织了解云成本和进行业务权衡的能力。近日，中国产业互联网发展联盟、

2022-03-30 19:00:45 3002

原创数智化 | 企业智能化如何落地？格物钛领先实践入选爱分析「2022人工智能应用实践报告」

智能技术赋能企业数字化转型，能否把握这一机遇，成为企业扩大市场竞争力的关键。智能化进程中，企业正在或将会面临哪些挑战？有哪些成熟路径和方法论？有哪些值得借鉴的前沿实践案例？

2022-03-18 17:49:54 476

原创格物钛智能科技CEO崔运凯:数据价值跃迁，洞见下一代变革力量

“数据正在发生代际跃迁，而中国大部分企业还未觉醒。”作为数据新基建领域的专家，格物钛智能科技创始人兼CEO崔运凯指出，随着数字化转型的深入，非结构化数据的管理和使用将是下个时代核心命题，企业需要新一代数据平台去应对即将爆发的变革与挑战。

2022-03-01 15:11:48 5895

原创最新宣传片带你1分钟了解下一代数据平台的魅力

新一代数据平台上线了！格物钛非结构化数据平台，驱动海量复杂数据的灵活存取用，助推AI工程化和数据资产化，做你的非结构化数据赋能专家！

2022-02-18 18:21:27 5284

原创关键点检测项目代码开源了

本文通过自建手势数据集，利用YOLOv5s检测，然后通过开源数据集训练squeezenet进行手部关键点预测，最后通过指间的夹角算法来判断具体的手势，并显示出来。

2022-02-09 11:14:08 639

原创我用YOLOv5做情感识别

作者：陈信达，上海科技大学，Datawhale成员AI技术已经应用到了我们生活中的方方面面，而目标检测是其中应用最广泛的算法之一，疫情测温仪器、巡检机器人、甚至何同学的airdesk中都有目标检测算法的影子。下图就是airdesk，何同学通过目标检测算法定位手机位置，然后控制无线充电线圈移动到手机下方自动给手机充电。这看似简单的应用背后其实是复杂的理论和不断迭代的AI算法，今天笔者就教大家如何快速上手目标检测模型YOLOv5，并将其应用到情感识别中。一、背景今天的内容来源于2019年发表在T-P.

2022-01-24 14:19:49 1434 2

原创技术博客丨原来模型训练可以不用标注？一文全解四大机器学习方法

作者：Ta-Ying Cheng，牛津大学博士研究生，Medium技术博主，多篇文章均被平台官方刊物Towards Data Science收录即使在人工智能已经逐渐普遍的今天，有许多人对机器学习相关的概念仍是一知半解。虽然机器学习论文层出不穷，几乎每过一阵子都有新技术和新想法发表，然而绝大多数新词只能沦为人们交口传诵的人工智能术语，至于这些词究竟是什么意思则不做深究。本文将用通俗的方式，为大家介绍耳熟能详却分辨不清的四个机器学习核心概念：监督式学习、半监督学习、非监督学习和自监督学习，并将用实例简介.

2022-01-05 11:48:06 2522

原创技术博客丨我用深度学习做个视觉AI微型处理器

本文将带你从0用深度学习打造一个视觉AI的微型处理器。文章含完整代码，知识点相对独立，欢迎点赞收藏，跟着本文做完，你也可以做一个自己的嵌入式AI小产品！

2021-12-30 15:16:12 494 1

原创大咖Talk丨崔运凯：AI组织的未来——自动驾驶场景下的制胜关键

2021年12月21日，由亿欧EqualOcean主办的“数字重塑世界-WIM2021世界创新者年会”在中国上海正式开幕。在“自动驾驶商用场景3.0时代” 篇章中，格物钛智能科技创始人兼CEO崔运凯发表了题为《AI组织的未来——自动驾驶场景下的制胜关键》的主题演讲。

2021-12-27 16:52:45 1349

原创技术博客丨神经网络不再“卷” 全靠“变形金刚”

卷积神经网络（CNN）一直是计算机视觉和图像处理的主要技术支柱。与传统的多层感知器（MLP）相比，卷积网络在二维邻域感知和平移同变性方面具有显著优势。然而，最近在自然语言处理领域刮起了一阵新趋势，越来越多的人开始用Transformer来取代递归神经网络，而这也让CV从业者对Transformer的潜力感到非常好奇。

2021-12-23 10:59:12 2241

原创技术博客丨动手实践系列：CV语义分割

作者：游璐颖，福州大学，Datawhale成员图像分割是计算机视觉中除了分类和检测外的另一项基本任务，它意味着要将图片根据内容分割成不同的块。相比图像分类和检测，分割是一项更精细的工作，因为需要对每个像素点分类。如下图的街景分割，由于对每个像素点都分类，物体的轮廓是精准勾勒的，而不是像检测那样给出边界框。图像分割可以分为以下三个子领域：语义分割、实例分割、全景分割。由对比图可发现，语义分割是从像素层次来识别图像，为图像中的每个像素制定类别标记，目前广泛应用于医学图像和无人驾驶等；实例分割相对更具

2021-12-15 11:34:25 245

原创格物钛崔运凯：从DevOps到MLOps，从组织变革看机器学习实践

2021 DevFest上海谷歌开发者节，格物钛作为参展企业，创始人兼CEO崔运凯受邀发言，与开发者们分享了从DevOps到MLOps的进化路程，从组织变革看机器学习的最佳实践。

2021-12-06 17:30:49 433

原创格物钛数据平台国内外经典开源数据汇总（自动驾驶、目标检测、人脸识别、人体姿态估计、文本检测、NLP、医疗）

本文整理了国内外经典的开源数据，包含了目标检测、自动驾驶、人脸识别、自然语言处理、文本检测、医疗等方向，具体如下。一、自动驾驶领域数据集KITTI数据集KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo)，光流(optical flow)，视觉测距(visual odometry)，3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。

2021-11-19 14:41:35 1412

原创多数据集连接问题的探索

近期，浙江大学欧明锋在TechBeat人工智能社区进行了“以数据为中心的研究探索”的分享。分享内容来源于在格物钛实习期间，与科学顾问赵俊博、CEO崔运凯、算法负责人薛林继合作完成的论文《Joining datasets via data augmentation in the label space for neural networks》。论文基于格物钛Open dataset数据集研究，成功被2021机器学习顶会ICML收录。Talk主要聚焦同领域相似的同构数据集的连接融合问题，并提出解决思路与方案。

2021-11-18 18:31:57 1078

原创建立公开数据集标准，赋能AI工程化落地

建立公开数据集标准，赋能AI工程化落地近期，由DataFun主办的AI基础软件架构峰会圆满落幕，格物钛作为AI基础设施领域的创业明星代表与谷歌、字节跳动、第四范式等顶尖科技公司一同亮相MLOps分论坛，格物钛算法负责人薛林继为线上观众带来了一场《建立公开数据集标准，赋能AI工程化落地》主题演讲。以下是演讲全文：建立公开数据集标准，赋能AI工程化落地大家好，我是来自格物钛的薛林继，现在负责算法这一块。今天给大家分享的标题叫做《建立公开数据集标准，赋能AI工程化落地》。格物钛一直在致力于创建下一代的

2021-11-12 14:24:46 3226

原创企业如何完成大规模数据的版本管理

在人工智能产业中，数据资产是最容易被忽视的管理内容，而且随着业务的不断深入和递进，数据及其标注都在不断地增加和更新。在传统的管理方式中，每一次更新往往伴随着数据的一次全量复制和一次手动版本记录，由此引发的数据膨胀及衍生问题，往往需要耗费一个企业20%以上的时间和精力，在数据浩繁的自动驾驶领域所耗更甚，同时带来的，还有指数级增长的数据存储成本。git工具的出现，大大提高了代码版本管理的效率，提升了软件开发行业的整体效率。在这样的背景下，AI基础设施建设者格物钛提出了“像使用git管理代码一样管理数据”的概念

2021-10-20 11:54:30 318

原创如何使用PyTorch简易搭建残差网络

作者：Ta-ying Chen，牛津大学机器学习博士研究生，Medium知名技术博主译者：颂贤时兴的自动驾驶和人脸检测等众多计算机视觉应用之所以能够实现都要归功于深度神经网络。然而，许多人可能都不知道的是，近年来计算机视觉的突破性进步都是由一种特定类型的网络架构推动的，也就是所谓的残差网络（residual network，ResNet）。事实上，我们所看到的诸多先进的人工智能成果，没有残差块（residual blocks）的发明都是不可能实现的。是残差块这个如此简单而优雅的概念，使我们有了真正.

2021-09-29 15:23:55 4462

原创 Data-centric vs. Model-centric. The Answer is Clear!

AI的中心到底是模型还是数据？作者：Dario Radecic，Medium 高质技术博主编译：颂贤图源：Brandon Lopez （Unsplash）一般的AI课程会介绍很多如何通过参数优化来提高机器学习模型准确性的方法，然而这些方法通常都存在一定的局限性。这是因为我们常常忽视了现代机器学习一个非常重要的核心——数据。如果我们没有处理好训练数据没，上百个小时的时间都会被浪费在调整一个低质量数据训练出来的模型上，模型的准确度很容易就会低于预期，而这和模型调优是没有太大关系的。怎样才能避免这样

2021-09-14 12:55:28 377

原创手把手带你快速入门超越GAN的Normalizing Flow

手把手带你快速入门超越GAN的Normalizing Flow作者：Aryansh Omray，微软数据科学工程师，Medium技术博主机器学习领域的一个基本问题就是如何学习复杂数据的表征是机器学习。这项任务的重要性在于，现存的大量非结构化和无标签的数据，只有通过无监督式学习才能理解。密度估计、异常检测、文本总结、数据聚类、生物信息学、DNA建模等各方面的应用均需要完成这项任务。多年来，研究人员发明了许多方法来学习大型数据集的概率分布，包括生成对抗网络（GAN）、变分自编码器（VAE）和Norm

2021-09-07 15:54:25 3219 3

原创技术博客｜如何使用SSE进行通信

如何使用SSE进行通信作者：小鹿清孑明，格物钛前端部门，前端工程师前段时间在Tensorbay数据集管理平台前端开发过程中，需要实现一个action 中的 activity log 实时输出的feature，很突然的接触到了一个新技术，迫不及待地想要和大家分享一下！也就拖了2个月不到吧，SSE这不就来了嘛！WHAT？什么是SSE？SSE全称Server-Sent Events，字面意思就是服务器向客户端推送信息。我们知道，客户端和服务器端通信一般是通过http请求，而http请求无法做

2021-08-19 14:22:25 1548

原创 CIFAR-10数据集应用：快速入门数据增强方法Mixup，显著提升图像识别准确度

快速入门数据增强方法Mixup 显著提升图像识别准确度【关于格物钛】：格物钛公开数据集提供海量优质公开数据集搜索、数据托管、一站式搜索，与全球AI开发者共创公开数据集社区。本文介绍的是以格物钛公开数据集平台中的CIFAR-10数据集为基础，通过数据增强方法Mixup，显著提升图像识别准确度。作者｜Ta-Ying Cheng，牛津大学博士研究生，Medium技术博主，多篇文章均被平台官方刊物Towards Data Science收录翻译｜颂贤深度学习蓬勃发展的这几年来，图像分类一直是最为火热的

2021-08-17 15:33:40 2069 3

原创一文使用PyTorch搭建GAN模型！

简单使用PyTorch搭建GAN模型作者｜Ta-Ying Cheng，牛津大学博士研究生，Medium技术博主，多篇文章均被平台官方刊物Towards Data Science收录翻译｜颂贤以往人们普遍认为生成图像是不可能完成的任务，因为按照传统的机器学习思路，我们根本没有真值（ground truth）可以拿来检验生成的图像是否合格。2014年，Goodfellow等人则提出生成对抗网络（Generative Adversarial Network, GAN），能够让我们完全依靠机器学习来生成

2021-08-11 15:30:14 1994 3

原创深入浅出 Vue 数据响应式原理

深入浅出 Vue 数据响应式原理作者：道格（格物钛 Infra 团队，运维开发工程师）在使用 Vue 框架进行开发的过程中，常常会遇到更新数据但是视图无法更新的 bug，从而对开发的进度造成阻塞。为了提高开发效率，我们可以通过遵守最佳实践来减少类似的 bug 的频率。除此之外，若开发者对数据响应式的过程有更好的理解，也能在功能实现的过程中对代码有更好的把控，进而减少类似问题的发生。由此，为了帮助提升团队伙伴的开发效率，我对 vue 数据响应式的实现进行了探索，并将其实现简化成了可被执行的样例代

2021-08-02 17:23:23 184

原创 MEETUP预告 | 邀你一起吐槽AI开发那些事，让数据管理更高效

Graviti首次线下meetup，将在11月7日周六下午，于“看见咖啡”（上海市杨浦区政民路198号）召开。欢迎所有AI开发从业者、爱好者的到来!

2020-10-27 18:20:08 132

原创监督学习—从好的label开始

在大家的算法工作中，会训练各种各样的模型。导致大家模型实际应用效果不够好的原因有很多，一些常见的原因主要是模型结构不合理、损失函数不合理、超参数设置不合理，但除了这些原因，我想最核心的一个原因是数据的质量本身。相信每一个自动驾驶行业的开发者对此都是会深有体会的，Lyft 团队在CVPR的presentation上就发出了“High quality labeled data is the key”的感慨。这也是本篇文章想要着重强调的主题。下面通过一个实验来让大家直观感受一下“标注质量对模.

2020-08-12 15:41:14 574

原创数据集管理的可视化 —— 现在与未来

随着ADAS、自动驾驶、新零售等领域的快速发展，非结构化数据的体量急剧增加，传统的机器学习算法无法处理复杂多变的数据，而深度学习是基于神经网络的一种算法，更适合被非结构化数据“包围”的今天。其所带来的高度依赖数据集的大规模学习方法，极大增加了对于大规模数据集的需求。深度学习进行模型训练的关键是高质量大规模训练的数据集。当前，市场上大部分的云商公司，对于非结构化处理主要提供存储服务，但没有针对非结构化数据本身提供更多的解决方案。例如，不同行业数据应该如何组织、如何训练、如何形成行业知识库。相应的，这些存储

2020-06-11 15:13:48 1757

原创机器学习算法评估指标——3D语义分割

3D语义分割是在三维点云中对每个点进行分类，属于同一类的点都要被归为一类。例如如下场景，属于建筑的点都要分成一类，属于植物的点也要分成一类。下面重点介绍3D语义分割算法的评估指标。PA（Point Accuracy）定义：总体的分类准确度，分类正确的点数和点云总点数的比值范围：0~100% 用途：这是最简单的度量分割准确性的方式MPA（Mean Point Accuracy）定义：平均分类准确度，计算每一类分类正确的点数和该类的所有点数的比值然后求平均范围：0~100%MIoU（

2020-06-10 14:41:27 2501

原创机器学习算法评估指标——3D目标跟踪

与2D目标跟踪类似，3D目标跟踪可以分为单目标跟踪和多目标跟踪，首先介绍单目标跟踪（SOT）算法的常用评估指标；其次介绍多目标跟踪（MOT）算法的常用评估指标。单目标跟踪传统的评估tracker的方式是：在测试序列上运行一遍该跟踪算法（其中第一帧以ground truth作初始化），然后计算average precision或sucess rate。我们把这种只在测试序列上运行一遍的评估方法叫做one-pass evaluation (OPE)。然而tracker对初始化可能比较敏感，不同的起始帧可

2020-06-08 10:47:31 5504 4

原创机器学习算法评估指标——3D目标检测

在真实的三维世界中，物体都是有三维形状的，许多应用都需要有目标物体的长宽高还有偏转角等信息。以自动驾驶为例，在自动驾驶场景下，需要从图像中提供目标物体三维大小及旋转角度等指标，鸟瞰投影的信息对于后续的路径规划和控制具有至关重要的作用。我们将使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。多类别目标的检测问题可以转换为“某类物体检测正确、检测错误”的二分类问题，从而可以构造混淆矩阵，使用目标分类的一系列指标评估模型精度，例如：使用P..

2020-06-01 15:38:29 6285

空空如也

对于非结构化数据的搜索需求都有哪些和如何实现?

对于非结构化数据的搜索需求都有哪些和如何实现?