- 博客(144)
- 资源 (36)
- 收藏
- 关注
原创 微软面向未来的制造 | 罗技 AI | 谷歌1000 亿美元|波士顿动力Atlas | 灵感源自大脑...
面向未来的制造:微软发布从云端到工厂车间的全新工业人工智能创新技术在全球最大的制造业创新盛会之一汉诺威工业博览会(Hannover Messe)召开之前,微软宣布将为制造商提供新的人工智能和数据解决方案,帮助他们开启创新、实现智能工厂、优化运营和提高员工生产力。在过去十年中,制造业一直保持着令人难以置信的韧性,新人工智能解决方案的注入标志着这一重要行业的关键转型。罗技发布 AI 提示生成器软件及配...
2024-04-18 11:26:46 812
原创 Adobe 与 OpenAI 合作 | Google Cloud Next '24 | Maestro | iOS18 AI
Adobe 探索与 OpenAI 合作,增加人工智能视频工具Adobe(ADBE.O)周一表示,该公司正处于允许第三方生成人工智能工具(如OpenAI的Sora等)在其广泛使用的视频编辑软件中使用的早期阶段。Adobe 的 Premiere Pro 应用程序广泛应用于电视和电影行业。这家位于加利福尼亚州圣何塞的公司正计划在今年为该软件增加基于人工智能的功能,例如用人工智能生成的物体填充场景中的某些...
2024-04-17 08:55:11 316
原创 AI每日新闻 | 8B 视觉语言模型 | Premiere Pro|DaVinci Resolve 19 | Poe 多模聊天
Idefics2:功能强大的社区 8B 视觉语言模型Idefics2是一种通用的多模态模型,可将任意序列的文本和图像作为输入,并生成文本回复。它可以回答有关图像的问题、描述视觉内容、创建基于多幅图像的故事、从文档中提取信息以及执行基本算术运算。Idefics2 在 Idefics1 的基础上进行了改进:Idefics2 具有 8B 参数、开放式许可证(Apache 2.0)和增强的 OCR(光学...
2024-04-16 09:18:31 595
原创 AI每日新闻
卡牌游戏开发商向 "AI艺术家 "支付9万美元以生成卡牌艺术作品数字交易卡牌游戏《异界魔法冠军》的开发商透露,其已投入$90,000用于卡牌美术制作,所有费用均支付给了一位匿名的“AI艺术家”,该艺术家每月获得$15,000薪酬,但每月仅需工作不足两天。日前谷歌Deepmind研究人员推出人工智能音乐应用UdioUdio是前谷歌DeepMind的顶尖AI研究员和工程师创立,得到了a16z的投资,每...
2024-04-11 17:24:44 346
原创 斯坦福大学“Octopus v2”超级代理击败了GPT-4 | 运行在谷歌技术上 | 小型代理功能调用...
自主人工智能代理领域正在升温。最近斯坦福大学推出了这款宝藏模型,Octopus V2设备上的语言模型,用于超级代理,而且这是一个小型模型,在准确性和延迟方面超越了GPT-4的表现,它的速度有多快,它是什么呢?毋庸置疑,这是一个设备上的语言模型,用于超级代理,意味着它可以在你的电脑上、你的手机上、任何设备上运行。我们最近在苹果公司看到了非常相似的情况,他们也有一个设备上的模型,他们称之为RM。它基本...
2024-04-08 09:47:04 546
原创 AI绘本——《森林里的垃圾日》
《森林里的垃圾日》第一章:森林的早晨在森林深处,一片宁静而祥和的氛围笼罩着大地。清晨的露珠在初升的阳光下闪烁着晶莹的光芒,仿佛是大地的珍珠。小鸟奇奇从她温暖的巢中探出头来,她的羽毛在阳光下闪耀着金色的光辉。她伸了个懒腰,然后开始欢快地唱起歌来,她的歌声清脆悦耳,像是自然界最美的旋律。“哇,今天的阳光真温暖!”奇奇对刚刚醒来的松鼠萨姆说,她的眼睛闪烁着对新一天的期待。萨姆揉了揉眼睛,跳到一根树枝上,...
2024-04-06 16:48:33 123
原创 AI绘本——《我的身体属于我》
《我的身体属于我》## 第一章:认识自己的身体小宇是一个充满好奇心的小男孩,他总是对周围的世界充满了探索的欲望。一天,他的妈妈带他去了一个充满生机的森林。在那里,他们看到了各种各样的动物和植物,小宇的眼睛里闪烁着对大自然的好奇。妈妈轻轻地拉着小宇的手,指着一只正在跳跃的小松鼠说:“看,小宇,你的手也像松鼠的手一样灵巧,可以做很多事情。”小宇兴奋地模仿着松鼠的动作,他感到自己的手真的很神奇。他们继续...
2024-04-05 12:18:33 583
原创 AI绘本——《勤洗手的小猴米米》
《勤洗手的小猴米米》**第一页:米米的玩耍时光(约350字)**在遥远的热带丛林里,有一只名叫米米的活泼小猴。他的毛发如同阳光下的麦田一般金黄灿烂,他的眼睛明亮如星辰,总是充满了对世界的好奇。米米最喜欢的事情就是在丛林中攀爬树木,与朋友们一起探险。他的好朋友,一只长耳朵的小兔比比和一只机敏的小松鼠奇奇,总是陪伴在他的左右。一天清晨,当第一缕阳光穿透丛林,洒在米米温暖的小床上时,他就知道新的一天开始...
2024-04-03 19:03:35 187
原创 AI绘本——《斑马线上的冒险》
《斑马线上的冒险》第一章:小镇的早晨在温暖的阳光下,小镇的早晨总是那么宁静而美好。小镇的居民们,从勤劳的松鼠到悠闲的乌龟,都在享受着新的一天。在这个充满活力的地方,每一只动物都有自己的日常,而小兔子比比,一个充满好奇心和冒险精神的小兔子,总是梦想着探索未知的世界。比比住在小镇的东边,那里有一片美丽的花园,种满了五颜六色的花朵。他的家是一个小小的洞穴,藏在一片茂密的灌木丛中。每天早晨,比比都会在花园...
2024-04-02 09:33:52 97
原创 AI周报——Claude 3 Opus
在上周的人工智能领域,从新兴的AI模型到科技巨头的战略投资,再到开源社区的创新动态,每一项进展都在推动着AI技术的边界不断扩展。首先,Chatbot Arena平台上的一项重大突破。长期以来,GPT-4一直被视为大型语言模型的标杆,然而,最近Claude推出了一款名为Claude 3 Opus的聊天机器人在众包评测中脱颖而出,超越了GPT-4,成为了性能最佳的模型。这一成就不仅标志着AI对话能力的...
2024-04-01 10:58:44 351
转载 把ChatGPT塞进excel是一种什么体验
将ChatGPT集成到Excel中,numerous.ai作为一款能够与Excel和Google Sheets协同工作的ChatGPT插件,标志着我们正式迈入了AI函数的新时代。[笑哭]想象一下,只需简单地定义AI函数(本质上就是精心设计提示和确定目标),接着通过简单的拖拽操作,即可让GPT自动产生所需的结果,这体验简直不要太爽。感兴趣的小伙伴可以付费尝试下哦...
2024-03-20 16:15:21 33
原创 当ChatGPT有了实体,你还能抵抗吗
新的一周又开始了,上周了AI领域发生了哪些大事,让我们一起回顾一下抵抗AI的声音看来大家对于那些干巴巴的说教如“你的生意即将被打乱,你需要停止抵抗并开始学习”并不买账。市场上像谷歌、微软这样的大公司以及马克·扎克伯格和埃隆·马斯克这样的人物主导着AI的走向,但他们两人在很多人心中并不受欢迎。对公众来说,更关注的是谁在控制着AI技术。Figure 1机器人的登场说到有趣的新闻,Figure公司近日与...
2024-03-19 10:12:01 174
原创 AI新闻周报:从Claude 3到自动驾驶的突破,AI领域的最新动态
上周人工智能界动态频发,虽非史上最繁忙一周,却也是重磅消息不断。从新兴的大型语言模型,到亿万富豪间的官司纠纷,本周给我们带来了不少精彩。撰稿之时为周四,当你阅读本篇文章的时候,可能还会有更多新闻出炉。【Anthropic发布Claude 3】本周最激动人心的消息莫过于Anthropic发布了他们的Claude 3模型,共有三个版本:小型的Haou模型、免费的Sonnet模型和每月20美元的Opus...
2024-03-11 12:10:29 326
原创 发放一波红包封面
2024年春节即将到来,新的一年有什么能抚慰自己的内心呢,是一顿丰盛的团圆饭,还是一场酣畅淋漓的大雪。希望新的一年,诸位能诸事顺遂
2024-01-26 16:22:18 386
原创 如何哄好你的赛博女友
最近一款AI应用《哄哄模拟器》火爆网络,发行方直接大手一挥,10亿个token就烧没了。70万网友在线模拟,如何哄好自己的女朋友。究竟是什么样的应用,让我们来一探究竟打开哄哄模拟器Web版 –你的AI对象生气了,快哄哄TA (greatdk.com)一个很粗糙的web页面出现,如下只需要你选择或者提交你和女朋友吵架的理由,就可以开始模拟吵架,哄女朋友了比如,近期股票市场低迷,你炒股亏了,女朋友很...
2024-01-24 14:26:16 370
原创 灵魂画手终于有"灵魂"了
随着扩散模型在文生图和图生图领域的蓬勃发展,各路大神各显神通,无论是在质量上还是速度上都有了很大的提升,对prompt的理解也更深入了,现在已经不需要很复杂的提示词就已经能生成非常好质量的图片。在速度这一块,随着LCM模型的推出,生成速度已经来到了秒级的速度。平均生成一张图片的推理步数可以控制在3步左右,更激进的Stability AI也推出了SDXL Turbo,同样一张图片,只需单步推理,当然...
2024-01-19 17:58:20 895
原创 基于扩散模型的文字生成360度全景图像
最近在逛github的时候,发现了一个有意思的项目,通过输入文字,经过一个扩散模型pipline,最终生成一张360全景图像,初见觉得很有意思,细想却不知道这种应用到底有何用处,各位同学也可以借此思考下,在各种T2I,I2I大模型遍地都是的时代,什么样的模型应用才有出路。既然都开篇了,还是给大家介绍下这个项目的使用情况。项目地址:ArcherFMY/SD-T2I-360PanoImage: rep...
2024-01-09 09:02:49 392
原创 不会吧,真的不给设计人员活路了?AI生成CAD真的来了
最近,人工智能领域又出现了一种新的技术——Text-to-CAD,这项技术可以根据输入的自然语言描述,自动生成相应的B-Rep CAD文件和网格模型。这意味着用户无需具备CAD设计的专业知识,只需通过简单的描述就能快速生成CAD文件。以前如果要设计一个产品,你得先在脑海里想象它的形状和结构,然后一个一个绘画出来,费时费力。有了text to cad,你只需要用语言描述想要的产品特点就可以了,比如“...
2023-12-22 10:15:31 1073 1
原创 快快快,谷歌Gemini API免费开放,几行代码即可云端部署
12月14日,谷歌在官网宣布,免费开放Gemini Pro和Gemini Pro Vision的API,支持中文。Gemini Pro隶属于谷歌前几天最新发布的大语言模型Gemini家族,性能强、能耗低可自动生成文本/代码、总结内容、语义检索等。支持32K上下文(下一个版本会更大),38种语言。目前,谷歌的类ChatGPT聊天产品Bard使用的就是Gemini Pro模型。Gemini Pro V...
2023-12-15 16:07:06 1074
原创 语音克隆又又又又又升级了
之前在前面的文章中有介绍,克隆你的声音,只需要你三秒的录音,声音克隆又进化了!,时隔几个月Meta又推出了最新的语音生成技术,不仅能可能声音,还能通过对声音的描述来生成独特的音色,同时还能通过描述来生成各种各样的音效,甚至能通过文字描述来编辑声音,整体来说,这项技术几乎囊括了现在人们对语音生成技术的所有的需求。早在今年6月,Meta曾经推出过VoiceBox,能直接从文本生成高质量语音,不需要任何...
2023-12-13 09:52:20 446
原创 Google的深夜王炸,Gemini
谷歌发布第三代大型语言模型Gemini,性能全面超越GPT-42023年12月6日,谷歌正式发布了第三代大型语言模型Gemini。Gemini是谷歌基于Transformer架构构建的模型,在生成文本、翻译语言、编写不同类型的创意内容等方面都表现出卓越的性能。在模型能力方面,Gemini在32个大型语言模型(LLM)研发中使用的广泛使用的学术基准测试中的30个中都超过了当前最先进的结果。在MMLU...
2023-12-07 09:47:18 351
原创 GPTs的平替
随着openAI的第一次开发者大会的召开,一个划时代的产品就此推出,OpenAI的首届开发者大会带来了许多令人振奋的消息,尤其是GPT-4 Turbo和GPTs的发布。这些新特性将推动自然语言处理技术的发展,帮助开发人员构建更强大和个性化的应用。随着GPT Store的推出,用户将能够轻松获得各种自定义GPT功能,从而提高他们的工作效率和生活质量。同时,价格的降低将使更多人能够享受到这一强大技术的...
2023-11-21 15:27:21 214
原创 ChatGLM3在线搜索功能升级
在前面的图文当ChatGLM3能用搜索引擎时中,我们让ChatGLM3在搜索引擎上进行的简单的搜索,但是仅仅只能搜索一些简单的内容,比如,时间。但是实际搜索中,往往不能满足要求,因为使用的是selenium进行的一个简单google搜索,所以针对复杂的搜索需求,现在对这个功能进行升级。之前我们用的是google搜索,现在我们使用ddgs---duckduckgo search。DuckDuckGo...
2023-11-11 17:34:06 592
原创 当ChatGLM3能用搜索引擎时
随着AIGC的发展,传统的网络搜索模式也在接受这前所未有的挑战,首当其冲的就是各大搜索引擎,比如bing在自家浏览器中搭载了chatgpt,能够根据搜索的内容进行整合,并生成逻辑清晰,而且相对准确的信息,极大的增加了传统搜索需要逐一点开网页进行浏览,人工提取有效信息的效率。当然,这也是一个不可逆转的趋势。但是由于网络环境以及各类AI工具的的兴起,各类收费工具也层出不穷,这是作为一个底层用户很难承担...
2023-10-31 14:44:35 354
原创 更强大的双语对话模型——ChatGLM3
ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:1、更强大的基础模型:ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策...
2023-10-30 16:03:23 1081
原创 关于比特币的一些问题
什么是比特币,比特币是如何运作的,背后原理是什么,挖矿和比特币有什么关系,比特币是一种数字化的加密货币,它是首个基于区块链技术开发并实际应用的加密货币。比特币的运作原理是:1.去中心化账本比特币网络由所有参与节点组成的对等网络维护一份公共账本,记录所有比特币的交易信息。没有中心化的机构或个体控制这个账本。1.基于区块链公共账本的记录方式是区块链。 neueowgt 哈希方法将交易信息定期打包生成一...
2023-10-12 15:48:49 281
原创 模块化神经网络
神经网络是人工智能研究的重要方向之一。它通过模仿生物神经系统,以大量相互连接的简单处理单元(神经元)组成网络,通过调整连接权重实现对信息的处理。21世纪以来,GPU计算能力的提升、大数据的蓬勃发展为神经网络提供了巨大支持。2006年,Hinton团队使用深度神经网络(DNN)取得语音识别竞赛优胜,此后深度学习迅速发展。2012年,Krizhevsky等人使用CNN在ImageNet图像识别竞赛中大...
2023-10-11 16:20:01 110
原创 扩散模型对于文字的渲染已不再是难题
近段时间,人工智能在图像生成方面取得了长足的进步,各种图像生成模型层出不穷,比如最近大火的Stable diffusion,midjourney还有最近和GPT4深度结合的DALL-E3,然而在这些AI生成图像有一个通病,就是对文字渲染不友好。无论是图片中的文字,还是AI直接生成的文字,往往存在着无法渲染出来的问题,或者即使渲染出来,其中的文字也是支离破碎的。这主要是由于现有的图像生成模型难以捕捉...
2023-10-05 14:52:04 111
原创 是换脸还是数字分身
之前给大家分享过很多stable diffusion插件,比如roop,lora等等,这些都可以生成特定面部的图片,比如roop可以换脸,lora可以训练特定面容的模型,但是这些都有一个比较明显的缺点,prompt比较难调,生成出来的照片的光照有时也会不自然,另外就是lora的训练需要比较多的图片,出来的效果也不尽人意。那么是不是有什么方法可以不需要prompt,然后借助已有的图片去生成更加自然的...
2023-09-22 10:59:29 129
原创 拖拽式数据分析工具
随着人工智能的发展,数据分析也显得越来越重要,对于分析效率的要求也越来越高,而数据分析的门槛也需要逐步降低。需要允许用户通过简单的拖拽操作来完成相应的工作拖拽式工具提供了图像化的用户界面,用户可以选择所需要的数据源,并通过拖拽各种组件来清洗、转换数据,可以进行联合、聚合等操作。常见的组件包括过滤器、公式组件、统计组件。拖拽完成后,系统会自动生成代码,用户就不需要编写代码完成数据处理在分析建模方面,...
2023-09-18 15:38:46 381
原创 克隆你的声音,只需要你三秒的录音,声音克隆又进化了!
最近微软开源了一款语言处理模型,只需要源语言中的一个语音语句作为提示,就可以生成高质量的目标语言的语音片段,同时还能保留源语言中说话者的声音、情感和声学环境,此外,这个模型还有效缓解了外语的口音问题,这个问题可以通过在prompt中标注语言ID来控制这个框架被命名为VALL-E X,整体框架如上图所示,它可以把源语音转换成另一种个性化的语音,通过把源语音和目标语言文本导出的序列以及从音频解码模型导...
2023-09-05 09:51:13 349
原创 OCR神器,PDF、数学公式都能转
我们平时在阅读论文或者文献的时候,PDF都是主力,然而存储在PDF中的信息很难转换成其他公式,尤其是数学公式,在转换过程中会出现大量的信息丢失。最近Meta推出了一款OCR神器Nougat,可以很好的解决这个问题,它是基于transformer模型构建而成的,可以轻松的将pdf文档转换成MultiMarkDown,即使是数学公式也不在话下。仓库地址facebookresearch/nougat: ...
2023-08-30 17:55:20 459
原创 无闪视频风格切换新思路
近段时间,视频风格切换应用的热度逐渐上升,包括已经成熟应用的gen,还有Ebsynth等,但是这些视频的切换都有一个通病就是视频会出现闪烁,导致最终的切换效果不佳。最近,有开源项目CoDeF提供了一种新的思路来解决这种闪烁的问题。从已经的公布的paper来看,主要的思路如下:根据论文,CoDeF的具体方法可以概括如下:1、首先是视频的表示,包含Canonical content field和Te...
2023-08-25 17:21:13 127
原创 AIGC自然语言大模型赚钱新思路
最近国内开源了基于Meta发布的llama2大模型进行了微调的中文大模型中文LLaMA-2基座模型和Alpaca-2指令精调大模型支持各种方式推演,包括llama.cpp,text-generation-webui等等,简介如下:鉴于我们之前搭建过text-generation-webui环境,不会搭建的可以参考我之前的图文如何优雅的使用各类LLM,所以这次我还是选择用这个环境来跑这个llama-...
2023-08-18 10:03:22 167
原创 T2I调参就到此为止吧
StableDiffusion作为开源图像生成平台发布至今也有相当长的一段时间了,网络上针对SD也有各种各样的应用,比如我之前写的多篇关于SD的图文利用AI神器——StableSR 让普通图片瞬间变身精美画作;让赫敏唱蔡健雅的歌,毫无违和感,有了reference only,还需要LoRA吗等等,都需要进行各种各样的调参,调整提示词等各种操作,非常不利于生产,也非常不注重交互。...
2023-08-16 17:45:33 103
原创 让赫敏唱蔡健雅的歌,毫无违和感
只需一人物脸部照片,即可让照片3D化,并让嘴型和歌曲基本吻合。到底是怎么做到的呢?它就是SadTalker,那个这个技术原理到底是什么呢,老规矩,我们还是让AI来帮我们读这篇CVPR 2023的论文SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking...
2023-08-02 10:34:28 83
原创 永远也忘不了小龙女脸上的那块手帕
“小时候看神雕侠侣留下的伤痛,尹志平盖在小龙女脸上的那块手帕,所有的幻想瞬间破灭,为了弥补遗憾,决定让AI重塑小龙女”首先我们让claude.ai为我们生成SDXL提示词,在claude中输入prompt如下:你是一个专业的著作评论家,你非常善于对文学作品或者影视作品中的人物做深入的分析和描述,指出人物的性格特点、内心世界以及在作品中的意义等等,你的评论和分析能让读者更加深入地理解作品情节和故事人...
2023-08-01 15:49:28 173
原创 infinigen程序化生成3D视野
"Minecraft我的世界相信很多人都玩过,但是仅仅一个像素风的沙盒游戏体验,想想一下,如果能将这个像素风的画面通过程序化的方式渲染成逼真的视野,岂不美哉"最近AIGC领域出现了这样一篇论文,可以使用程序化的方式生成无限、3D逼真的视野。主要是基于blender来完成。虽然现阶段还处于一个比较初级的玩法,但是也可以粗略感受一下他的强大。首先,我们还是找到git仓库princeton-vl/inf...
2023-07-28 08:00:56 221
原创 AI读天涯神贴----人,应该怎么活
接着上一期AI读天涯神贴----开悟其实很简单,这期我们来用AI读另外一篇神帖-----------《人,应该怎么活》下面是帖子中的一些节选“老家有句话,叫春天戳一棍,秋天吃一顿!意思是,春天用个棍子在地上捅个窟窿,扔进种子,那秋天就有可能因此吃上一顿的果实!春天,这是时令,其实就是契机,或者关键的时间点!戳一棍,指的是“花费一点点功夫”,投资领域,即为“很微小的风险”;秋天,则是另一个时令或者契...
2023-07-27 08:00:41 97
原创 AI读天涯神贴----开悟其实很简单
很多年前,天涯社区曾出现了不少深受欢迎的帖子,成功地预言了许多形势和事件。这些帖子因此被冠以“天涯神帖”之名。遗憾的是,由于各种原因,天涯论坛目前已经无法打开。幸运的是,有人收集了这些帖子,并将它们整理为一份完整的合集。今天我们就尝试用AI来读其中的一篇----《开悟其实很简单》,原文很长,,做了部分的语音,大家可以听一下。开悟其实很简单——人人都可以轻轻松松开悟有没有开悟?如何开悟?开悟之后是个...
2023-07-26 15:46:47 1870
数字图像处理论文(基于小波变换的图像压缩)
2010-11-24
基于matlab的数字图像处理论文
2010-11-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人