2024T-EDGE文章详情顶部

免费 AI “神器”系列第六弹:Stability AI三款图片视频震撼发布,金融助手Finpilot轻松分析阿里腾讯业绩|钛媒体AGI

AGI的潜力究竟有多大?

近期,生成式人工智能(AIGC)领域又涌现出多款创意十足的新应用。

今天,钛媒体AGI梳理了免费 AI “神器”系列第六弹,共五款,其中不少产品再一次拓宽了我们对AI的想象力。

  • AI视频生成平台——Stable Video
  • 跨模态大预言模型——AnyGPT
  • 实时人脸互换直播工具——SwapStream
  • 声画分离模型——PixelPlayer
  • 金融分析师的人工智能助手——Finpilot

1、Stability AI三连发:Stable Diffusion 3、Stable Video、Creative Upscaler

继OpenAI发布的视频生成模型Sora风靡全球之后,AI 文生图和视频领域竞争加速,行业“鼻祖”、生成式 AI 技术公司Stability AI 2月22日-23日连续推出三款新产品:Stable Diffusion 3、Stable Video、Creative Upscaler,迎战Sora。

产品信息:首先,Stable Diffusion 3是目前全球最强大的文生图模型,生图质量有很大改进,支持多主题提示,参数量从 800M 到 8B 不等,支持手机、电脑等便携式设备使用,大大降低AI大模型的使用门槛。

其次,Stable Video是基于Stable Video Diffusion技术推出的 AI 视频生成平台,支持生成高质量视频,新增了镜头控制等功能,用户可以通过该工具快速创建高质量的视频内容,无需专业技能和复杂的软件,随时用 AI 生成视频。

最后,Creative Upscaler是该公司新推出的 AI 图像提升增强工具,可以将图像升级到4k分辨率,并创造以前没有的新细节等,从而赋予图像新生命。

产品功能:Stable Diffusion 3与之前版本一致,采用了与Sora一样的Diffusion Transformer架构,直接生成逼真的 AI 图片,不过目前还没有全面开放,权重也没有公布。团队提到,他们正在采取一些安全措施,防止不法分子滥用。想要尝鲜的用户可以通过https://stability.ai/stablediffusion3申请。

Stable Video支持基于 AI 的图生视频和文生视频,比上一代升级优化了画面稳定性、运动幅度、画面细节处理等功能,以及新增镜头控制能力。如今,用户可以将记忆转化为动态影像,或通过文字创造全新的故事,可用于商业宣传视频、教学视频、产品展示等更多场景。

Stable Video付费方面,公测期间,用户每日登录都有150的积分,可免费用来生成15个视频,若用户有制作大量视频需求也可按需购买。目前主要有两种付费标准:一是10美元购买500积分,可制作50个视频,二是50美元购买3000积分,可制作300个视频。

最后是Creative Upscaler应用工具。其拥有分辨率提升、细节创造、创造力调整、面向高质量转换、原始图像保留、生命注入等独特的 AI 技术功能。与大多数同类 AI 产品不同,Creative Upscaler结合文本提示和图像,能创造出原本不存在的新细节,为图像赋予新的生命和可能性。

体验地址:https://www.stablevideo.com/

https://creator.nightcafe.studio/stability-ai-creative-upscaler

2、实时人脸互换直播工具——SwapStream

产品信息:SwapStream是一款基于 AI 与云技术的实时人脸互换直播工具,用户无需下载,可直接通过浏览器实现人脸互换直播。

产品功能:SwapStream可将任意人脸实时互换到直播视频中,同时支持多个直播平台同步,还可添加自定义RTMP直播通道等。使用简单、扩展性强,适用于各类直播场景,主要受众人群包含需要进行人脸互换的直播、需要快速设置直播环境的用户以及需要扩展直播范围的主播等。

体验地址:https://www.swapstream.ai/

3、跨模态大语言模型——AnyGPT

产品信息:AnyGPT是由复旦大学、上海人工智能实验室等机构联合推出的一款多模态大语言模型,该模型采用离散表示技术,通过在各模态输入上进行离散标记,实现了多模态信息的统一处理。

产品功能:首先AnyGPT可进行任何模态的输入和输出,无论是文本、图像、音频或是视频都支持输入,并可生成任何模态的输出。

其次,AnyGPT可进行多模态理解和生成,能从一个模态接收输入并在另一个或多个模态中生成输出。如它可以从文本生成音乐,从语音生成图片等。

最后,AnyGPT可实现任意模态转换,如将语音指令转换成文本+图片+音乐的响应,或将语音+音乐转换成图像+文本的响应。

项目及演示地址:https://junzhan2000.github.io/AnyGPT.github.io/

4、声画分离模型——PixelPlayer

产品信息:PixelPlayer 是一款声画分离模型,能通过分析大量未标记的视频,识别视频中哪些区域在产生声音,并将声音分离成代表每个像素声音的组件。该模型由麻省理工学院计算机科学与人工智能实验室开发。

产品功能:PixelPlayer 能处理和识别人们演奏不同乐器的视频,并对单声道音频输入进行音视频源分离和定位,最终实现将声音信号分割成多个通道,每个通道对应一个乐器类别,并能为视频中的每个像素指定一个独立的音频波形。

在PixelPlayer开发团队的演示视频中,点击视频上的不同区域(对象:乐器或空气),会发出不同的声音。

在PixelPlayer开发团队的演示视频中,点击视频上的不同声源区域,会发出不同的声音。

PixelPlayer为音视频编辑、多媒体内容制作、增强现实应用等领域提供了强大的工具,使得独立调整视频中不同声音源音量、去除或增强特定声音源等操作成为可能。截至发稿,PixelPlayer在Github上已累积351颗星。

体验地址:http://sound-of-pixels.csail.mit.edu/

5、金融分析师的人工智能助手——Finpilot

产品信息:Finpilot是一款由西雅图初创公司Finpilot推出、专门为金融分析师设计的 AI 助手应用,以生成式 AI 技术为核心,旨在协助金融分析师进行研究和解答金融问题。

产品功能:Finpilot可帮助分析师快速搜集和分析金融数据,股票分析,编写报告,以及进行数据可视化。同时,Finpilot提供可验证的信息来源,保证数据研究质量。用户只需与Finpilot对话,即可获取对应的金融或财务数据,从而简化金融分析工作流程,大幅提高工作效率。

例如,通过问答,用户可获取阿里巴巴、腾讯、HAL等公司分部过去五年的收入数据,以及比较SNOW、CRWD等多个公司净留存率等。

另外,2月23日,Finpilot还官宣完成由Madrona领投的400万美元的融资。Finpilot表示,本轮融资的资金主要用于扩大技术团队和升级软件功能,包括引入更先进的自然语言处理技术、提高ChatGPT在金融领域的应用和智能水平,以及部分用于市场推广,以增强软件在金融行业的影响力。

体验地址:https://www.finpilotai.com/

(本文首发钛媒体App,作者|章橙,编辑|林志佳)

 

本文系作者 章橙 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

AWARDS-文章详情右上

扫描下载App