免费 AI “神器”系列第六弹：Stability AI三款图片视频震撼发布，金融助手Finpilot轻松分析阿里腾讯业绩

近期，生成式人工智能（AIGC）领域又涌现出多款创意十足的新应用。

今天，钛媒体AGI梳理了免费 AI “神器”系列第六弹，共五款，其中不少产品再一次拓宽了我们对AI的想象力。

AI视频生成平台——Stable Video
跨模态大预言模型——AnyGPT
实时人脸互换直播工具——SwapStream
声画分离模型——PixelPlayer
金融分析师的人工智能助手——Finpilot

1、Stability AI三连发：Stable Diffusion 3、Stable Video、Creative Upscaler

继OpenAI发布的视频生成模型Sora风靡全球之后，AI 文生图和视频领域竞争加速，行业“鼻祖”、生成式 AI 技术公司Stability AI 2月22日-23日连续推出三款新产品：Stable Diffusion 3、Stable Video、Creative Upscaler，迎战Sora。

产品信息：首先，Stable Diffusion 3是目前全球最强大的文生图模型，生图质量有很大改进，支持多主题提示，参数量从 800M 到 8B 不等，支持手机、电脑等便携式设备使用，大大降低AI大模型的使用门槛。

其次，Stable Video是基于Stable Video Diffusion技术推出的 AI 视频生成平台，支持生成高质量视频，新增了镜头控制等功能，用户可以通过该工具快速创建高质量的视频内容，无需专业技能和复杂的软件，随时用 AI 生成视频。

最后，Creative Upscaler是该公司新推出的 AI 图像提升增强工具，可以将图像升级到4k分辨率，并创造以前没有的新细节等，从而赋予图像新生命。

产品功能：Stable Diffusion 3与之前版本一致，采用了与Sora一样的Diffusion Transformer架构，直接生成逼真的 AI 图片，不过目前还没有全面开放，权重也没有公布。团队提到，他们正在采取一些安全措施，防止不法分子滥用。想要尝鲜的用户可以通过https://stability.ai/stablediffusion3申请。

Stable Video支持基于 AI 的图生视频和文生视频，比上一代升级优化了画面稳定性、运动幅度、画面细节处理等功能，以及新增镜头控制能力。如今，用户可以将记忆转化为动态影像，或通过文字创造全新的故事，可用于商业宣传视频、教学视频、产品展示等更多场景。

Stable Video付费方面，公测期间，用户每日登录都有150的积分，可免费用来生成15个视频，若用户有制作大量视频需求也可按需购买。目前主要有两种付费标准：一是10美元购买500积分，可制作50个视频，二是50美元购买3000积分，可制作300个视频。

最后是Creative Upscaler应用工具。其拥有分辨率提升、细节创造、创造力调整、面向高质量转换、原始图像保留、生命注入等独特的 AI 技术功能。与大多数同类 AI 产品不同，Creative Upscaler结合文本提示和图像，能创造出原本不存在的新细节，为图像赋予新的生命和可能性。

体验地址：https://www.stablevideo.com/

https://creator.nightcafe.studio/stability-ai-creative-upscaler

2、实时人脸互换直播工具——SwapStream

产品信息：SwapStream是一款基于 AI 与云技术的实时人脸互换直播工具，用户无需下载，可直接通过浏览器实现人脸互换直播。

产品功能：SwapStream可将任意人脸实时互换到直播视频中，同时支持多个直播平台同步，还可添加自定义RTMP直播通道等。使用简单、扩展性强，适用于各类直播场景，主要受众人群包含需要进行人脸互换的直播、需要快速设置直播环境的用户以及需要扩展直播范围的主播等。

体验地址：https://www.swapstream.ai/

3、跨模态大语言模型——AnyGPT

产品信息：AnyGPT是由复旦大学、上海人工智能实验室等机构联合推出的一款多模态大语言模型，该模型采用离散表示技术，通过在各模态输入上进行离散标记，实现了多模态信息的统一处理。

产品功能：首先AnyGPT可进行任何模态的输入和输出，无论是文本、图像、音频或是视频都支持输入，并可生成任何模态的输出。

其次，AnyGPT可进行多模态理解和生成，能从一个模态接收输入并在另一个或多个模态中生成输出。如它可以从文本生成音乐，从语音生成图片等。

最后，AnyGPT可实现任意模态转换，如将语音指令转换成文本＋图片＋音乐的响应，或将语音＋音乐转换成图像＋文本的响应。

项目及演示地址：https://junzhan2000.github.io/AnyGPT.github.io/

4、声画分离模型——PixelPlayer

产品信息：PixelPlayer 是一款声画分离模型，能通过分析大量未标记的视频，识别视频中哪些区域在产生声音，并将声音分离成代表每个像素声音的组件。该模型由麻省理工学院计算机科学与人工智能实验室开发。

产品功能：PixelPlayer 能处理和识别人们演奏不同乐器的视频，并对单声道音频输入进行音视频源分离和定位，最终实现将声音信号分割成多个通道，每个通道对应一个乐器类别，并能为视频中的每个像素指定一个独立的音频波形。

在PixelPlayer开发团队的演示视频中，点击视频上的不同声源区域，会发出不同的声音。

PixelPlayer为音视频编辑、多媒体内容制作、增强现实应用等领域提供了强大的工具，使得独立调整视频中不同声音源音量、去除或增强特定声音源等操作成为可能。截至发稿，PixelPlayer在Github上已累积351颗星。

体验地址：http://sound-of-pixels.csail.mit.edu/

5、金融分析师的人工智能助手——Finpilot

产品信息：Finpilot是一款由西雅图初创公司Finpilot推出、专门为金融分析师设计的 AI 助手应用，以生成式 AI 技术为核心，旨在协助金融分析师进行研究和解答金融问题。

产品功能：Finpilot可帮助分析师快速搜集和分析金融数据，股票分析，编写报告，以及进行数据可视化。同时，Finpilot提供可验证的信息来源，保证数据研究质量。用户只需与Finpilot对话，即可获取对应的金融或财务数据，从而简化金融分析工作流程，大幅提高工作效率。

例如，通过问答，用户可获取阿里巴巴、腾讯、HAL等公司分部过去五年的收入数据，以及比较SNOW、CRWD等多个公司净留存率等。

另外，2月23日，Finpilot还官宣完成由Madrona领投的400万美元的融资。Finpilot表示，本轮融资的资金主要用于扩大技术团队和升级软件功能，包括引入更先进的自然语言处理技术、提高ChatGPT在金融领域的应用和智能水平，以及部分用于市场推广，以增强软件在金融行业的影响力。

体验地址：https://www.finpilotai.com/

（本文首发钛媒体App，作者｜章橙，编辑｜林志佳）