场景描述
Fotor 深耕图像处理领域超过 15 年,持续不断进行产品创新,创造更好的用户体验,让人人都能更高效地创作出专业水平的作品。随着生成式 AI 的出现,图片图像编辑行业迎来了全新机遇,Fotor 率先将生成式 AI 技术融入设计、编辑等创作工作流程中,已经实现了文生图、图生图、文生视频、图生视频和视频编辑等场景的应用。用户可以使用 Fotor 对图片素材进行抠图、特效、设计等多种形式的编辑,输出可直接应用于电商广告、新媒体推广、PPT 生成等商业场景中。
然而,生成式 AI 促进 Fotor 在产品功能、业务模式、成本效益等方面增强竞争力,与此同时也带来了挑战:
- 面对全球 6 亿用户带来的全天高并发需求,如何降低高并发场景下的推理时延,提升并发需求的处理效率;
- 如何降低人工投入,经济、高效、智能地对图片图像素材打标;
- 如何对用户生成内容进行全面、智能的审核,过滤不合规、不健康内容,并迅速应对处理;
- 此外,如何将生成式 AI 应用集成到现有业务系统中,以及训练开发新模型,对于 Fotor 的现有能力也是挑战。
解决方案
采用 Amazon SageMaker 异步推理功能,降低模型高并发场景下的推理时延,加快用户请求的处理效率时间。
作为面向全球 6 亿用户的一站式图片编辑和设计工具,Fotor 业务部署在美国东部、美国西部、雅加达、法兰克福、圣保罗等区域,其业务波峰波谷起伏不大,峰谷之间的需求差异不超过 25%,并发需求一直较高。
高并发需求下的推理时延是 Fotor 要解决的关键问题之一。Fotor 采用 Amazon SageMaker 异步推理功能,结合使用 Amazon SQS、Amazon SNS、Amazon EC2 调度能力,高效实现异步推理应对高并发用户需求,使得推理时间比之前加快 50% 以上,每条需求的处理时间从原来的 10~20 秒降低到 7~8 秒,用户等待时间大大减少。
通过 Amazon Bedrock 调用大语言模型,提升素材标注效率和准确度,通过语义拓展提升图片/视频生成效果。
对图片进行标注是 Fotor 一项重要业务场景。以前,采用大规模外包人力来处理这类需求,由人工对素材的特点、色彩、美学等各个维度打上标签,但人工面临着易疲劳、时间长效率下降、过于依赖预置模板等问题,导致标注效果不尽如意。
现在,针对 Fotor 的海外业务,通过 Amazon Bedrock 调用 LLM(Large Language Model,大语言模型)模型,对图片或影像素材进行标注,不仅标注效率比传统人工标注高很多,而且标签的准确度和丰富性也得到了显著提升,极大地提升了以此为素材训练的模型的泛化能力,使得生成的内容更丰富、准确度更高。
在用户利用 LLM 实现文生成图或视频过程中,若输入或提示词不完整,Fotor 可结合用户的历史信息和输入,对其进行提取并识别用户的倾向或意图,通过 LLM 结合 Prompting(提示词工程)优化,进行语义扩展,生成更贴合用户需求的图片或视频等。
对于图生图场景,Fotor 可通过 LLM 对原图先进行反推,获取到用户未直接描述的语义信息,然后基于反推出的信息再做下一步编辑,在原图基础上根据语义拓展生成更符合期望的图片。
通过 Amazon Rekognition 高效进行图片审核,直接给出置信度以迅速处理。
如何对 LLM 生成的内容进行高效审核和过滤,是生成式 AI 应用中面临的共同问题。用户在利用 Fotor 生成的图片中,可能涉及到不合法、不健康的内容,因此 Fotor 需要对用户生成的图片进行审核,并将不满足审核要求的内容过滤出去。借助亚马逊云科技 Amazon Rekognition,利用机器学习自动执行图像识别和视频分析并降低成本,针对包含暴力、低俗等在内的 10 多类不合法、不健康内容,采用预先训练和可定制的计算机视觉功能,从图片中提取信息、获取洞察,并针对审核的素材直接给出具体置信度,如判断某图片跟暴力相关的置信度为 96%,Fotor 无需自己开发模型,即可直接参考该置信度,迅速做出下一步处理。
采用 Amazon SageMaker 的模型训练等功能,加快定制开发自有图片和视频模型
基于开源模型调优是 Fotor 应用 LLM 的方式之一。但一方面,开源模型普遍存在知识产权不够明晰的问题,另一方面,前期实践表明,基于开源模型生成的内容,即便经过多轮调优,在图文准确度和美学等方面与 Fotor 的业务需求还存在差距。为了生成符合期望的图片和视频, Fotor 采用 Amazon SageMaker 的模型训练等功能,基于自身在图片图像编辑领域的深厚经验和长期积累的数据,在开源模型基础上加快定制开发自有知识产权的图片和视频模型。
成效
推出数百个生成式 AI 支撑的新特性,用户满意度增强 20%
自 2022 年 10 月开始引入生成式 AI 以来,Fotor 已经陆续推出了数百个生成式 AI 支撑的新特性,如为文生图提供多种类型模板,为图生图、文生视频预置好多种参数的模板,还可根据用户的应用场景提供预置工作流等。有了这些新特性后,用户无需再使用复杂的图片编辑软件,即可借助 Fotor 丰富的生成式 AI 功能和便捷模板,自助、低成本生成符合期望的图像或视频等。针对海外业务,通过 Amazon Bedrock 调用 LLM 丰富图文创意特性,Fotor 优化原有图文设计、编辑流程,帮助海外用户满意度提升 20%。
每秒可处理 300 个并发需求,并发性能给用户带来流畅体验
Fotor 在全球拥有 6 亿用户,用户的并发需求持续处于高位,若需求处理不及时将影响用户体验。采用 Amazon SageMaker 异步推理功能后,Fotor 每秒能够处理的并发需求数可达到 300 个,大大减少用户等待时间,给用户带来了更流畅的使用体验。
推动日活用户实现十倍增长,收入大幅增长
借助 Amazon Bedrock 调用 LLM 为 Fotor 带来创意新功能,增强海外用户体验,推动了 Fotor 进行商业探索,实现日活用户十倍增长,收入也大幅增长。
资源更优调配,组织人效实现数倍提升
借助生成式 AI 后,以前投入在重复性基础工作中的人力如素材标注和内容审核人员可被释放出来,相关资源可调配到更具创造力的岗位中,让组织的整体人效得到数倍提升。
根据《网络安全法》实名制要求,请绑定手机号后发表评论