刚刚,OpenAI最强竞对发布Claude 3,超过GPT-4,具有接近人类的理解能力

钛度号
“在推理、数学、编码、多语言理解和视觉方面树立了新的行业基准”。

图片来源@视觉中国

图片来源@视觉中国

文 | 学术头条

刚刚,被称为“OpenAI最强竞对”的大模型公司 Anthropic 重磅发布了其第三代人工智能(AI)模型 ——Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku

其中,Claude 3 Opu 为 Claude 3 系列模型的最强版本,具有接近人类的理解能力,可以灵巧地处理开放式提示和复杂的任务,根据官方给到的资料,其性能全面超过了 GPT-4。

值得一提的是,Claude 3 系列模型具有与其他领先模型同等的复杂视觉功能,可以处理各种视觉格式,包括照片、图表、图形和技术图表。  

Anthropic 在其官方 X 上表示,Claude 3 系列模型“在推理、数学、编码、多语言理解和视觉方面树立了新的行业基准”。 

据介绍,Claude 3 Opus 和 Claude 3 Sonnet 现已可以通过 API 直接访问。目前,API 也已全面开放,开发人员可立即开始使用这些模型。

另外,Claude 3 Sonnet 还可以供部分地区的用户在网站(http://claude.ai)上免费体验,而 Claude 3 Opus 的使用权限,则只开放给了 Claude Pro 用户。

此外,Anthropic 团队还表示,Claude 3 系列模型解决了之前模型经常出现“不必要的拒绝”的问题。

智能新标准

评测结果显示,Claude 3 Opus 在 AI 系统的大多数常用评估基准上都优于同类产品,包括本科生水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上表现出了接近人类水平的理解力和流畅性,“引领着通用智能的前沿”。

所有 Claude 3 模型在分析和预测、细微内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的能力都得到了提高。

近乎即时的结果

Claude 3 系列模型支持实时客户聊天、自动完成和数据提取任务,在这些任务中,响应是即时和实时的。

其中,Claude 3 Haiku 是市场上同智能类别中速度最快、性价比最高的模型。它可以在三秒内读取 arXiv 上一篇信息和数据密集的研究论文(约 10k token),并附带图表和图形。

在绝大多数工作负载中,Claude 3 Sonnet 的智能水平比 Claude 2 和 Claude 2.1 高出了 2 倍。它在知识检索或销售自动化等要求快速响应的任务中表现出色。Claude 3 Opus 的速度要慢一些,与 Claude 2 和 Claude 2.1 类似,但智能水平更高。

准确性提高

与 Claude 2.1 相比,Claude 3 Opus 在具有挑战性的开放式问题上的准确率(或正确答案)提高了两倍,同时也减少了错误答案。

除了做出更可信的回答外,Claude 3 系列模型为来将启用引用功能,这样就可以通过指出参考资料中的精确句子来验证答案。 

200K 上下文窗口和近乎完美的记忆

现在,Claude 3 系列模型可提供 200K 上下文窗口。不过,所有三种型号都能接受超过 100 万个 token 的输入,未来也可能会向需要增强处理能力的特定客户提供这种服务。另外,Claude 3 Opus 实现了接近完美的召回率,准确率超过 99%。

Anthropic 团队表示,为提高模型的安全性和透明度,他们将继续开发诸如宪法人工智能(Constitutional AI)等方法,并对模型进行微调,以减轻新模式可能带来的隐私问题。

虽然与之前的模型相比,Claude 3 系列模型在生物知识、网络相关知识和自主性等关键指标上取得了进步,但根据“负责任扩展政策”( Responsible Scaling Policy),仍处于 AI 安全等级 2(ASL-2)。红队评估结果显示,Claude 3 系列模型目前造成灾难性风险的可能性微乎其微。

更易于使用

Claude 3 系列模型更善于遵循复杂的多步骤指令。它们尤其擅长遵循品牌声音和响应准则,并开发出用户可以信赖的面向客户的体验。此外,Claude 3 系列模型更善于以 JSON 等格式生成流行的结构化输出,从而更易于指导自然语言分类和情感分析等用例。

在官方博客的最后,Anthropic 团队写道: “在推动 AI 能力发展的同时,我们也同样致力于确保我们的安全防护措施能够跟上性能飞跃的步伐。我们的假设是,站在 AI 发展的前沿是引导其走向积极社会成果的最有效方式。” 

参考链接:

  • https://www.anthropic.com/news/claude-3-family 
本文系作者 学术头条 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

2024-11-08 23:04

美国密歇根大学11月份消费者信心指数报73.0

2024-11-08 23:03

WTI原油日内跌幅达2%

2024-11-08 23:02

鼎益丰控股:11月5日通告中所提述有关欺诈或其他不当行为的指控不涉及公司或其任何附属公司

2024-11-08 23:02

大商所、郑商所夜盘收盘,纯碱跌超3%

2024-11-08 23:01

纳斯达克中国金龙指数日内跌幅扩大至4%

2024-11-08 22:56

化债组合拳来了!新增6万亿,利息节省6000亿,蓝佛安重磅发声速览

2024-11-08 22:52

铁矿石期货主力合约跌幅扩大至3%

2024-11-08 22:51

3倍做多富时中国ETF跌超14%

2024-11-08 22:45

特斯拉刷新两年多以来最高点

2024-11-08 22:44

意大利返还的56件中国文物艺术品回归祖国

2024-11-08 22:36

19万元Model 3开回家,特斯拉迎来历史最低价格

2024-11-08 22:32

美股开盘:三大指数涨跌不一,热门中概股普跌,中概股指跌近3%

2024-11-08 22:30

澳门特区行政长官贺一诚会见中国航空集团董事崔晓峰一行

2024-11-08 22:29

10月证券私募新增数量为0

2024-11-08 22:18

同花顺:股东杭州凯士顺拟减持不超过0.5%公司股份

2024-11-08 22:15

成渝两地启动发现“金种子”评选,将为获奖企业提供金融支持

2024-11-08 22:10

商务部部长王文涛会见挪威渔业与海洋大臣纳斯

2024-11-08 22:09

离岸人民币兑美元一度下跌超400点

2024-11-08 22:02

我国自主研发空气质量模式EPICC-Model发布

2024-11-08 21:58

贝莱德比特币ETF资产规模已超过其黄金ETF

扫描下载App