Article

Cursor中的Claude 3.7 Sonnet Max详细评测:超大上下文却不一定值得买单

 

Cursor最近推出了全新的Claude 3.7 Sonnet Max模型,被称为”史上最强代码助手”。这一模型承诺带来革命性的编程体验,但实际表现如何?我们深入研究了官方资料、真实用户反馈,为您带来一份全面客观的评测报告。

一、Claude 3.7 Sonnet Max:官方特性解析

1. 核心技术特点

根据官方介绍,Claude 3.7 Sonnet Max基于Anthropic的Claude 3.7 Thinking模型打造,具备以下关键特性:

  • 超大上下文窗口:支持高达200k tokens的上下文长度,理论上能一次性处理整个代码库
  • 增强工具调用能力:单次请求最多可执行200次工具调用,大幅超过常规模型的25次限制
  • 增强代码理解:每次工具调用可读取更多文件内容,提升对复杂项目的理解能力
  • 思考模式优化:Cursor团队对提示词和上下文进行了特别优化,以最大化Claude思考能力

2. 定价模式

Claude 3.7 Sonnet Max采用按使用量付费的模式:

  • 每次提示(prompt)请求:$0.05美元
  • 每次工具调用(tool call):$0.05美元

官方明确表示这是一个”昂贵的模型”,不适合普通用户日常使用,主要面向需要处理复杂代码任务的高级开发者。

二、用户真实体验:Reddit社区反馈分析

通过分析Reddit上Cursor社区的用户反馈,我们发现了一些值得注意的共性问题和使用心得:

1. 价格问题与使用成本

多位用户报告使用Claude 3.7 Sonnet Max几小时就花费了\(50-\)55美元。一位用户JohnDotOwl分享:

“在短短几小时内花费超过$50后,我对Max Sonnet整体非常失望…这个选项绝对会让你破产,却几乎没有相应回报。”

另一位用户unknownstudentoflife指出:

“每个请求对我来说平均有20次工具调用。按照这个计算,一个请求要花费1美元,是GPT-4.5请求价格的一半。”

2. 实际表现与宣传差距

许多用户表示,尽管拥有更大的上下文窗口,Claude 3.7 Sonnet Max在实际使用中仍存在以下问题:

  • 忽视指令和规则:多位用户提到模型经常忽略明确的指示和Chat中的规则,需要不断提醒
  • 过度工程化倾向:有用户反映模型倾向于过度复杂化简单问题,导致代码膨胀
  • 与普通3.7版本区别不大:多数用户认为Max版本的实际表现与普通的Claude 3.7相差不多

用户Mysterious-Age-8514观察到:

“这就是为什么我不相信仅仅增加上下文窗口大小就能使LLM更可靠。尽管上下文更大,它仍然忽略cursor规则、我提示中的重要项目和提供的上下文文件部分。”

3. 上下文窗口实际应用问题

特别值得注意的是,多位用户质疑Claude 3.7 Sonnet Max是否真正利用了其宣传的200k上下文窗口。用户Torres0218指出:

“你的'Max'模式虽然有200k上下文窗口,但当我引用一个目录时,它仍然一次只读取一个文件中约200行。这根本不是'Max'…”

另一位用户jdros15也问道:

“为什么它仍然无法读取一个不到600行代码的完整文件,即使有200k上下文?”

还有用户反映使用体验与常规版本相似,聊天仍会定期提示”开启新对话以保持高性能”,质疑所谓的”Max上下文”是否名实相符。

三、实际应用场景分析

尽管存在上述问题,Claude 3.7 Sonnet Max在特定场景下仍然表现出一定优势。

1. 适合的使用场景

根据用户体验反馈,Claude 3.7 Sonnet Max在以下场景可能更有价值:

  • 大型代码库重构:需要理解和修改跨越多个文件的复杂功能
  • 复杂逻辑实现:需要多次工具调用和大量上下文理解的任务
  • 预算充足的高级项目:对性能要求极高且预算充足的专业开发团队

用户ILikeBubblyWater指出:

“在使用了一晚上的3.7 Max后,我切换回了3.5。我老实说看不到足够的价值。我99%的任务都可以用3.5解决,只有在需要重构大型功能并需要大量上下文理解时,我才会切换到3.7 Max。”

2. 不推荐的使用场景

以下场景可能不值得使用Claude 3.7 Sonnet Max:

  • 日常编码任务:简单的功能实现或bug修复
  • 预算有限的个人开发者:考虑到每次请求和工具调用都收费的模式
  • 简单项目开发:不需要大量上下文理解的小型项目

四、与其他AI编程工具对比

为了全面评估Claude 3.7 Sonnet Max的价值,我们将其与主流AI编程工具进行对比:

特性 Claude 3.7 Sonnet Max 普通Claude 3.5 Sonnet GPT-4系列 Deepseek R1
上下文窗口 200k 约100k 128k-200k 32k
单次工具调用限制 200 25 不详 不详
价格结构 按使用量($0.05/次) 订阅制 订阅+使用量 订阅制
代码理解能力 优秀 优秀 优秀 极好
适合用户群体 专业开发团队 一般开发者 各类用户 代码重度用户

部分用户提到在复杂任务上,对比其他选择:

“当我遇到真正困难的问题时,我会启动Claude Code。在我看来,它对于困难任务效果更好。它也很贵,但能完成工作。” – 用户Skaddicted

“当前我同时使用Cursor和通过MCPs的Claude应用。使用带有记忆、文件系统和Brave MCPs的Claude应用项目非常有益,因为我发现它分析和理解文件的效果更好。” – 用户MrTnCoin

五、总结:是否值得使用?

综合官方特性和用户真实反馈,我们可以得出以下结论:

优点

  • 理论上支持200k超大上下文窗口,适合复杂项目
  • 单次请求最多支持200次工具调用,便于处理复杂逻辑
  • 基于Claude 3.7 Thinking模型,思考能力强
  • 对大型代码库有更好的理解能力

缺点

  • 价格昂贵,使用几小时可能花费$50+
  • 实际上下文利用效率受到质疑,可能未充分利用200k容量
  • 与普通Claude 3.7相比优势不明显
  • 存在忽视指令、过度复杂化解决方案的问题

最终建议

适合用户

  • 处理特别复杂的代码重构项目的专业开发团队
  • 预算充足且需要深度代码理解的高级用户
  • 大型企业开发环境中需要快速理解复杂代码库的场景

不适合用户

  • 个人开发者和预算有限的小团队
  • 日常编码和一般开发任务
  • 价格敏感的用户

正如一位用户所总结:

“我完全可以接受Max选项带来的成本,前提是它能提供等值的回报。但目前,它绝对做不到这一点。”

最终,Claude 3.7 Sonnet Max是一个有潜力但尚未完全实现承诺的工具。对于大多数用户而言,继续使用Claude 3.5或普通的Claude 3.7可能是更经济实惠的选择。


本文基于2025年3月的最新用户反馈和官方信息撰写,仅代表评测时的情况,随着产品迭代可能会有变化。