Article
Cursor中的Claude 3.7 Sonnet Max详细评测:超大上下文却不一定值得买单
Cursor最近推出了全新的Claude 3.7 Sonnet Max模型,被称为”史上最强代码助手”。这一模型承诺带来革命性的编程体验,但实际表现如何?我们深入研究了官方资料、真实用户反馈,为您带来一份全面客观的评测报告。
一、Claude 3.7 Sonnet Max:官方特性解析
1. 核心技术特点
根据官方介绍,Claude 3.7 Sonnet Max基于Anthropic的Claude 3.7 Thinking模型打造,具备以下关键特性:
- 超大上下文窗口:支持高达200k tokens的上下文长度,理论上能一次性处理整个代码库
- 增强工具调用能力:单次请求最多可执行200次工具调用,大幅超过常规模型的25次限制
- 增强代码理解:每次工具调用可读取更多文件内容,提升对复杂项目的理解能力
- 思考模式优化:Cursor团队对提示词和上下文进行了特别优化,以最大化Claude思考能力
2. 定价模式
Claude 3.7 Sonnet Max采用按使用量付费的模式:
- 每次提示(prompt)请求:$0.05美元
- 每次工具调用(tool call):$0.05美元
官方明确表示这是一个”昂贵的模型”,不适合普通用户日常使用,主要面向需要处理复杂代码任务的高级开发者。
二、用户真实体验:Reddit社区反馈分析
通过分析Reddit上Cursor社区的用户反馈,我们发现了一些值得注意的共性问题和使用心得:
1. 价格问题与使用成本
多位用户报告使用Claude 3.7 Sonnet Max几小时就花费了\(50-\)55美元。一位用户JohnDotOwl分享:
“在短短几小时内花费超过$50后,我对Max Sonnet整体非常失望…这个选项绝对会让你破产,却几乎没有相应回报。”
另一位用户unknownstudentoflife指出:
“每个请求对我来说平均有20次工具调用。按照这个计算,一个请求要花费1美元,是GPT-4.5请求价格的一半。”
2. 实际表现与宣传差距
许多用户表示,尽管拥有更大的上下文窗口,Claude 3.7 Sonnet Max在实际使用中仍存在以下问题:
- 忽视指令和规则:多位用户提到模型经常忽略明确的指示和Chat中的规则,需要不断提醒
- 过度工程化倾向:有用户反映模型倾向于过度复杂化简单问题,导致代码膨胀
- 与普通3.7版本区别不大:多数用户认为Max版本的实际表现与普通的Claude 3.7相差不多
用户Mysterious-Age-8514观察到:
“这就是为什么我不相信仅仅增加上下文窗口大小就能使LLM更可靠。尽管上下文更大,它仍然忽略cursor规则、我提示中的重要项目和提供的上下文文件部分。”
3. 上下文窗口实际应用问题
特别值得注意的是,多位用户质疑Claude 3.7 Sonnet Max是否真正利用了其宣传的200k上下文窗口。用户Torres0218指出:
“你的'Max'模式虽然有200k上下文窗口,但当我引用一个目录时,它仍然一次只读取一个文件中约200行。这根本不是'Max'…”
另一位用户jdros15也问道:
“为什么它仍然无法读取一个不到600行代码的完整文件,即使有200k上下文?”
还有用户反映使用体验与常规版本相似,聊天仍会定期提示”开启新对话以保持高性能”,质疑所谓的”Max上下文”是否名实相符。
三、实际应用场景分析
尽管存在上述问题,Claude 3.7 Sonnet Max在特定场景下仍然表现出一定优势。
1. 适合的使用场景
根据用户体验反馈,Claude 3.7 Sonnet Max在以下场景可能更有价值:
- 大型代码库重构:需要理解和修改跨越多个文件的复杂功能
- 复杂逻辑实现:需要多次工具调用和大量上下文理解的任务
- 预算充足的高级项目:对性能要求极高且预算充足的专业开发团队
用户ILikeBubblyWater指出:
“在使用了一晚上的3.7 Max后,我切换回了3.5。我老实说看不到足够的价值。我99%的任务都可以用3.5解决,只有在需要重构大型功能并需要大量上下文理解时,我才会切换到3.7 Max。”
2. 不推荐的使用场景
以下场景可能不值得使用Claude 3.7 Sonnet Max:
- 日常编码任务:简单的功能实现或bug修复
- 预算有限的个人开发者:考虑到每次请求和工具调用都收费的模式
- 简单项目开发:不需要大量上下文理解的小型项目
四、与其他AI编程工具对比
为了全面评估Claude 3.7 Sonnet Max的价值,我们将其与主流AI编程工具进行对比:
| 特性 | Claude 3.7 Sonnet Max | 普通Claude 3.5 Sonnet | GPT-4系列 | Deepseek R1 |
|---|---|---|---|---|
| 上下文窗口 | 200k | 约100k | 128k-200k | 32k |
| 单次工具调用限制 | 200 | 25 | 不详 | 不详 |
| 价格结构 | 按使用量($0.05/次) | 订阅制 | 订阅+使用量 | 订阅制 |
| 代码理解能力 | 优秀 | 优秀 | 优秀 | 极好 |
| 适合用户群体 | 专业开发团队 | 一般开发者 | 各类用户 | 代码重度用户 |
部分用户提到在复杂任务上,对比其他选择:
“当我遇到真正困难的问题时,我会启动Claude Code。在我看来,它对于困难任务效果更好。它也很贵,但能完成工作。” – 用户Skaddicted
“当前我同时使用Cursor和通过MCPs的Claude应用。使用带有记忆、文件系统和Brave MCPs的Claude应用项目非常有益,因为我发现它分析和理解文件的效果更好。” – 用户MrTnCoin
五、总结:是否值得使用?
综合官方特性和用户真实反馈,我们可以得出以下结论:
优点
- 理论上支持200k超大上下文窗口,适合复杂项目
- 单次请求最多支持200次工具调用,便于处理复杂逻辑
- 基于Claude 3.7 Thinking模型,思考能力强
- 对大型代码库有更好的理解能力
缺点
- 价格昂贵,使用几小时可能花费$50+
- 实际上下文利用效率受到质疑,可能未充分利用200k容量
- 与普通Claude 3.7相比优势不明显
- 存在忽视指令、过度复杂化解决方案的问题
最终建议
适合用户:
- 处理特别复杂的代码重构项目的专业开发团队
- 预算充足且需要深度代码理解的高级用户
- 大型企业开发环境中需要快速理解复杂代码库的场景
不适合用户:
- 个人开发者和预算有限的小团队
- 日常编码和一般开发任务
- 价格敏感的用户
正如一位用户所总结:
“我完全可以接受Max选项带来的成本,前提是它能提供等值的回报。但目前,它绝对做不到这一点。”
最终,Claude 3.7 Sonnet Max是一个有潜力但尚未完全实现承诺的工具。对于大多数用户而言,继续使用Claude 3.5或普通的Claude 3.7可能是更经济实惠的选择。
本文基于2025年3月的最新用户反馈和官方信息撰写,仅代表评测时的情况,随着产品迭代可能会有变化。