Claude 仍然领先,ChatGPT-5 反弹,Gemini 崛起——但新的 AI 模型在处理现实世界的 SEO 任务方面显示出局限性。
2025 年下半年发布的最新 AI 模型在执行 SEO 相关任务方面并没有改进。
TL;DR:你需要了解的关于 LLM 基准的知识
- Claude Opus 4.1 仍然是执行 SEO 相关任务(如技术 SEO、本地化、SEO 策略和页面优化)的最佳语言模型。
- 尽管公众对 ChatGPT-5 的首次发布反应负面,但在我们的基准测试中它还是有所改进。
- Copilot 利用 GPT-5 实现了与 OpenAI 模型相当的性能。由于之前的表现不佳,这次升级意义重大。
- Gemini 2.5 Pro 是第三个不错的选择。它对 SEO 和营销人员来说具有最大的潜在影响力,因为它集成了基础产品(Gmail、表格、幻灯片、文档)以及以 AI 为中心的功能,进一步提升了其实用性(Opal、NotebookLM)。
AI SEO基准
今年 4 月,Previsible 推出了AI SEO 基准测试,这是一项结构化的研究,旨在评估大型语言模型 (LLM) 在实际 SEO 任务中的有效性。这项研究重点回答了两个核心问题:
- 人工智能能否可靠地以专家级别执行 SEO 任务?
- 随着这些模型的改进,它们的实用性是否会改变营销人员为 SEO 和 GEO 任务提供资源的方式?
为了解答这些问题,我们精心挑选了一系列涵盖多个 SEO 领域的问题,涵盖内容策略、页面优化、链接建设以及技术 SEO。这些问题由一支经验丰富的 SEO 专家团队设计,他们在各自领域拥有 10 多年的经验。
然后,我们让优秀的法学硕士 (LLM) 回答这一系列问题,并对他们给出的答案进行 100 分制评分。这种基准测试方法反映了在软件开发、数学推理和基于逻辑的任务等领域如何测试人工智能的性能。
初步调查结果
我们四月份的第一次基准测试取得了令人印象深刻但并不令人意外的结果:
- LLM 在以内容为中心的 SEO 任务(如关键词策略和元数据创建)中表现良好。
- 然而,法学硕士在技术搜索引擎优化方面遇到了困难,因为精确度和可预测的思维至关重要。
新一波模特
从那时起,形势发生了巨大变化。几乎所有主要的人工智能提供商都发布了新模型(Meta 的 Llama 是个显著的例外)。随着这些更新功能的涌入,我们重新运行了基准测试并刷新了排行榜。
那么,最新的模型如何呢?这对SEO团队如何分配时间、工具和人才意味着什么?
在下一期中,我们将分享更新的分数、按 SEO 学科划分的绩效细分以及对营销人员的影响。
自 4 月份以来,情况发生了很大变化,现在让我们来看看排行榜,几乎所有主要的人工智能公司都发布了新模型(Llama 除外)。

该基准指数已出现一些波动,但尚未突破 4 月份的上限。
如果您不是经过培训的 SEO,我会非常谨慎地信任 LLM 来执行 SEO 任务。
在研究这篇文章时,我们联系了 SEO 社区,寻找 AI 失控的例子。
以下是一些示例:
- 我第一次使用AI进行SEO时,它发现了一些不存在的URL的404错误,而AI却声称这些URL有反向链接。我把这些发现报告给了开发团队和管理层,觉得这真是个“重大胜利”。
- 我需要为一个大型网站进行排名下降分析,而且周期很短。我通过 ChatGPT 进行了分析,其分类和洞察给我留下了深刻的印象。团队非常兴奋,希望进行深入研究、进一步分析,并展示分析结果。当我进一步深入挖掘后,发现所有底层的“分析”都大错特错,我不得不重新开始,这看起来真是愚蠢至极。
- LLM 根本不遵守字数限制;他们甚至不理解字数限制,所以我才这么认为。于是,我运行了一个脚本,自动编辑了几千页 HTML,结果却得到了整段内容和标题标签里的文章(通常最多 160 个字符!),而且费用也远超我的预期!
这些只是一些轶事,但都来自专业的SEO。如果你是一位关心搜索的高管,你仍然需要训练有素、能够正确运用LLM的SEO。
人工智能的进步是否已经放缓?
对于那些还没有“AGI 药丸”的人来说,你可能已经注意到了今年变化的缓慢步伐。虽然存在一些颠覆性变化,但主要还是在影响炒作泡沫,ChatGPT-5 在首次亮相后表现明显不佳。
根据伊利亚·苏茨基弗 (Ilya Sutskiver) 去年向路透社透露的消息,这并不奇怪,“扩大预训练规模(即训练使用大量未标记数据来理解语言模式和结构的人工智能模型的阶段)已经达到稳定状态”。
人工智能将继续进步。本基准测试重点关注当前的公用事业业务。
如果这些工具不能为我们当前的工作流程提供价值或效率,那它们还有什么用呢?谷歌在这方面一直在取得进展。
谷歌是一匹黑马
一年前,我对谷歌早期的 Gemini 型号不屑一顾。作为一名早期用户,它的体验实在令人失望,坦白说,根本用不上。然而,随着 Gemini 2.5 Pro 的发布,我的看法彻底改变了。
Gemini 2.5 不仅在我们的基准测试中表现出色,而且还与 Google 生态系统深度集成。这才是它真正的优势所在。
现在,我可以在一个界面内撰写电子邮件,它会自动识别我在 Google Drive 中创建的文档内容,引用日历中的会议记录,或者从 Google 文档和表格中提取洞察。这是一个真正无缝衔接的实用功能,目前其他 LLM 课程都无法提供如此大规模的帮助。
许多法学硕士项目都在努力构建可持续的护城河,而谷歌却已经拥有了:无处不在的数据集成。能够跨所有谷歌产品检索相关信息并采取行动,是一项难以复制的战略优势。
它完美吗?还没有。然而,如果产品改进的步伐持续下去,谷歌可能会悄然成为应用人工智能领域最强大的参与者。
应用基准:人工智能的现状
我们构建了这个基准测试,使其成为一个实时工具,随着新模型的发布和功能的演进,我们将持续更新它。那么,截至 2025 年 9 月,情况如何呢?
人工智能能否可靠地以专家级别执行 SEO 任务?
不。尽管法学硕士取得了重大进步,但大多数仍然缺乏专家级的执行力,特别是在需要细致入微的策略、技术精度或系统思维的领域。
模型改进是否会改变营销人员如何利用 SEO 和 GEO 功能?
意义不大。我们看到某些任务的速度和支持有所提升,但还不足以保证团队结构或投资策略的全面转变。其效用在于效率提升,而非规模自动化。
简而言之,不要指望 ChatGPT 或 Gemini 能取代你的 SEO 团队。只要合理使用,它们就能增强你的 SEO 团队。
人工智能在复杂任务上的表现仍然令人失望。但差距正在缩小。
请持续关注基准测试。更重要的是,抢在竞争对手之前开始利用这些工具。早期采用不仅能提高生产力,还能带来战略优势。