<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Iteration on Tao</title><link>https://743v45.github.io/di4urp/tags/iteration/</link><description>Recent content in Iteration on Tao</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><managingEditor>di4urp@gmail.com (taevas)</managingEditor><webMaster>di4urp@gmail.com (taevas)</webMaster><lastBuildDate>Wed, 15 Apr 2026 20:17:10 +0800</lastBuildDate><atom:link href="https://743v45.github.io/di4urp/tags/iteration/index.xml" rel="self" type="application/rss+xml"/><item><title>提示词优化迭代系统：多 Agent 协作的设计链路</title><link>https://743v45.github.io/di4urp/posts/prompt-optimization-iteration-system/</link><pubDate>Wed, 15 Apr 2026 20:17:10 +0800</pubDate><author>di4urp@gmail.com (taevas)</author><guid>https://743v45.github.io/di4urp/posts/prompt-optimization-iteration-system/</guid><description>&lt;h2 id="系统概述"&gt;系统概述&lt;/h2&gt;
&lt;p&gt;这是一个基于多 Agent 协作的提示词自动优化系统，通过迭代对比生成结果与参考标准，持续改进提示词质量，直至达到预设的一致性阈值。&lt;/p&gt;
&lt;h3 id="核心流程图"&gt;核心流程图&lt;/h3&gt;
&lt;div class="mermaid"&gt;flowchart TD
Start([开始]) --&gt; A[主 Agent: 准备初始提示词]
A --&gt; B[启动 Subagent 1&lt;br/&gt;任务: 使用提示词分析目标网站]
B --&gt; C{Subagent 1 生成文档}
C --&gt; D[输出: test/DESIGN.md]
D --&gt; E[主 Agent: 初步审查结果]
E --&gt; F[启动 Subagent 2&lt;br/&gt;任务: 对比两个 DESIGN.md]
F --&gt; G[Subagent 2 执行对比]
G --&gt; H{读取参考文档}
H --&gt; I[collections/nike/DESIGN.md&lt;br/&gt;（参考标准）]
G --&gt; J{读取测试文档}
J --&gt; K[test/DESIGN.md&lt;br/&gt;（待评估）]
I &amp; K --&gt; L[Subagent 2: 一致性分析]
L --&gt; M[生成评估报告]
M --&gt; N[输出: 一致性打分]
M --&gt; O[输出: 修改建议]
N --&gt; P{一致性评分}
P --&gt;|满意| Done([完成 - 迭代结束])
P --&gt;|需改进| Q[主 Agent: 根据建议优化提示词]
O --&gt; Q
Q --&gt; R[记录提示词版本]
R --&gt; S[版本历史库&lt;br/&gt;V1, V2, V3...]
S --&gt; B
style Start fill:#e1f5e1
style Done fill:#ffe1e1
style B fill:#e3f2fd
style F fill:#e3f2fd
style L fill:#fff3e0
style Q fill:#f3e5f5
style S fill:#fce4ec
&lt;/div&gt;
&lt;hr&gt;
&lt;h2 id="核心设计链路"&gt;核心设计链路&lt;/h2&gt;
&lt;h3 id="第一阶段初始化"&gt;第一阶段：初始化&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;角色：&lt;/strong&gt; 主 Agent&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;任务：&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;加载初始提示词模板&lt;/li&gt;
&lt;li&gt;配置目标网站 URL：&lt;code&gt;https://www.nike.com/&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;设置参考标准文档路径：&lt;code&gt;collections/nike/DESIGN.md&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;初始化版本历史库（空）&lt;/li&gt;
&lt;li&gt;设置一致性评分阈值（建议：85/100）&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;输出：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;初始提示词 V0&lt;/li&gt;
&lt;li&gt;迭代计数器 = 0&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id="第二阶段生成循环迭代核心"&gt;第二阶段：生成循环（迭代核心）&lt;/h3&gt;
&lt;h4 id="步骤-21启动生成-subagent"&gt;步骤 2.1：启动生成 Subagent&lt;/h4&gt;
&lt;p&gt;&lt;strong&gt;角色：&lt;/strong&gt; Subagent 1&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;任务：&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;接收当前版本的提示词&lt;/li&gt;
&lt;li&gt;访问目标网站 &lt;code&gt;https://www.nike.com/&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;使用提示词分析网站内容&lt;/li&gt;
&lt;li&gt;生成品牌设计文档&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;输出：&lt;/strong&gt; &lt;code&gt;test/DESIGN.md&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;关键技术点：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;网站内容抓取与解析&lt;/li&gt;
&lt;li&gt;基于提示词的结构化生成&lt;/li&gt;
&lt;li&gt;Markdown 格式输出&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h4 id="步骤-22主-agent-初步审查"&gt;步骤 2.2：主 Agent 初步审查&lt;/h4&gt;
&lt;p&gt;&lt;strong&gt;角色：&lt;/strong&gt; 主 Agent&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;任务：&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;读取 &lt;code&gt;test/DESIGN.md&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;检查文档完整性（必需章节：品牌概述、设计规范、视觉元素等）&lt;/li&gt;
&lt;li&gt;快速格式验证&lt;/li&gt;
&lt;li&gt;记录迭代元数据（时间戳、提示词版本）&lt;/li&gt;
&lt;/ol&gt;
&lt;hr&gt;
&lt;h4 id="步骤-23启动对比-subagent"&gt;步骤 2.3：启动对比 Subagent&lt;/h4&gt;
&lt;p&gt;&lt;strong&gt;角色：&lt;/strong&gt; Subagent 2&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;任务：&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;读取参考文档：&lt;code&gt;collections/nike/DESIGN.md&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;读取测试文档：&lt;code&gt;test/DESIGN.md&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;执行深度一致性分析&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;分析维度：&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;维度&lt;/th&gt;
&lt;th&gt;权重&lt;/th&gt;
&lt;th&gt;评估内容&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;结构完整性&lt;/td&gt;
&lt;td&gt;20%&lt;/td&gt;
&lt;td&gt;章节覆盖、层级结构&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;内容准确性&lt;/td&gt;
&lt;td&gt;30%&lt;/td&gt;
&lt;td&gt;品牌信息、设计规范的准确性&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;细节丰富度&lt;/td&gt;
&lt;td&gt;20%&lt;/td&gt;
&lt;td&gt;颜色、字体、间距等细节&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;格式规范性&lt;/td&gt;
&lt;td&gt;15%&lt;/td&gt;
&lt;td&gt;Markdown 语法、代码块格式&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;语言表达&lt;/td&gt;
&lt;td&gt;15%&lt;/td&gt;
&lt;td&gt;专业术语使用、表述清晰度&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;输出：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一致性打分（0-100）&lt;/li&gt;
&lt;li&gt;详细评估报告（逐维度打分）&lt;/li&gt;
&lt;li&gt;具体修改建议列表&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h4 id="步骤-24迭代决策"&gt;步骤 2.4：迭代决策&lt;/h4&gt;
&lt;p&gt;&lt;strong&gt;角色：&lt;/strong&gt; 主 Agent&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;决策逻辑：&lt;/strong&gt;&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;if 一致性打分 &amp;gt;= 阈值:
输出最优提示词
生成最终报告
终止迭代
else:
进入优化阶段
返回步骤 2.1
&lt;/code&gt;&lt;/pre&gt;&lt;hr&gt;
&lt;h4 id="步骤-25优化提示词"&gt;步骤 2.5：优化提示词&lt;/h4&gt;
&lt;p&gt;&lt;strong&gt;角色：&lt;/strong&gt; 主 Agent&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;任务：&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;解析 Subagent 2 的修改建议&lt;/li&gt;
&lt;li&gt;识别低分维度对应的提示词问题&lt;/li&gt;
&lt;li&gt;生成优化策略&lt;/li&gt;
&lt;li&gt;更新提示词&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;优化策略示例：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;结构完整性低分&lt;/strong&gt; → 补充&amp;quot;必须包含以下章节&amp;quot;指令&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;内容准确性低分&lt;/strong&gt; → 增加&amp;quot;请核对以下关键信息&amp;quot;指令&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;细节丰富度低分&lt;/strong&gt; → 添加&amp;quot;请详细描述每个设计元素&amp;quot;指令&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;格式规范性低分&lt;/strong&gt; → 强化 Markdown 格式要求&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;语言表达低分&lt;/strong&gt; → 提供专业术语示例&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h4 id="步骤-26版本管理"&gt;步骤 2.6：版本管理&lt;/h4&gt;
&lt;p&gt;&lt;strong&gt;角色：&lt;/strong&gt; 系统&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;任务：&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;迭代计数器 += 1&lt;/li&gt;
&lt;li&gt;将优化后的提示词保存为 &lt;code&gt;V{计数器}&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;记录到版本历史库&lt;/li&gt;
&lt;li&gt;生成对比报告（V{n-1} vs V{n}）&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;版本记录格式：&lt;/strong&gt;&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-json" data-lang="json"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;{
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;&amp;#34;version&amp;#34;&lt;/span&gt;: &lt;span style="color:#e6db74"&gt;&amp;#34;V3&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;&amp;#34;timestamp&amp;#34;&lt;/span&gt;: &lt;span style="color:#e6db74"&gt;&amp;#34;2024-04-15T20:30:00Z&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;&amp;#34;prompt_content&amp;#34;&lt;/span&gt;: &lt;span style="color:#e6db74"&gt;&amp;#34;...&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;&amp;#34;test_score&amp;#34;&lt;/span&gt;: &lt;span style="color:#ae81ff"&gt;72&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;&amp;#34;changes&amp;#34;&lt;/span&gt;: [&lt;span style="color:#e6db74"&gt;&amp;#34;补充了颜色系统章节要求&amp;#34;&lt;/span&gt;, &lt;span style="color:#e6db74"&gt;&amp;#34;增加了间距规范说明&amp;#34;&lt;/span&gt;],
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#f92672"&gt;&amp;#34;diff_from_previous&amp;#34;&lt;/span&gt;: &lt;span style="color:#e6db74"&gt;&amp;#34;...&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;}
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;
&lt;h3 id="第三阶段收敛输出"&gt;第三阶段：收敛输出&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;当一致性评分达到阈值时：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;输出内容：&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;最优提示词版本&lt;/li&gt;
&lt;li&gt;最终一致性打分报告&lt;/li&gt;
&lt;li&gt;完整迭代历史&lt;/li&gt;
&lt;li&gt;优化趋势图&lt;/li&gt;
&lt;li&gt;效果对比表格（V0 vs V最优）&lt;/li&gt;
&lt;/ol&gt;
&lt;hr&gt;
&lt;h2 id="可优化点"&gt;可优化点&lt;/h2&gt;
&lt;h3 id="1-评估维度权重动态调整"&gt;1. 评估维度权重动态调整&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;当前问题：&lt;/strong&gt; 固定权重可能无法适配不同类型的网站和文档&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;优化方案：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;根据参考文档的特征自动调整权重&lt;/li&gt;
&lt;li&gt;例如：电商网站侧重&amp;quot;内容准确性&amp;quot;，设计网站侧重&amp;quot;细节丰富度&amp;quot;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="2-并行化多个测试网站"&gt;2. 并行化多个测试网站&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;当前问题：&lt;/strong&gt; 只在 Nike 网站上测试，泛化能力未知&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;优化方案：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;同时在多个同类网站（Adidas、Puma、Under Armour）测试&lt;/li&gt;
&lt;li&gt;使用平均分评估提示词的泛化性&lt;/li&gt;
&lt;li&gt;只有多网站都达标才算收敛&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="3-增量式生成"&gt;3. 增量式生成&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;当前问题：&lt;/strong&gt; 每次都是全量生成，浪费计算资源&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;优化方案：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Subagent 2 识别低分章节&lt;/li&gt;
&lt;li&gt;下一轮迭代只生成需要改进的章节&lt;/li&gt;
&lt;li&gt;其他章节复用上一轮结果&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="4-自动阈值调整"&gt;4. 自动阈值调整&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;当前问题：&lt;/strong&gt; 固定阈值可能导致过度优化或收敛困难&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;优化方案：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;初始阈值设低（如 60 分）&lt;/li&gt;
&lt;li&gt;每轮迭代根据改进幅度动态调整&lt;/li&gt;
&lt;li&gt;连续 3 轮改进 &amp;lt; 2 分时自动降低阈值要求&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="5-提示词模板库"&gt;5. 提示词模板库&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;当前问题：&lt;/strong&gt; 每次从零开始优化，效率低&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;优化方案：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;预置针对不同网站类型的提示词模板库&lt;/li&gt;
&lt;li&gt;根据网站特征自动选择最接近的初始模板&lt;/li&gt;
&lt;li&gt;减少迭代轮次&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="问题点"&gt;问题点&lt;/h2&gt;
&lt;h3 id="1-幻觉风险"&gt;1. 幻觉风险&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;问题描述：&lt;/strong&gt; Subagent 1 可能生成网站上不存在的信息&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;解决方案：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;在提示词中强调&amp;quot;只生成网站明确展示的信息&amp;quot;&lt;/li&gt;
&lt;li&gt;引入事实核查 Subagent&lt;/li&gt;
&lt;li&gt;对生成的关键信息进行交叉验证&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="2-迭代发散"&gt;2. 迭代发散&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;问题描述：&lt;/strong&gt; 可能出现提示词越来越复杂但效果反而下降&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;解决方案：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;限制最大迭代次数（如 20 轮）&lt;/li&gt;
&lt;li&gt;记录历史最优解，发现退化时回滚&lt;/li&gt;
&lt;li&gt;引入提示词复杂度惩罚机制&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="3-收敛过慢"&gt;3. 收敛过慢&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;问题描述：&lt;/strong&gt; 某些情况下需要几十轮迭代才能收敛&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;解决方案：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;引入早停机制（early stopping）&lt;/li&gt;
&lt;li&gt;连续 5 轮无显著改进时终止&lt;/li&gt;
&lt;li&gt;分析卡点并人工干预&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="4-参考文档偏差"&gt;4. 参考文档偏差&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;问题描述：&lt;/strong&gt; &lt;code&gt;collections/nike/DESIGN.md&lt;/code&gt; 本身可能存在主观性或错误&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;解决方案：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用多个专家标注的参考文档&lt;/li&gt;
&lt;li&gt;计算参考文档之间的共识&lt;/li&gt;
&lt;li&gt;只对比高共识部分&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="5-网站内容变化"&gt;5. 网站内容变化&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;问题描述：&lt;/strong&gt; Nike 网站可能在迭代期间更新，导致对比失效&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;解决方案：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每轮迭代缓存网站快照&lt;/li&gt;
&lt;li&gt;所有 Subagent 使用同一快照&lt;/li&gt;
&lt;li&gt;或明确标注网站访问时间戳&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="补充扩展点"&gt;补充扩展点&lt;/h2&gt;
&lt;h3 id="6-负样本对比机制"&gt;6. 负样本对比机制&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;设计思路：&lt;/strong&gt;
除了与参考文档对比，还引入负样本测试：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;故意使用&amp;quot;反例提示词&amp;quot;生成文档&lt;/li&gt;
&lt;li&gt;评估系统应能识别出明显的错误&lt;/li&gt;
&lt;li&gt;验证评估系统的鲁棒性&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;实现方式：&lt;/strong&gt;&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;# 在迭代过程中随机插入负样本测试&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;if&lt;/span&gt; iteration &lt;span style="color:#f92672"&gt;%&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;5&lt;/span&gt; &lt;span style="color:#f92672"&gt;==&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;0&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; negative_prompt &lt;span style="color:#f92672"&gt;=&lt;/span&gt; &lt;span style="color:#e6db74"&gt;&amp;#34;请生成一个完全错误的 Nike 设计文档&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; negative_result &lt;span style="color:#f92672"&gt;=&lt;/span&gt; generate(negative_prompt)
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; negative_score &lt;span style="color:#f92672"&gt;=&lt;/span&gt; evaluate(negative_result)
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#66d9ef"&gt;assert&lt;/span&gt; negative_score &lt;span style="color:#f92672"&gt;&amp;lt;&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;30&lt;/span&gt;, &lt;span style="color:#e6db74"&gt;&amp;#34;评估系统无法识别负样本&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="7-ab-测试框架"&gt;7. A/B 测试框架&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;设计思路：&lt;/strong&gt;
对于每个优化点，同时尝试多个策略，选择效果最好的：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;示例：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;优化&amp;quot;细节丰富度&amp;quot;时，同时测试：
&lt;ul&gt;
&lt;li&gt;策略 A：&amp;ldquo;请详细描述每个设计元素&amp;rdquo;&lt;/li&gt;
&lt;li&gt;策略 B：&amp;ldquo;补充每个元素的 RGB 值、使用场景和设计意图&amp;rdquo;&lt;/li&gt;
&lt;li&gt;策略 C：提供具体的颜色、字体示例模板&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;使用多 Agent 并行测试&lt;/li&gt;
&lt;li&gt;选择得分最高的策略&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="8-可解释性增强"&gt;8. 可解释性增强&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;设计思路：&lt;/strong&gt;
为每次迭代增加&amp;quot;推理链路&amp;quot;记录，让优化过程更透明：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;记录内容：&lt;/strong&gt;&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-markdown" data-lang="markdown"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;## 迭代 V3 决策记录
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;### 问题诊断
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 当前得分：72/100
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 主要短板：细节丰富度（45%）、格式规范性（58%）
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;### 优化推理
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;1.&lt;/span&gt; 细节不足分析：
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 颜色系统缺少 RGB 值
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 字体规范缺少 line-height、letter-spacing
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 间距单位混用（px、rem、em）
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;2.&lt;/span&gt; 格式问题分析：
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 表格缺少对齐声明
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 代码块语言标注不一致
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 链接使用相对路径而非绝对路径
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;### 优化策略
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 在提示词中添加&amp;#34;颜色系统必须包含 RGB 值&amp;#34;的显式指令
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 增加格式规范示例代码块
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 要求统一使用 rem 单位
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#75715e"&gt;### 预期效果
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 细节丰富度提升至 65%
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 格式规范性提升至 80%
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#66d9ef"&gt;-&lt;/span&gt; 综合得分预期：78/100
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;
&lt;h2 id="实施建议"&gt;实施建议&lt;/h2&gt;
&lt;h3 id="优先级排序"&gt;优先级排序&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;P0（必须）：&lt;/strong&gt; 解决幻觉风险、迭代发散&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;P1（重要）：&lt;/strong&gt; 评估维度动态调整、并行多网站测试&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;P2（优化）：&lt;/strong&gt; 增量式生成、A/B 测试、可解释性增强&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id="技术栈推荐"&gt;技术栈推荐&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Agent 编排：&lt;/strong&gt; Claude Agent SDK 或自定义框架&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;网站抓取：&lt;/strong&gt; Playwright 或 Puppeteer（支持动态内容）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;对比评估：&lt;/strong&gt; 结构化 diff + LLM 辅助&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;版本管理：&lt;/strong&gt; Git + 自定义元数据存储&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="成功指标"&gt;成功指标&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指标&lt;/th&gt;
&lt;th&gt;目标值&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;最终一致性评分&lt;/td&gt;
&lt;td&gt;≥ 85&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;平均迭代轮次&lt;/td&gt;
&lt;td&gt;≤ 10&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;单次迭代耗时&lt;/td&gt;
&lt;td&gt;≤ 2 分钟&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;提示词长度增长率&lt;/td&gt;
&lt;td&gt;≤ 50%（避免膨胀）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;泛化测试通过率&lt;/td&gt;
&lt;td&gt;≥ 80%（在同类网站上）&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id="总结"&gt;总结&lt;/h2&gt;
&lt;p&gt;这个提示词优化迭代系统通过多 Agent 协作形成了一个闭环反馈机制：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;闭环路径：&lt;/strong&gt; 版本库 → Subagent 1 → 生成文档 → Subagent 2 → 评估打分 → 优化提示词 → 版本库&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;核心价值：&lt;/strong&gt; 将人工优化提示词的经验转化为可自动执行的迭代流程&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;扩展潜力：&lt;/strong&gt; 可应用于各类需要高质量结构化输出的场景&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;关键在于设计好评估维度和优化策略，让每次迭代都有明确的改进方向。&lt;/p&gt;</description></item></channel></rss>