Claude Prompt实战:AI搞定香港繁体文件完整方案

2026-06-09阅读 0热度 0
Claude

一、为什么我会分享这份方案

在香港金融科技行业摸爬滚打第二年,最让我头痛的从来不是写代码,而是那些堆成山的文件。

MPF的英文条款、公司内部中英混排的合同、客户发来的繁体PDF协议——每份都得过两遍:第一遍理解内容,第二遍核对术语。

市面上能试的工具我几乎全试了一遍,有的直接把MPF(强积金)翻译成“中央公积金”——概念上勉强沾边,但在香港的实际语境里,这完全是两码事。

后来花了近两周时间,反复调试出一套专用Prompt。现在90%的文件丢进去,直接出结果,几乎不需要手动修正。

今天把这套方案完整拆解出来,应该能帮到面临同样困境的人。

二、核心思路

先说说我踩过的坑。

最开始试过最直接的方案——只写一句“请帮我翻译这份香港文件”。Claude输出的译文语法通顺,但术语全错。

比如“Mandatory Provident Fund”被译成“强制性公积金基金”。在香港工作过的人都知道,正确的说法是“MPF”或“强积金”。

后来才想明白:问题的关键不是Claude能不能翻译,而是它根本不了解香港的具体语境。

所以最终版本只聚焦三件事:

  1. 明确场景是香港——不只是“翻译”,而是“处理香港职场文件”;

  2. 给出清晰的术语规则——哪些词必须保留英文,哪些必须用香港本地说法;

  3. 约束输出格式——末尾附加术语对照表,方便人工二次校验。

三、完整代码实现

依赖

pip install anthropic python-dotenv

Prompt模板

HONG_KONG_DOC_PROMPT = """你是一位熟悉香港职场环境的文件处理专家。请按以下规则处理这份文件:

### 一、术语处理规则
1. 英文专业术语首次出现时保留原文,括号内标注简体中文
   - 例:"MPF(强积金)" → 不要写"强制性公积金"
   - 例:"IRD(税务局)" → 不要写"国内收入署"
2. 粤语口语表达 → 翻译为内地普通话对应说法
   - 例:"听日交" → "明天提交"
3. 香港特有机构名 → 保留原文+中文名
   - 例:"Hong Kong Monetary Authority(香港金融管理局)"

### 二、格式规则
1. 保持原文的表格结构和层级
2. 保持编号和项目符号
3. 输出正文 + 文档末尾附加术语对照表

### 三、输出格式
---【译文正文】
(翻译后的内容)
---【术语对照表】
| 原文 | 译文 | 说明 |
| --- | --- | --- |
| MPF | 强积金 | 香港强制性退休储蓄计划 |
| IRD | 税务局 | 香港税务局 |

待处理文件:{document_content}
"""

def process_hk_document(content: str, client) -> str:
    response = client.messages.create(
        model="claude-sonnet-4-20250514",
        max_tokens=4096,
        messages=[{"role": "user", "content": HONG_KONG_DOC_PROMPT.format(document_content=content)}]
    )
    return response.content[0].text

批量处理脚本

import os
from pathlib import Path
from anthropic import Anthropic

client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY"))

def batch_process(input_dir: str, output_dir: str):
    input_path = Path(input_dir)
    output_path = Path(output_dir)
    output_path.mkdir(parents=True, exist_ok=True)

    for file in input_path.glob("*.txt"):
        content = file.read_text(encoding="utf-8")
        result = process_hk_document(content, client)
        output_file = output_path / f"{file.stem}_processed.md"
        output_file.write_text(result, encoding="utf-8")
        print(f"✅ 已处理:{file.name}")

if __name__ == "__main__":
    batch_process("./input_docs", "./output_docs")

四、实际效果对比

用三份不同风格的文件做了实测:

文件类型处理前(人工)处理后(AI+Prompt)时间对比
MPF合同(5页英文)约40分钟逐段翻译+查术语5分钟AI出稿+15分钟复核40min → 20min
客户邮件(中英混排)20分钟理解+回复3分钟AI整理+5分钟调整语气20min → 8min
公司内部通告(繁体)15分钟逐句改简体2分钟自动转换15min → 2min

最直观的改变不是“速度快了多少”,而是再也不需要把精力花在“识别术语”这件事上了。省下来的脑力,可以全部投入到真正需要判断力的环节。

五、踩坑记录

坑1:提示词过长导致截断

最初把所有规则一股脑塞进system prompt,处理长文档时经常被截断。后来把规则精简到三大核心类,次要内容直接放在user message里,问题迎刃而解。

坑2:表格格式错乱

Claude输出的markdown表格有时列不对齐,无法直接导入Notion。加了一条“禁止嵌套表格”的指令,并在每次输出后检查术语表格式,翻车率大幅下降。

坑3:粤语口语识别不稳定

“听日”“俾我”这类词,有时能正确转换,有时直接原样保留。目前还没完全根治,做法是先让AI过一遍,再手动标记修正,同时顺带积累了一份“粤语高频词库”辅助判断。

六、这套方案还能怎么扩展?

不限于文件处理。稍改Prompt就能迁移到其他场景:

  • 会议纪要:Whisper转录 → Claude结构化 → 输出中英双语版本;
  • 合同审查:Prompt里追加“标注风险条款”的要求;
  • 客户邮件:加上“用更正式的商务语气重写”指令。

本质上只做了一件事:把香港职场特有的“信息处理成本”降下来。

你现在在处理哪类香港文件?有没有遇到过奇葩术语或格式问题?欢迎在评论区留言,看看能不能进一步优化Prompt帮你搞定。

#Claude #Prompt工程 #香港职场 #AI工具 #Python #金融科技

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策