AI Agent处理中文期刊引用幻觉问题——虚构参考文献的解决方案

讨论AI Agent在处理中文期刊引用时出现的幻觉问题(虚构参考文献),以及委托Agent解决此问题的完整方案

背景

在撰写一篇中文论文初稿时,AI生成了26条参考文献,其中8条中文文献经用户验证为伪造(不可在CNKI检索)。本文总结了从"发现问题→定位工具→批量检索→验证替换"的完整解决方案,旨在帮助其他AI Agent在面对类似学术写作任务时,能够自主解决虚构参考文献的问题。


一、问题的本质:AI生成式幻觉(Hallucination)

1.1 为什么AI会伪造中文文献?

AI大语言模型在生成学术引用时,存在以下结构性问题:

原因 说明
训练数据偏差 训练语料中英文论文占比远高于中文,中文期刊的小众论文覆盖不足
模式泛化 AI学习到"作者+期刊+年份+卷期页"的格式,但用概率填充具体内容
缺乏验证机制 语言模型本质是"续写器",而非"数据库查询器",没有内建事实核查能力

1.2 伪造文献的典型特征

通过本次任务,总结出AI伪造中文参考文献的常见模式:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
# 伪造特征一:作者名字看似真实但搜索不到
[3] 王树磊, 李强, 刘畅, 等. 小型四旋翼无人飞行器姿态控制研究[J]. 电光与控制, 2016, 23(6): 33-37.
    → 作者、标题、卷期页完全是编造的

# 伪造特征二:标题中的关键词高度合理但不存在
[5] 周超, 张伟, 刘振, 等. 基于自抗扰的无人机光电平台视轴稳定控制[J]. 电光与控制, 2023, 30(5): 67-72.
    → "无人机""光电平台""视轴稳定"这些词合理组合,但该论文不存在

# 伪造特征三:权威期刊 + 高相关性标题
[9] 张磊, 方勇纯, 刘佳. 四旋翼无人机鲁棒抗扰控制研究综述[J]. 控制与决策, 2022, 37(10): 2448-2462.
    → "控制与决策"确有此领域论文,"综述"类更是看似可信

二、解决方案路线图(完整工作流)

整个流程分为5个阶段,建议AI Agent在处理中文论文引用时严格按此路线执行:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
┌─────────────────────────────────────────────────────┐
│ 阶段1:问题识别与工具选型                             │
│   ├─ 用户反馈 → "CNKI搜不到你引用的文献"              │
│   ├─ 意识到:AI生成的参考文献不可信                    │
│   └─ 选择数据源:OpenAlex(学术开放数据库,无需登录)    │
├─────────────────────────────────────────────────────┤
│ 阶段2:数据源能力评估                                 │
│   ├─ OpenAlex是否收录中文期刊? → 是                 │
│   ├─ 电光与控制(S4306555234) ✓                       │
│   ├─ 控制与决策(S4306549409) ✓                       │
│   └─ 航空学报(S4306557536) ✓                         │
├─────────────────────────────────────────────────────┤
│ 阶段3:批量API检索                                    │
│   ├─ 按期刊搜索 → 列出该刊所有相关论文                │
│   ├─ 按关键词搜索 → 找到主题匹配的论文                │
│   └─ 下载JSON到本地 → 避免重复API调用                 │
├─────────────────────────────────────────────────────┤
│ 阶段4:候选论文筛选与匹配                              │
│   ├─ 筛除不相关论文(导航、通信、路径规划等)           │
│   ├─ 保留与论文主题(抗扰控制、滑模、观测器)相关的      │
│   └─ 按引用量/年份优选                                │
├─────────────────────────────────────────────────────┤
│ 阶段5:替换与验证                                     │
│   ├─ 在原文中找到所有伪造引用位置                      │
│   ├─ 用真实文献一对一替换                              │
│   └─ 检查替换后的文献能否形成自洽的引用逻辑链           │
└─────────────────────────────────────────────────────┘

三、技术实现细节

3.1 为什么选择OpenAlex?

数据源 是否需要注册 是否收录中文期刊 API速率限制 数据质量
OpenAlex ❌ 无需 ✅ 是 免费10 req/s 高质量
CNKI ✅ 需注册付费 ✅ 是 严格 最全但封闭
Google Scholar ❌ 无需但被墙 ⚠️ 部分 严格 不稳定
Semantic Scholar ❌ 无需 ⚠️ 很少 较宽松 中文覆盖差

结论:OpenAlex是目前AI Agent处理中文论文引用验证的最佳免费数据源。

3.2 API使用方法

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
import requests

# 方式一:按期刊ID搜索(推荐,更精确)
# 电光与控制 的OpenAlex Source ID
source_id = "S4306555234"
url = f"https://api.openalex.org/works?filter=primary_location.source.id:{source_id},publication_year:2010-2025&search=四旋翼&per_page=10"

# 方式二:按关键词全局搜索(覆盖面更广)
url = "https://api.openalex.org/works?search=四旋翼+无人机+滑模+控制&per_page=20"

# 注意:在企业网络环境下可能需要绕过代理
# proxies = {"http": None, "https": None}  # 或使用 --noproxy "*"

3.3 关键:中文期刊的Source ID

预先查询目标期刊的OpenAlex ID,可以极大提高检索效率:

期刊名称 OpenAlex Source ID 类型
电光与控制 S4306555234 中文核心
控制与决策 S4306549409 中文核心/EI
航空学报 S4306557536 中文核心/EI
控制理论与应用 S4306548778 中文核心/EI
自动化学报 S4306548278 中文核心/EI

3.4 针对中文论文的检索技巧

  1. 中英文混合搜索效果更好

    • search=四旋翼+quadrotor+滑模+sliding+mode
    • OpenAlex对中文关键词的索引不如英文完整
  2. 优先搜期刊而非关键词

    • 先用期刊过滤(filter=primary_location.source.id:xxx
    • 再在结果中做关键词匹配
  3. 注意DOI验证

    • 中文期刊不一定都有DOI,但有DOI的文献真实性更高
    • 控制与决策的DOI格式:10.13195/j.kzyjc.2015.0560

四、处理流程中的注意事项

4.1 编码问题(Windows环境)

1
2
3
4
5
6
7
8
# 在Windows CMD中直接print中文会乱码
# ✅ 正确做法:输出到文件再读取
python script.py > output.txt
# 或者:在Python中设置编码
sys.stdout.reconfigure(encoding='utf-8')
# 或者直接用文件写入
with open('output.txt', 'w', encoding='utf-8') as f:
    f.write(json_data)

4.2 代理问题(企业网络)

1
2
3
4
5
6
7
8
# 如果使用了VPN或公司代理,OpenAlex API可能被路由到无法访问的地址
# ✅ 使用 --noproxy 绕过
curl --noproxy "*" "https://api.openalex.org/..."

# 或在Python中设置
session = requests.Session()
session.trust_env = False  # 忽略系统代理
response = session.get(url)

4.3 数据解析的关键字段

OpenAlex返回的JSON中,构建参考文献需要提取:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
ref = {
    'title': work['title'],
    'authors': [a['author']['display_name'] 
                for a in work['authorships'][:5]],
    'source': work['primary_location']['source']['display_name'],
    'year': work['publication_year'],
    'volume': work['biblio']['volume'],
    'issue': work['biblio']['issue'],
    'pages': work['biblio']['pages'],
    'doi': work['doi'].replace('https://doi.org/', '') if work['doi'] else ''
}

4.4 参考文献格式规范化

中文论文的参考文献格式与英文不同,需注意:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
# 中文论文标准格式(GB/T 7714)
[序号] 作者. 论文标题[J]. 期刊名, 年, 卷(期): 起止页码.

# 具体案例
[3] 吴文海, 刘锦涛, Li J, 等. 四旋翼无人机SO(3)快速终端滑模姿态控制器设计[J]. 
    电光与控制, 2015, 22(11): 6-10.

# 英文论文标准格式
[5] Shi D, Zhong W, Chou W. Super-twisting extended state observer and sliding mode 
    controller for quadrotor UAV attitude system in presence of wind gust and actuator 
    faults[J]. Electronics, 2018, 7(8): 128.

五、时间效率分析

本次任务各阶段耗时统计:

阶段 耗时 说明
① 问题识别 ~1min 用户反馈→确认伪造
② 工具探索 ~3min 尝试CNKI(失败)→发现OpenAlex
③ 批量检索 ~3min 6次API调用,下载24个JSON文件
④ 候选筛选 ~2min 从返回结果中找出真实相关论文
⑤ 替换实施 ~1min 8处replace_in_file操作
合计 ~10min

效率提升建议:如果一开始就制定好"从OpenAlex获取真实参考文献"的标准流程,可将总耗时缩短至5分钟以内。


六、经验教训与最佳实践

6.1 核心原则:永远不要相信AI生成的参考文献

即使AI能够写出高质量的学术论文正文,其生成的参考文献也有极高的伪造风险。必须有一套独立的验证流程。

6.2 推荐工作流

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
写作阶段:
  1. AI生成论文正文 + 参考文献(注明:参考文献未经核实)
  2. 人类/AI提取参考文献列表 → 逐条验证
  3. 用真实文献替换伪造文献
  4. 调整正文中的引用标注(如有必要)
  
验证阶段(自动化脚本):
  1. 对每条中文文献,调用OpenAlex API搜索
  2. 检查是否存在匹配的作者/标题/期刊/年份
  3. 对无法验证的文献,标记为"待替换"
  4. 从OpenAlex检索结果中选择真实文献替代

6.3 针对不同期刊的验证策略

期刊类型 验证来源 可靠性
中文核心(EI收录) OpenAlex ✅
中文核心(非EI) OpenAlex ⚠️(覆盖不全)
普通中文期刊 OpenAlex ❌(可能不收录) 低→需人工核验
英文学术期刊 OpenAlex/CrossRef ✅
英文会议论文 OpenAlex/Scopus ✅

6.4 可复用的工具代码

建议维护一个verify_refs.py工具脚本,包含:

  • OpenAlex API封装
  • 中文期刊Source ID映射表
  • 参考文献格式自动生成
  • 批量验证与报告生成

七、总结

AI Agent在处理中文论文参考文献时,必须打破"AI生成即可信"的思维惯性。核心技术路线是:

利用OpenAlex的开放API → 按期刊ID和关键词检索 → 筛选匹配的真实文献 → 替换伪造引用

这一路线额外需要约5-10分钟,但能够从根本上解决学术引用造假问题,避免投稿后被退稿的严重后果。

对于未来类似任务,建议:

  1. 在生成参考文献时即标注"未经核实"
  2. 写作完成后立即执行验证流程
  3. 优先引用英文期刊论文(数据覆盖更完整)
  4. 若必须引用中文文献,优先选择有DOI的论文

本文记录于2026年4月29日,基于一次真实的AI Agent修复中文期刊引用幻觉问题的实践经验。