构建Obsidian到Notion的智能内容管理流水线:三层架构实现知识自动化处理
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ 内容源层 │───▶│ AI处理层 │───▶│ 同步目标层 │
│ Obsidian │ │ Claude/Gemini │ │ Notion │
│ │ │ │ │ │
│ • 统一存储.md │ │ • 内容摘要 │ │ • 发布平台 │
│ • 本地编辑 │ │ • 智能分析 │ │ • 团队协作 │
│ • 版本控制 │ │ • 格式转换 │ │ • 数据库视图 │
└─────────────────┘ └─────────────────┘ └─────────────────┘
层次职责分析
| 层次 | 作用 | 关键技术/插件 |
|---|---|---|
| ① 内容源层 | 统一把所有 .md 放进 Obsidian Vault,并让外部脚本能读/写 | • 文件系统直写(最简单) • Local REST API 插件:HTTPS 端点,支持读取/创建/PATCH 更新笔记等 • Advanced URI 插件:通过 obsidian://advanced-uri?...mode=append 等参数追加内容 |
| ② AI摘要层 | 让 Claude Code 或 Gemini CLI 批量读取笔记→生成摘要 | • Claude Code + MCP:把 Obsidian REST 端点封成工具,Claude 可以用 list_notes / read_note / patch_note • Gemini CLI:CLI 本身已内置 MCP 扩展点,可在脚本里用 gemini run --prompt |
| ③ 同步目标层 | 把摘要写入 Notion(单页或数据库条目) | • 官方 Notion API:POST /v1/pages 可一次携带 children 块创建含内容的页面;仅需给集成分配"Add connections"权限 • Auto-GPT-Notion 插件:已封装 notion_create_page / notion_append_page 等命令,能让代理直接写 Notion |
详细技术实现方案
1. 内容源层:Obsidian 配置
安装必要插件
Local REST API 插件
# 在 Obsidian 插件市场搜索 "Local REST API" 并启用
# Settings → Local REST API → Generate Key
# 默认端口:27123,建议 127.0.0.1 绑定 + 强密码
Advanced URI 插件
# 插件市场搜索 "Advanced URI" 并启用
# 支持通过 URL 参数操作笔记:
# obsidian://advanced-uri?vault=MyVault&mode=append&file=Note.md&data=New%20content
API 端点配置
安装 Local REST API 插件后,你将获得以下端点:
// 获取笔记列表
GET https://localhost:27123/notes?key=API_KEY
// 读取特定笔记
GET https://localhost:27123/notes/{path}?key=API_KEY
// 创建新笔记
POST https://localhost:27123/notes?key=API_KEY
{
"path": "新笔记.md",
"content": "笔记内容"
}
// 更新笔记
PATCH https://localhost:27123/notes/{path}?key=API_KEY
{
"content": "更新后的内容"
}
2. AI处理层:Claude Code / Gemini CLI 集成
Claude Code 集成方案
MCP 工具配置
# obsidian_rest.yaml
name: obsidian_rest
description: Obsidian REST API integration
endpoints:
- name: list_notes
url: "https://localhost:27123/notes"
method: GET
headers:
Authorization: "Bearer ${OBSIDIAN_API_KEY}"
- name: read_note
url: "https://localhost:27123/notes/{path}"
method: GET
headers:
Authorization: "Bearer ${OBSIDIAN_API_KEY}"
- name: update_note
url: "https://localhost:27123/notes/{path}"
method: PATCH
headers:
Authorization: "Bearer ${OBSIDIAN_API_KEY}"
Content-Type: "application/json"
使用示例
# 注册工具
claude tools add obsidian_rest.yaml
# 让 Claude 处理笔记
claude chat "请读取我的所有笔记,为每个笔记生成200字摘要"
Gemini CLI 集成方案
安装配置
# 安装 Gemini CLI
brew install gemini-cli # 或 go install
# 配置 API Key
export GEMINI_API_KEY=your_api_key_here
批处理脚本示例
import os
import requests
import subprocess
import json
def process_notes_with_gemini(vault_path, api_key):
"""使用 Gemini CLI 批量处理笔记"""
# 获取所有 markdown 文件
md_files = []
for root, dirs, files in os.walk(vault_path):
for file in files:
if file.endswith('.md'):
md_files.append(os.path.join(root, file))
summaries = []
for md_file in md_files:
# 读取文件内容
with open(md_file, 'r', encoding='utf-8') as f:
content = f.read()
# 使用 Gemini CLI 生成摘要
prompt = f"请为以下内容生成一个200字的中文摘要,重点提取关键信息和核心观点:\n\n{content}"
try:
result = subprocess.run([
'gemini', 'chat',
'-i', prompt,
'-p', '用中文摘要'
], capture_output=True, text=True, timeout=30)
if result.returncode == 0:
summary = result.stdout.strip()
summaries.append({
'file': md_file,
'original_content': content,
'summary': summary
})
print(f"✅ 已处理: {os.path.basename(md_file)}")
else:
print(f"❌ 处理失败: {md_file} - {result.stderr}")
except subprocess.TimeoutExpired:
print(f"⏱️ 处理超时: {md_file}")
except Exception as e:
print(f"🚫 处理异常: {md_file} - {str(e)}")
return summaries
3. 同步目标层:Notion 集成
Notion API 配置
创建集成
# 1. 访问 https://www.notion.com/my-integrations
# 2. 点击 "New integration"
# 3. 获取 Internal Integration Secret
# 4. 在目标页面 → ... → Add connections → 勾选你的集成
权限配置
{
"capabilities": [
"read_content",
"update_content",
"insert_content"
]
}
Notion SDK 使用示例
Python 实现
import os
from notion_client import Client
def sync_to_notion(summaries, notion_token, database_id):
"""将摘要同步到 Notion 数据库"""
notion = Client(auth=notion_token)
for item in summaries:
file_name = os.path.basename(item['file'])
summary = item['summary']
try:
# 创建新页面
new_page = notion.pages.create(
parent={"database_id": database_id},
properties={
"Name": {
"title": [
{
"text": {
"content": file_name.replace('.md', '')
}
}
]
},
"Source": {
"rich_text": [
{
"text": {
"content": "Obsidian"
}
}
]
},
"Status": {
"select": {
"name": "已处理"
}
}
},
children=[
{
"object": "block",
"type": "paragraph",
"paragraph": {
"rich_text": [
{
"text": {
"content": summary
}
}
]
}
}
]
)
print(f"✅ 已同步到 Notion: {file_name}")
except Exception as e:
print(f"❌ 同步失败: {file_name} - {str(e)}")
Node.js 实现
const { Client } = require('@notionhq/client');
const notion = new Client({
auth: process.env.NOTION_TOKEN,
});
async function syncToNotionDatabase(summaries, databaseId) {
for (const item of summaries) {
const fileName = path.basename(item.file, '.md');
try {
await notion.pages.create({
parent: { database_id: databaseId },
properties: {
'Name': {
title: [{ text: { content: fileName } }]
},
'Summary': {
rich_text: [{ text: { content: item.summary } }]
},
'Created': {
date: { start: new Date().toISOString() }
}
},
children: [
{
object: 'block',
type: 'paragraph',
paragraph: {
rich_text: [{ text: { content: item.summary } }]
}
}
]
});
console.log(`✅ 已同步: ${fileName}`);
} catch (error) {
console.error(`❌ 同步失败: ${fileName}`, error);
}
}
}
端到端工作流程示例
完整自动化脚本
#!/usr/bin/env python3
"""
Obsidian -> AI -> Notion 自动化处理流水线
"""
import os
import sys
import json
import time
import requests
import subprocess
from datetime import datetime
from notion_client import Client
class ContentPipeline:
def __init__(self, config):
self.obsidian_api_key = config['obsidian_api_key']
self.obsidian_base_url = config['obsidian_base_url']
self.notion_token = config['notion_token']
self.notion_database_id = config['notion_database_id']
self.ai_model = config.get('ai_model', 'gemini') # 'gemini' or 'claude'
self.notion = Client(auth=self.notion_token)
def get_updated_notes(self, since_hours=24):
"""获取最近更新的笔记"""
try:
response = requests.get(
f"{self.obsidian_base_url}/notes",
params={'key': self.obsidian_api_key}
)
response.raise_for_status()
all_notes = response.json()
# 过滤最近更新的笔记
cutoff_time = time.time() - (since_hours * 3600)
updated_notes = []
for note in all_notes:
if note.get('mtime', 0) > cutoff_time:
updated_notes.append(note)
return updated_notes
except Exception as e:
print(f"❌ 获取笔记失败: {str(e)}")
return []
def read_note_content(self, note_path):
"""读取笔记内容"""
try:
response = requests.get(
f"{self.obsidian_base_url}/notes/{note_path}",
params={'key': self.obsidian_api_key}
)
response.raise_for_status()
return response.text
except Exception as e:
print(f"❌ 读取笔记失败 {note_path}: {str(e)}")
return None
def generate_summary_with_gemini(self, content):
"""使用 Gemini 生成摘要"""
prompt = f"""请为以下内容生成一个结构化的摘要,包含:
1. 核心观点(2-3句话)
2. 关键信息点(3-5个要点)
3. 实践建议(如果适用)
内容:
{content}
"""
try:
result = subprocess.run([
'gemini', 'chat',
'-i', prompt
], capture_output=True, text=True, timeout=60)
if result.returncode == 0:
return result.stdout.strip()
else:
print(f"❌ Gemini 处理失败: {result.stderr}")
return None
except Exception as e:
print(f"❌ Gemini 调用异常: {str(e)}")
return None
def generate_summary_with_claude(self, content):
"""使用 Claude Code 生成摘要"""
# 这里可以集成 Claude Code MCP 工具
# 或者使用 Anthropic API
pass
def sync_to_notion(self, note_path, original_content, summary):
"""同步到 Notion"""
file_name = os.path.basename(note_path).replace('.md', '')
try:
# 检查是否已存在
existing = self.notion.databases.query(
database_id=self.notion_database_id,
filter={
"property": "Source File",
"rich_text": {
"equals": note_path
}
}
)
page_data = {
"properties": {
"Name": {
"title": [{"text": {"content": file_name}}]
},
"Source File": {
"rich_text": [{"text": {"content": note_path}}]
},
"Last Updated": {
"date": {"start": datetime.now().isoformat()}
},
"Status": {
"select": {"name": "已处理"}
}
},
"children": [
{
"object": "block",
"type": "heading_2",
"heading_2": {
"rich_text": [{"text": {"content": "AI 生成摘要"}}]
}
},
{
"object": "block",
"type": "paragraph",
"paragraph": {
"rich_text": [{"text": {"content": summary}}]
}
},
{
"object": "block",
"type": "heading_2",
"heading_2": {
"rich_text": [{"text": {"content": "原始内容"}}]
}
},
{
"object": "block",
"type": "code",
"code": {
"language": "markdown",
"rich_text": [{"text": {"content": original_content[:2000]}}] # 限制长度
}
}
]
}
if existing['results']:
# 更新现有页面
page_id = existing['results'][0]['id']
self.notion.pages.update(page_id=page_id, **page_data)
print(f"🔄 已更新: {file_name}")
else:
# 创建新页面
page_data["parent"] = {"database_id": self.notion_database_id}
self.notion.pages.create(**page_data)
print(f"✅ 已创建: {file_name}")
except Exception as e:
print(f"❌ Notion 同步失败 {file_name}: {str(e)}")
def run_pipeline(self):
"""运行完整流水线"""
print("🚀 开始运行内容处理流水线...")
# 1. 获取更新的笔记
updated_notes = self.get_updated_notes()
if not updated_notes:
print("📝 没有发现更新的笔记")
return
print(f"📋 发现 {len(updated_notes)} 个更新的笔记")
# 2. 处理每个笔记
for note in updated_notes:
note_path = note['path']
print(f"📄 处理笔记: {note_path}")
# 读取内容
content = self.read_note_content(note_path)
if not content:
continue
# 生成摘要
if self.ai_model == 'gemini':
summary = self.generate_summary_with_gemini(content)
else:
summary = self.generate_summary_with_claude(content)
if not summary:
print(f"⚠️ 跳过摘要生成失败的笔记: {note_path}")
continue
# 同步到 Notion
self.sync_to_notion(note_path, content, summary)
# 避免 API 限制
time.sleep(1)
print("✨ 流水线运行完成!")
def main():
# 配置信息
config = {
'obsidian_api_key': os.getenv('OBSIDIAN_API_KEY'),
'obsidian_base_url': 'https://localhost:27123',
'notion_token': os.getenv('NOTION_TOKEN'),
'notion_database_id': os.getenv('NOTION_DATABASE_ID'),
'ai_model': 'gemini' # 或 'claude'
}
# 验证配置
required_keys = ['obsidian_api_key', 'notion_token', 'notion_database_id']
for key in required_keys:
if not config[key]:
print(f"❌ 缺少必要配置: {key}")
sys.exit(1)
# 运行流水线
pipeline = ContentPipeline(config)
pipeline.run_pipeline()
if __name__ == "__main__":
main()
自动化部署
cron 定时任务
# 每天晚上 23:30 运行
30 23 * * * /usr/bin/python3 /path/to/content_pipeline.py >> /path/to/logs/pipeline.log 2>&1
# 每小时检查一次更新
0 * * * * /usr/bin/python3 /path/to/content_pipeline.py --incremental >> /path/to/logs/pipeline.log 2>&1
systemd 服务
[Unit]
Description=Obsidian to Notion Content Pipeline
After=network.target
[Service]
Type=oneshot
User=your-username
WorkingDirectory=/path/to/pipeline
ExecStart=/usr/bin/python3 /path/to/content_pipeline.py
EnvironmentFile=/path/to/.env
[Install]
WantedBy=multi-user.target
关键限制与最佳实践
平台限制
| 平台 | 限制 & 最佳实践 |
|---|---|
| Obsidian | REST API 默认端口 27123,建议 127.0.0.1 绑定 + 强密码;Advanced URI 需 Obsidian 正在运行 |
| Claude Code | 单请求 200k-token;可用 stream=true 减少等待;避免一次性丢太多笔记,先归并同主题后摘要 |
| Gemini CLI | 免费配额 60 req/min、1000 req/天;通过 GEMINI_API_KEY 或 Google 账户登录 |
| Notion | children 单次 ≤ 100 块;长摘要需分批 append_block_children。数据库属性键必须与库列一致 |
性能优化建议
批处理策略
- 按主题归并相关笔记后再处理
- 使用增量同步,只处理变更内容
- 实现智能去重,避免重复处理
错误处理
- 实现重试机制,处理网络波动
- 记录详细日志,便于问题排查
- 设置超时控制,避免长时间阻塞
内容质量控制
- 设置内容长度阈值,过滤无效笔记
- 实现摘要质量评估,确保输出质量
- 支持人工审核流程,重要内容手动确认
安全考虑
API 密钥管理
# 使用环境变量 export OBSIDIAN_API_KEY="your_key_here" export NOTION_TOKEN="secret_token_here" export GEMINI_API_KEY="api_key_here" # 或使用 .env 文件 echo "OBSIDIAN_API_KEY=your_key" >> .env echo "NOTION_TOKEN=secret_token" >> .env chmod 600 .env网络安全
- Obsidian REST API 仅绑定本地地址
- 使用 HTTPS 和强密码保护端点
- 考虑使用 VPN 或隧道加密通信
快速入门指南
5 分钟快速搭建
第一步:Obsidian 设置
# 1. 插件市场搜索 "Local REST API" -> Enable
# 2. Settings → Local REST API → Generate Key
# 3. 记录 API Key 和端口(默认 27123)
第二步:Notion 设置
# 1. 访问 https://www.notion.com/my-integrations → New integration
# 2. 获取 Internal Integration Secret
# 3. 在目标页面 → ... → Add connections → 勾选集成
# 4. 创建数据库,记录 Database ID
第三步:AI 工具配置
# Gemini CLI 安装
brew install gemini-cli
export GEMINI_API_KEY=your_api_key
# 或 Claude Code 配置
claude tools add obsidian_rest.yaml notion_sdk.yaml
第四步:运行测试
# 下载示例脚本
git clone https://github.com/example/obsidian-notion-pipeline
cd obsidian-notion-pipeline
# 配置环境变量
cp .env.example .env
# 编辑 .env 文件,填入你的 API 密钥
# 安装依赖
pip install -r requirements.txt
# 运行一次测试
python content_pipeline.py --test
第五步:自动化部署
# 设置定时任务
crontab -e
# 添加:30 23 * * * /usr/bin/python3 /path/to/content_pipeline.py
# 或使用 systemd
sudo cp pipeline.service /etc/systemd/system/
sudo systemctl enable pipeline.service
sudo systemctl start pipeline.service
扩展应用场景
双向同步
如果后续需要把 Notion 的更新同步回 Obsidian,可以实现反向流水线:
def sync_notion_to_obsidian(self):
"""从 Notion 同步更新回 Obsidian"""
# 查询最近更新的 Notion 页面
recent_pages = self.notion.databases.query(
database_id=self.notion_database_id,
filter={
"property": "Last Edited Time",
"date": {
"after": (datetime.now() - timedelta(hours=24)).isoformat()
}
}
)
for page in recent_pages['results']:
source_file = page['properties']['Source File']['rich_text'][0]['text']['content']
# 获取 Notion 页面内容
blocks = self.notion.blocks.children.list(block_id=page['id'])
content = self.extract_content_from_blocks(blocks)
# 更新 Obsidian 笔记
self.update_obsidian_note(source_file, content)
多源集成
支持从多个数据源收集内容:
class MultiSourcePipeline(ContentPipeline):
def __init__(self, config):
super().__init__(config)
self.sources = {
'obsidian': self.process_obsidian_notes,
'markdown_files': self.process_local_markdown,
'web_content': self.process_web_bookmarks,
'email_attachments': self.process_email_pdfs
}
def run_multi_source_pipeline(self):
all_content = []
for source_name, processor in self.sources.items():
try:
content = processor()
all_content.extend(content)
print(f"✅ 处理完成: {source_name}")
except Exception as e:
print(f"❌ 处理失败: {source_name} - {str(e)}")
# 统一处理所有内容
self.batch_process_content(all_content)
总结
这个三层架构的内容管理流水线实现了:
- 集中管理:Obsidian 作为单一真相来源,统一管理所有 markdown 内容
- 智能处理:AI 工具自动生成摘要和分析,提升内容价值
- 高效分发:Notion 作为发布平台,便于团队协作和知识分享
- 自动化流程:定时运行,无需人工干预,确保内容同步
通过这套系统,知识工作者可以专注于内容创作,而将重复性的整理、摘要、同步工作交给自动化流水线处理。随着 AI 技术的发展,这类智能化知识管理工具将成为提升个人和团队效率的重要基础设施。
是否值得投入?答案是肯定的。这套流水线不仅解决了多平台内容同步的痛点,更重要的是建立了一个可扩展的知识处理框架,为未来更多智能化应用奠定了基础。