Meta-Skills（怎麼用 AI）— 我學到了什麼

這裡記錄我在「「怎麼用 AI」的學習：sub-agent、prompting、review pattern、CLAUDE.md 規則」累積的學習。每段話末尾的 [📎 source] 可反查到原始 obs / insight / memory / AAI wiki。

為什麼這個 topic 存在

(待累積足夠材料後人工撰寫；目前先 append 每日 delta)

每日累積

2026-05-02（2 段，2 個引用 source）

☕ 今天的共同主題其實很生活化：AI workflow 不是靠「更努力」變好，而是靠把反覆踩到的坑寫成下次會自動避開的路標。好的 meta-skill 像廚房備料，真正省時間的不是切菜切得更快，而是下次一伸手就拿到對的刀。

一、真正的 AI 技能不再等同於會下 prompt，而是會把一次學到的捷徑變成下次的預設路線

今天最有趣的地方，是一個看似很小的設定更新，其實露出一個很大的 mental model：當某條路已經被證明比較短，就不要每次都重新問導航。影像生成那條經驗很清楚：若目標是 editorial-style image，例如 hero image 或 scientific visual motif，直接用 OpenAI SDK（Software Development Kit, 讓程式直接呼叫模型 API 的工具包） 呼叫 gpt-image-2，比繞一圈 Codex CLI 再讓 GPT-5.5 當中介更乾淨。材料裡甚至把 code template、1536x1024 size、~/.claude/.env 裡的 OPENAI_API_KEY、以及 watercolor rendering、asymmetric composition 這些品質優勢都寫進 CLAUDE.md。這毫無疑問不是單純「記筆記」，而是把一次成功的看診經驗，整理成下次門診一打開電腦就會出現的 order set。

這件事重要，因為 AI 使用常常被誤會成即興表演：今天靈感好，prompt 寫得漂亮，結果就好；明天狀態差，就重新摸索。但成熟的 workflow 剛好相反，它會把靈感變成 infrastructure。**Orchestrator overhead（協調者額外成本，指模型在中間轉述、判斷、呼叫工具所花的時間與推論費用）**一旦被看見，就不再只是背景雜音，而是可以被拿掉的摩擦力。結論是，meta-skill 的核心不是收藏更多技巧，而是知道哪些技巧值得升格成規則；同 dynamics 也見於臨床路徑設計，好的 protocol 不是取代醫師判斷，而是讓團隊少在已知問題上重複消耗注意力。

📎 sources: obs-64726 📚 references:

Kahneman, D. (2011) Thinking, Fast and Slow. Farrar, Straus and Giroux.

Schön, D. A. (1983) The Reflective Practitioner: How Professionals Think in Action. Basic Books.

Simon, H. A. (1969) The Sciences of the Artificial. MIT Press.

🔗 延伸：meta-skills

二、Sub-agent 做資料分析時最貴的常常不是查詢，而是來回問七十六次

另一條故事更像廚房裡的備料問題：如果你要煮十人份晚餐，最笨的做法不是刀工慢，而是每切一根蔥就跑去問一次「下一步呢？」材料裡的數字很刺眼：一個 adc-target-classification agent 做 SQLite DB 分析時，用了 76 次 tool call，每次多半只跑一條 sqlite3 CLI，最後花了 589 秒，將近 10 分鐘；但真正的 DB 查詢每條其實不到 100ms。瓶頸不在 database，而在 76 次 API round-trip、model inference、permission check 疊起來的等待。這讓 batching（批次化，把許多小動作合成一次完成） 從「工程潔癖」變成很實際的時間醫學：少一次來回，就少一次整個系統重新暖機。

因此規則變得很清楚：當 schema 已經大致知道，sub-agent 的 prompt 應該明說「寫一個 Python script，用 sqlite3 模組一次完成資料提取、memory 內分類計算、輸出到 output/」，目標是 3-5 次 tool call、1-2 分鐘完成，而不是 76 次 tool call、10 分鐘慢慢磨。這毫無疑問改變了我們對「聰明 agent」的想像：聰明不再等同於每一步都回報，而是知道何時把工作包成一個可重跑、可檢查、可交付的 script。探索期用 1-2 次 CLI 看 schema 可以接受；但一旦路線清楚，就該收斂成 single execution。同 dynamics 也見於研究資料清理，真正可靠的分析不是在 console 裡手感很好，而是把判斷固定在可追蹤的 pipeline 裡。

📎 sources: memory-feedback_agent-batch-query-optimization 📚 references:

Goodhart, C. A. E. (1975) “Problems of Monetary Management: The U.K. Experience”. Papers in Monetary Economics 1.

Campbell, D. T. (1979) “Assessing the impact of planned social change”. Evaluation and Program Planning 2(1):67-90.

Knuth, D. E. (1974) “Structured Programming with go to Statements”. ACM Computing Surveys 6(4):261-301.

🔗 延伸：meta-skills

2026-05-03（2 段，10 個引用 source）

☕ 今天的主線很像把一間常用廚房重新整理：不是買更多刀具，而是把食材放到下次一伸手就找得到的位置，還要知道每包食材從哪裡來。

一、好的 AI 記憶不再等同於存更多東西，而是讓舊材料在正確時候自己站出來

今天最關鍵的轉向，是把 memory 和 insights 合成一個會每天更新的 LLM-Wiki。這件事乍看像「多一個知識庫」，但真正的意思更像看診前的摘要頁：不是把所有病歷原封不動丟給你，而是先把最能改變決策的資訊整理出來。材料裡把這種差別講得很清楚：舊系統偏 指標型記憶（pull-based memory, 要查才會被叫出來的記憶），LLM-Wiki 則想做 蒸餾型知識（push-based distilled knowledge, 預先把碎片整理成可讀判斷）。這毫無疑問改變了 AI workflow 的重心；會用 AI 不再等同於當下問得漂亮，而是讓系統每天把昨天學到的東西推進一點點。

但這裡也有一個很現實的坑：如果只是一直 append，三個月後它不會變聰明，只會變成另一個塞滿東西的抽屜。所以 roadmap 才會被 gpt-5.5 architectural review 拉回地基：先補 manifest.json、stable unit_id、content_hash，再讓 synthesis 只做 single topic + single day + manual review。這聽起來很工程，但白話說就是：每句話都要能回頭找到是哪一包食材煮出來的。後來的 03-synthesize-prep.ts 也沿著這個方向走，把完整 unit content、source metadata、citation discipline 包進 prompt，讓 subagent 不必到處翻資料，也比較不會憑空補劇情。這同 dynamics 也見於臨床 registry：資料多不等於可信，真正能被 audit 的，是每個 conclusion 都能追回 source、時間與定義。

📎 sources: obs-64942 · obs-65010 · obs-65013 · obs-65035 · obs-65037 📚 references:

Simon, H. A. (1969) The Sciences of the Artificial. MIT Press.

Kahneman, D. (2011) Thinking, Fast and Slow. Farrar, Straus and Giroux.

Popper, K. (1959) The Logic of Scientific Discovery. Hutchinson.

🔗 延伸：meta-skills

二、真正省時間的 agent 不是跑得快，而是先把會害你返工的硬資料找出來

另一條故事更像出門前先看鑰匙有沒有帶。建立 Garnet negotiation repo 時，舊 daily-insights 其實已經有 Abourbih $779K、Galarneau $716K 這種硬資料，但一開始只讀到比較前面的摘要，結果用了 MGMA / GPT-5.5 推估的 $400-525K base，後來才發現實際 anchor 應該校正到 $450-640K。這不是「搜尋不夠努力」的小錯，而是 workflow 沒把 硬資料優先搜尋（hard-data-first retrieval, 先找金額、百分比、EIN 這類會直接改變判斷的資料） 放在開 repo 的第一步。新的規則因此很樸素：先 grep keyword，再 grep dollar amount、percentage、EIN，而且至少看 200-300 行。這像看病人抽血，不是先聽故事聽到開心，而是先把會改變處置的 potassium、creatinine、hemoglobin 找出來。

同一天的 Budget Narrative V4 也在教同一件事，只是場景從談薪換成 grant compliance。CMS compliance audit agent 先做 8-point regulatory audit，GPT-5.5 high-reasoning review 再抓出 5 個會讓 reviewer 起疑的問題：recruitment 可能 double-count、N=500 多出 $57K gap、$1,000 降到 $900 缺少 marginal-cost rationale、8-cluster design 不能把 power benefit 講太滿、56%/44% budget period split 必須對齊 Table E milestones。這毫無疑問說明 review agent 的價值不是事後挑語病，而是在水泥還沒乾時把鋼筋位置看清楚。最後 V4 draft 能把 $3,300,000 federal request、500 beneficiaries、10% de minimis、Medicare NCD 30.3.3 billing separation、ResDAC vendor classification 放進同一套說法，是因為前面先讓風險被看見。這同 dynamics 也見於手術 planning：好的 checklist 不是讓主刀變保守，而是讓團隊在切下去以前先知道哪裡最可能出血。

📎 sources: obs-64966 · memory-feedback_grep-daily-insights-before-repo · obs-64975 · obs-64976 · obs-64983 📚 references:

Goodhart, C. A. E. (1975) “Problems of Monetary Management: The U.K. Experience”. Papers in Monetary Economics 1.

Campbell, D. T. (1979) “Assessing the impact of planned social change”. Evaluation and Program Planning 2(1):67-90.

Office of Management and Budget (2024) Uniform Administrative Requirements, Cost Principles, and Audit Requirements for Federal Awards; 2 CFR Part 200.

🔗 延伸：meta-skills

2026-05-04（2 段，5 個引用 source）

☕ 今天的主線很清楚：AI workflow 真正成熟的時候，不是模型看起來更會說話，而是它開始知道什麼東西必須先拆清楚、先定義清楚，才值得相信。

一、驗證不再等同於把 SQL 寫對，而是先把一句話拆成可檢查的零件

今天最有意思的反轉，是 oncology FIH verification pipeline 的瓶頸其實不在 SQL 品質，也不在 tolerance threshold，而在 claim decomposition（把一句主張拆成多個可驗證小單位）。這有點像門診病人說「我最近都很不舒服」：你不能直接把這句話拿去開藥，必須先拆成發燒、疼痛位置、時間、藥物反應、共病背景。investment memo 的一句話也是這樣，可能同時塞進 cohort、time window、metric definition、source boundary、alias mapping，甚至還偷藏 denominator。這毫無疑問說明，verification 不再等同於「問 database 一個問題」，而是先問：這句話到底由哪幾個小問題組成？如果只靠 regex 抓表面字串，就像只聽到病人說「痛」卻沒問哪裡痛，後面 SQL 再漂亮也可能驗錯東西。

外部 architecture review 給出的方向很務實：regex 可以抓表面形式，但真正的拆解要靠 hybrid classification（混合分類，讓規則抓明顯線索，再讓 LLM 或 structured parser 拆語意）輸出 JSON schema、multi-label types 和 confidence scores。後續修改也把這個 mental model 寫進 data model：AuditVerdict 從 4 種擴到 7 種，新增 AGREE_WITH_ROUNDING、SOURCE_DRIFT、DEFINITION_MISMATCH，VerificationResult 也多了 denominator、cohort_size、snapshot_date。這不是多幾個欄位而已，而是承認「不同意」本身有很多種類：可能是事實錯，可能是 snapshot date 漂移，也可能是 cohort 定義根本不同。結論是，AI review 的高階技能不是更快判斷 agree/disagree，而是保留足夠 metadata 讓 disagreement 變得可診斷；同 dynamics 也見於臨床研究審稿，很多爭議不是統計錯，而是 population、endpoint、follow-up window 一開始就沒有講同一件事。

📎 sources: obs-65126 · obs-65127 📚 references:

Popper, K. (1959) The Logic of Scientific Discovery. Hutchinson.

Kuhn, T. S. (1962) The Structure of Scientific Revolutions. University of Chicago Press.

Kahneman, D. (2011) Thinking, Fast and Slow. Farrar, Straus and Giroux.

Tversky, A. and Kahneman, D. (1974) “Judgment under Uncertainty: Heuristics and Biases”. Science 185(4157):1124-1131.

🔗 延伸：meta-skills

二、好的 narrative 不再等同於更多錨點，而是讓讀者一路看見同一條線

另一條主線，是 LLM-Wiki 的 narrative format 從 v4 的「材料很多、錨點很多」開始轉向更像聊天的 throughline。早一點的 synthesis template 其實很像 medical case report：先用 50-100 字白話講病例，再放 4-7 條 take-home points，分類成 Best Practice、Guideline/Update、terminology、frameworks、principles、patterns、pitfalls。這個設計很有教學企圖，也比單純 append raw notes 好很多；但使用者一句「v4 還是太散了」抓到核心問題：資訊被整理了，不代表故事被講清楚。七種 anchor 如果每種都想露臉，讀者就像打開一個分類很仔細但每格都塞滿的工具箱，知道東西都在，卻不知道今天到底要拿哪一支螺絲起子。

所以 Gemini 3 Pro review script 的價值，不只是多叫一個模型來批改文字，而是把 second opinion（第二意見，用另一個視角抓自己盲點）制度化。script 用 google.genai SDK 1.62.0，讀 4 個 topic narratives，要求 Gemini 從 narrative structure、information architecture、language rhythm、case-report analogy 四個角度診斷「散」的根因，並限制輸出 ≤3 個根因、可執行 prompt 修改建議、以及 200-300 字示範改寫。這毫無疑問把 AI 寫作從「產出更多內容」推進到「設計 feedback loop」：當第一個模型容易愛上自己的格式，第二個模型就負責問那個格式有沒有真的服務讀者。結論是，meta-skill 不再等同於堆更多 prompt rule，而是知道何時請另一雙眼睛檢查節奏、主線和讀者負擔；同 dynamics 也見於 grant writing，真正好的 review 不是加更多 compliance 字眼，而是讓 reviewer 一路不用腦補地看到主張、證據與風險控制。

📎 sources: obs-65206 · obs-65193 · obs-65222 📚 references:

Aristotle. Poetics.

McKee, R. (1997) Story: Substance, Structure, Style and the Principles of Screenwriting. ReganBooks.

Pinker, S. (2014) The Sense of Style: The Thinking Person’s Guide to Writing in the 21st Century. Viking.

Campbell, D. T. (1979) “Assessing the impact of planned social change”. Evaluation and Program Planning 2(1):67-90.

🔗 延伸：meta-skills

[← 回 Alfred Brain Hub]

AAI Internal Wiki

探索

Meta-Skills（怎麼用 AI）— 我學到了什麼

Meta-Skills（怎麼用 AI）— 我學到了什麼

為什麼這個 topic 存在

每日累積

2026-05-02（2 段，2 個引用 source）

一、真正的 AI 技能不再等同於會下 prompt，而是會把一次學到的捷徑變成下次的預設路線

二、Sub-agent 做資料分析時最貴的常常不是查詢，而是來回問七十六次

2026-05-03（2 段，10 個引用 source）

一、好的 AI 記憶不再等同於存更多東西，而是讓舊材料在正確時候自己站出來

二、真正省時間的 agent 不是跑得快，而是先把會害你返工的硬資料找出來

2026-05-04（2 段，5 個引用 source）

一、驗證不再等同於把 SQL 寫對，而是先把一句話拆成可檢查的零件

二、好的 narrative 不再等同於更多錨點，而是讓讀者一路看見同一條線

關係圖譜

目錄

反向連結