Meta-Skills(怎麼用 AI)— 我學到了什麼
這裡記錄我在「「怎麼用 AI」的學習:sub-agent、prompting、review pattern、CLAUDE.md 規則」累積的學習。 每段話末尾的
[📎 source]可反查到原始 obs / insight / memory / AAI wiki。
為什麼這個 topic 存在
(待累積足夠材料後人工撰寫;目前先 append 每日 delta)
每日累積
2026-05-02(2 段,2 個引用 source)
☕ 今天的共同主題其實很生活化:AI workflow 不是靠「更努力」變好,而是靠把反覆踩到的坑寫成下次會自動避開的路標。好的 meta-skill 像廚房備料,真正省時間的不是切菜切得更快,而是下次一伸手就拿到對的刀。
一、真正的 AI 技能不再等同於會下 prompt,而是會把一次學到的捷徑變成下次的預設路線
今天最有趣的地方,是一個看似很小的設定更新,其實露出一個很大的 mental model:當某條路已經被證明比較短,就不要每次都重新問導航。影像生成那條經驗很清楚:若目標是 editorial-style image,例如 hero image 或 scientific visual motif,直接用 OpenAI SDK(Software Development Kit, 讓程式直接呼叫模型 API 的工具包) 呼叫 gpt-image-2,比繞一圈 Codex CLI 再讓 GPT-5.5 當中介更乾淨。材料裡甚至把 code template、1536x1024 size、~/.claude/.env 裡的 OPENAI_API_KEY、以及 watercolor rendering、asymmetric composition 這些品質優勢都寫進 CLAUDE.md。這毫無疑問不是單純「記筆記」,而是把一次成功的看診經驗,整理成下次門診一打開電腦就會出現的 order set。
這件事重要,因為 AI 使用常常被誤會成即興表演:今天靈感好,prompt 寫得漂亮,結果就好;明天狀態差,就重新摸索。但成熟的 workflow 剛好相反,它會把靈感變成 infrastructure。**Orchestrator overhead(協調者額外成本,指模型在中間轉述、判斷、呼叫工具所花的時間與推論費用)**一旦被看見,就不再只是背景雜音,而是可以被拿掉的摩擦力。結論是,meta-skill 的核心不是收藏更多技巧,而是知道哪些技巧值得升格成規則;同 dynamics 也見於臨床路徑設計,好的 protocol 不是取代醫師判斷,而是讓團隊少在已知問題上重複消耗注意力。
📎 sources: obs-64726 📚 references:
- Kahneman, D. (2011) Thinking, Fast and Slow. Farrar, Straus and Giroux.
- Schön, D. A. (1983) The Reflective Practitioner: How Professionals Think in Action. Basic Books.
- Simon, H. A. (1969) The Sciences of the Artificial. MIT Press.
🔗 延伸:meta-skills
二、Sub-agent 做資料分析時最貴的常常不是查詢,而是來回問七十六次
另一條故事更像廚房裡的備料問題:如果你要煮十人份晚餐,最笨的做法不是刀工慢,而是每切一根蔥就跑去問一次「下一步呢?」材料裡的數字很刺眼:一個 adc-target-classification agent 做 SQLite DB 分析時,用了 76 次 tool call,每次多半只跑一條 sqlite3 CLI,最後花了 589 秒,將近 10 分鐘;但真正的 DB 查詢每條其實不到 100ms。瓶頸不在 database,而在 76 次 API round-trip、model inference、permission check 疊起來的等待。這讓 batching(批次化,把許多小動作合成一次完成) 從「工程潔癖」變成很實際的時間醫學:少一次來回,就少一次整個系統重新暖機。
因此規則變得很清楚:當 schema 已經大致知道,sub-agent 的 prompt 應該明說「寫一個 Python script,用 sqlite3 模組一次完成資料提取、memory 內分類計算、輸出到 output/」,目標是 3-5 次 tool call、1-2 分鐘完成,而不是 76 次 tool call、10 分鐘慢慢磨。這毫無疑問改變了我們對「聰明 agent」的想像:聰明不再等同於每一步都回報,而是知道何時把工作包成一個可重跑、可檢查、可交付的 script。探索期用 1-2 次 CLI 看 schema 可以接受;但一旦路線清楚,就該收斂成 single execution。同 dynamics 也見於研究資料清理,真正可靠的分析不是在 console 裡手感很好,而是把判斷固定在可追蹤的 pipeline 裡。
📎 sources: memory-feedback_agent-batch-query-optimization 📚 references:
- Goodhart, C. A. E. (1975) “Problems of Monetary Management: The U.K. Experience”. Papers in Monetary Economics 1.
- Campbell, D. T. (1979) “Assessing the impact of planned social change”. Evaluation and Program Planning 2(1):67-90.
- Knuth, D. E. (1974) “Structured Programming with go to Statements”. ACM Computing Surveys 6(4):261-301.
🔗 延伸:meta-skills
2026-05-03(2 段,10 個引用 source)
☕ 今天的主線很像把一間常用廚房重新整理:不是買更多刀具,而是把食材放到下次一伸手就找得到的位置,還要知道每包食材從哪裡來。
一、好的 AI 記憶不再等同於存更多東西,而是讓舊材料在正確時候自己站出來
今天最關鍵的轉向,是把 memory 和 insights 合成一個會每天更新的 LLM-Wiki。這件事乍看像「多一個知識庫」,但真正的意思更像看診前的摘要頁:不是把所有病歷原封不動丟給你,而是先把最能改變決策的資訊整理出來。材料裡把這種差別講得很清楚:舊系統偏 指標型記憶(pull-based memory, 要查才會被叫出來的記憶),LLM-Wiki 則想做 蒸餾型知識(push-based distilled knowledge, 預先把碎片整理成可讀判斷)。這毫無疑問改變了 AI workflow 的重心;會用 AI 不再等同於當下問得漂亮,而是讓系統每天把昨天學到的東西推進一點點。
但這裡也有一個很現實的坑:如果只是一直 append,三個月後它不會變聰明,只會變成另一個塞滿東西的抽屜。所以 roadmap 才會被 gpt-5.5 architectural review 拉回地基:先補 manifest.json、stable unit_id、content_hash,再讓 synthesis 只做 single topic + single day + manual review。這聽起來很工程,但白話說就是:每句話都要能回頭找到是哪一包食材煮出來的。後來的 03-synthesize-prep.ts 也沿著這個方向走,把完整 unit content、source metadata、citation discipline 包進 prompt,讓 subagent 不必到處翻資料,也比較不會憑空補劇情。這同 dynamics 也見於臨床 registry:資料多不等於可信,真正能被 audit 的,是每個 conclusion 都能追回 source、時間與定義。
📎 sources: obs-64942 · obs-65010 · obs-65013 · obs-65035 · obs-65037 📚 references:
- Simon, H. A. (1969) The Sciences of the Artificial. MIT Press.
- Kahneman, D. (2011) Thinking, Fast and Slow. Farrar, Straus and Giroux.
- Popper, K. (1959) The Logic of Scientific Discovery. Hutchinson.
🔗 延伸:meta-skills
二、真正省時間的 agent 不是跑得快,而是先把會害你返工的硬資料找出來
另一條故事更像出門前先看鑰匙有沒有帶。建立 Garnet negotiation repo 時,舊 daily-insights 其實已經有 Abourbih $779K、Galarneau $716K 這種硬資料,但一開始只讀到比較前面的摘要,結果用了 MGMA / GPT-5.5 推估的 $400-525K base,後來才發現實際 anchor 應該校正到 $450-640K。這不是「搜尋不夠努力」的小錯,而是 workflow 沒把 硬資料優先搜尋(hard-data-first retrieval, 先找金額、百分比、EIN 這類會直接改變判斷的資料) 放在開 repo 的第一步。新的規則因此很樸素:先 grep keyword,再 grep dollar amount、percentage、EIN,而且至少看 200-300 行。這像看病人抽血,不是先聽故事聽到開心,而是先把會改變處置的 potassium、creatinine、hemoglobin 找出來。
同一天的 Budget Narrative V4 也在教同一件事,只是場景從談薪換成 grant compliance。CMS compliance audit agent 先做 8-point regulatory audit,GPT-5.5 high-reasoning review 再抓出 5 個會讓 reviewer 起疑的問題:recruitment 可能 double-count、N=500 多出 $57K gap、$1,000 降到 $900 缺少 marginal-cost rationale、8-cluster design 不能把 power benefit 講太滿、56%/44% budget period split 必須對齊 Table E milestones。這毫無疑問說明 review agent 的價值不是事後挑語病,而是在水泥還沒乾時把鋼筋位置看清楚。最後 V4 draft 能把 $3,300,000 federal request、500 beneficiaries、10% de minimis、Medicare NCD 30.3.3 billing separation、ResDAC vendor classification 放進同一套說法,是因為前面先讓風險被看見。這同 dynamics 也見於手術 planning:好的 checklist 不是讓主刀變保守,而是讓團隊在切下去以前先知道哪裡最可能出血。
📎 sources: obs-64966 · memory-feedback_grep-daily-insights-before-repo · obs-64975 · obs-64976 · obs-64983 📚 references:
- Goodhart, C. A. E. (1975) “Problems of Monetary Management: The U.K. Experience”. Papers in Monetary Economics 1.
- Campbell, D. T. (1979) “Assessing the impact of planned social change”. Evaluation and Program Planning 2(1):67-90.
- Office of Management and Budget (2024) Uniform Administrative Requirements, Cost Principles, and Audit Requirements for Federal Awards; 2 CFR Part 200.
🔗 延伸:meta-skills
2026-05-04(2 段,5 個引用 source)
☕ 今天的主線很清楚:AI workflow 真正成熟的時候,不是模型看起來更會說話,而是它開始知道什麼東西必須先拆清楚、先定義清楚,才值得相信。
一、驗證不再等同於把 SQL 寫對,而是先把一句話拆成可檢查的零件
今天最有意思的反轉,是 oncology FIH verification pipeline 的瓶頸其實不在 SQL 品質,也不在 tolerance threshold,而在 claim decomposition(把一句主張拆成多個可驗證小單位)。這有點像門診病人說「我最近都很不舒服」:你不能直接把這句話拿去開藥,必須先拆成發燒、疼痛位置、時間、藥物反應、共病背景。investment memo 的一句話也是這樣,可能同時塞進 cohort、time window、metric definition、source boundary、alias mapping,甚至還偷藏 denominator。這毫無疑問說明,verification 不再等同於「問 database 一個問題」,而是先問:這句話到底由哪幾個小問題組成?如果只靠 regex 抓表面字串,就像只聽到病人說「痛」卻沒問哪裡痛,後面 SQL 再漂亮也可能驗錯東西。
外部 architecture review 給出的方向很務實:regex 可以抓表面形式,但真正的拆解要靠 hybrid classification(混合分類,讓規則抓明顯線索,再讓 LLM 或 structured parser 拆語意)輸出 JSON schema、multi-label types 和 confidence scores。後續修改也把這個 mental model 寫進 data model:AuditVerdict 從 4 種擴到 7 種,新增 AGREE_WITH_ROUNDING、SOURCE_DRIFT、DEFINITION_MISMATCH,VerificationResult 也多了 denominator、cohort_size、snapshot_date。這不是多幾個欄位而已,而是承認「不同意」本身有很多種類:可能是事實錯,可能是 snapshot date 漂移,也可能是 cohort 定義根本不同。結論是,AI review 的高階技能不是更快判斷 agree/disagree,而是保留足夠 metadata 讓 disagreement 變得可診斷;同 dynamics 也見於臨床研究審稿,很多爭議不是統計錯,而是 population、endpoint、follow-up window 一開始就沒有講同一件事。
📎 sources: obs-65126 · obs-65127 📚 references:
- Popper, K. (1959) The Logic of Scientific Discovery. Hutchinson.
- Kuhn, T. S. (1962) The Structure of Scientific Revolutions. University of Chicago Press.
- Kahneman, D. (2011) Thinking, Fast and Slow. Farrar, Straus and Giroux.
- Tversky, A. and Kahneman, D. (1974) “Judgment under Uncertainty: Heuristics and Biases”. Science 185(4157):1124-1131.
🔗 延伸:meta-skills
二、好的 narrative 不再等同於更多錨點,而是讓讀者一路看見同一條線
另一條主線,是 LLM-Wiki 的 narrative format 從 v4 的「材料很多、錨點很多」開始轉向更像聊天的 throughline。早一點的 synthesis template 其實很像 medical case report:先用 50-100 字白話講病例,再放 4-7 條 take-home points,分類成 Best Practice、Guideline/Update、terminology、frameworks、principles、patterns、pitfalls。這個設計很有教學企圖,也比單純 append raw notes 好很多;但使用者一句「v4 還是太散了」抓到核心問題:資訊被整理了,不代表故事被講清楚。七種 anchor 如果每種都想露臉,讀者就像打開一個分類很仔細但每格都塞滿的工具箱,知道東西都在,卻不知道今天到底要拿哪一支螺絲起子。
所以 Gemini 3 Pro review script 的價值,不只是多叫一個模型來批改文字,而是把 second opinion(第二意見,用另一個視角抓自己盲點)制度化。script 用 google.genai SDK 1.62.0,讀 4 個 topic narratives,要求 Gemini 從 narrative structure、information architecture、language rhythm、case-report analogy 四個角度診斷「散」的根因,並限制輸出 ≤3 個根因、可執行 prompt 修改建議、以及 200-300 字示範改寫。這毫無疑問把 AI 寫作從「產出更多內容」推進到「設計 feedback loop」:當第一個模型容易愛上自己的格式,第二個模型就負責問那個格式有沒有真的服務讀者。結論是,meta-skill 不再等同於堆更多 prompt rule,而是知道何時請另一雙眼睛檢查節奏、主線和讀者負擔;同 dynamics 也見於 grant writing,真正好的 review 不是加更多 compliance 字眼,而是讓 reviewer 一路不用腦補地看到主張、證據與風險控制。
📎 sources: obs-65206 · obs-65193 · obs-65222 📚 references:
- Aristotle. Poetics.
- McKee, R. (1997) Story: Substance, Structure, Style and the Principles of Screenwriting. ReganBooks.
- Pinker, S. (2014) The Sense of Style: The Thinking Person’s Guide to Writing in the 21st Century. Viking.
- Campbell, D. T. (1979) “Assessing the impact of planned social change”. Evaluation and Program Planning 2(1):67-90.
🔗 延伸:meta-skills
[← 回 Alfred Brain Hub]