楔子:四家 LLM 被丟進同一個急診情境,沒有一家通過

AACR 2026 的 AI 軸線有一個尷尬的「開場白」,而且是被 sponsor 自己講出來的。Large Language Models in the Clinic 場次第一張 poster,Jose Zea 的 AB#764,標題就寫「Arkangel AI、OpenEvidence、ChatGPT、Medisearch 到底有沒有達到醫療標準?」作者找四個獨立臨床醫師設計 fictitious 臨床 vignettes,同一批問題丟進四個 LLM 客服。結果八個標準(correctness / consensus / bias / standard of care / updated information / patient safety / real sources / context-awareness)裡,沒有一個模型在八個面向全部及格。同一場次第二張,Peter Palumbo 的 AB#7994,把 acute leukemia 的 NCCN-anchored RAG GPT-5 跟 Open Evidence 對打 40 個 AML/ALL vignettes——他的結論比 Zea 更直接:source discipline matters。意思是:Open Evidence 那種靠 NEJM/JAMA 搜索的模型,在 guideline-driven disease 上會輸給一個乾淨鎖在 NCCN 的窄 RAG。一個模型愈「博學」,愈可能在 treatment-selection 題目上自我矛盾。

如果你是袁醫師,這兩篇擺在 session 最前面其實是刻意設計——2026 年 LLM 在 clinic 的故事不是「GPT-X 拿到多少 MedQA 分數」,而是「prompting pipeline、data source、retrieval 策略的工程學超過底模能力」。Aakash Desai 的 AB#6469 把這件事量化:六個 open LLM(llama3.2:3b、llama3.3:70b、medgemma_27b_text_it、deepseek-r1:8b、gpt-oss20b、gpt-oss120b)做 clinical trial eligibility screening,gpt-oss 20B 跟 120B 幾乎打平——也就是說在這個 task 上,底模規模從 20B 推到 120B 的邊際效益接近零。規模戰爭在 bedside 結束了,工程戰爭才剛開始。

這也是為什麼 564 篇摘要裡有一大半其實不在展示「新模型」,而是在展示「失敗怎麼改出來」。往下看,這個 pattern 會一路重演:digital pathology foundation model 生態卷到下游 task 都在用 UNI,但 UNI 在 Merkel cell carcinoma 這種小 cohort 上到底能不能零 shot?federated learning 在整個軸線只有 1 篇像樣的摘要——「privacy-preserving」基本上是 2026 AACR 的退燒詞;而所謂的 agentic AI 裡,真正有 self-critic、有 adversarial verifier 的只有兩三家。其餘大部分是把 GPT 包一層 tool-calling 就當 agent 發海報。

這篇我想談 2026 的 AI 軸到底哪些東西真的進了臨床、哪些還在 hype、哪些已經 saturate 到該換題目。

一、LLM 在 clinic 的第一波災難倖存者:summary / triage / abstraction 三件事已解,其他還沒

LLM 進臨床在 2024-2025 被 over-hyped 到一個地步,現在 2026 的 data 開始挑出哪些 task 是真的可以上線,哪些是 demo 演出來、上線就壞。結論非常清楚:三件事已解,其他都別急

第一件是 clinical document abstraction。Tian Kang 的 AB#1997 用一個三段式 hybrid multi-agent 做 cancer diagnosis + staging 的結構化抽取,staging accuracy 跟 tumor registry 相比差不多齊平。Arshad Mohammed 的 AB#1971 用 Gemini-2.0-Flash-001 + GPT-5 二段式 agent 做 AJCC 8th edition 的 breast cancer c/pTNM staging,LLM 的 staging 跟臨床醫師在就診當下記錄的 staging concordance 比 registry 還好。Krishna Kalari 的 AB#6571 把 Invitae / Ambry / Foundation Medicine 三家不同 vendor 的 heterogeneous PDF 基因報告用 LLM framework 結構化——這是過去 NLP 十年啃不動的東西,LLM 幾個月就吃掉了。Joshua Levy 的 AB#5302 甚至把 on-site peta-scale LLM 拉去跑 MSI classification——不用上雲、不用 OpenAI API、本地運行足以吃掉 pathology report curation。這組已經 saturate。Camille Schwartz 的 AB#185 是一個本科生主導的 Microsoft Copilot chart abstraction,concordance 夠用——也就是說這個 task 從「需要 NLP PhD」降到「undergrad + vendor agent」能做。

第二件是 triage。Dinh Nguyen 的 AB#6631 在 Kaiser Permanente Southern California 做 hematology/oncology patient-portal 訊息分流——臨床醫師打標,LLM 分類 urgent vs non-urgent。是今年少數真的用 system-level 資料測安全性的 triage 研究。Ivan Marrufo 的 AB#2752 在 JPS Health Network 用 AI 抓高風險 incidental pulmonary nodule 並自動轉診——「有實際 referral outcome」的例子,不是 AUROC 堆疊。這些 triage paper 的共通點是:他們敢寫下 recall / false-negative,而不是躲進 AUROC。

第三件是 clinical trial matching。Patrycja Krawczuk 的 AB#2500 提出一個明確診斷:LLM + RAG 在複雜多準則 eligibility 會「抓不到分散證據」,她的解法是 agentic retrieval——讓模型 autonomously iterative search。Aakash Desai 的 AB#6469 則在另一頭證明模型選擇在這個 task 上飽和得很快。從展板規模看,2027 clinical trial matching 應該會出現第一個被 FDA regulatory clearance 處理的 agent 類產品。

其他 task 都還沒解。Decision support 還沒。AB#7994 的 leukemia 實驗直白講:接 NCCN 會贏接 NEJM 的——這個結論反過來說是「模型很容易被 source bias 污染」,那在實際臨床部署等於叫 IT 部門去挑 guideline,這件事醫院沒人想扛。Patient-facing chatbot 還沒。AB#764 四個 vendor 全倒,同樣也反映在「AACR 會場 poster 敢放 safety metric 的人其實不多」。Zeyun Lu 的 AB#7881 則示範了一個更微妙的失敗:LLM 抽 immunotherapy irAE,資料上線了,但 severity / onset date 抓得比預期差。severity 這件事有 time-sensitive survival implication——如果 severity 抓錯,下游的 cox model 就全歪。Kim Blenman 在 AB#8780 用一個嗆辣的標題「Humans cannot live by artificial intelligence alone」直接把這個疑慮寫上海報:四個 differential expression 方法做 shared biomarker detection,答案居然彼此不一致——這篇的價值不是技術,是「AI/ML 結果的 inter-method reproducibility 還沒被嚴肅處理」這件事被公開講出來。

袁醫師如果真的要在雲林分院做 LLM 臨床落地,應該從這三件「已解」的事情開始,並且把「尚未解」的 decision support 慢一步——這個時點搶進去,短期只會吃 FDA warning letter。

二、Agentic AI:行銷詞五成、真 workflow 兩成、self-critic 只有一成

Agentic AI in Cancer 這個 session 本身就是 2026 最值得留意的「詞彙膨脹」現場。20 篇 abstract,真正有 agent architecture(不只是 LLM + tool calling)、又敢承認 hallucination 並做 verification 的,我數下來大概三四篇。

最硬的是 Mehdi Orouji 的 Charles(AB#7886)。明確寫「AI hallucinations and unreliable and untraceable public data cast shadows」,然後放一個 adversarial AI agent 當 self-critical conscience,再 inject decoy raw data 做 quantitative 測試。這是 agentic AI 該有的實驗設計——不是秀 UI,而是量化 self-correction 成功率。Asim Waqas 的 AB#8659 也直接承認:single-LLM 抽 SDOH 會 hallucinate、搞錯時間序,解法是 multi-agent orchestration 配 temporal verifier。這兩篇是 agentic 這個詞在 2026 最該讀的 ground truth。

中層是工程實用型的「agent 當 API wrapper」。Juan Arango Ossa 的 AB#5131 把 Anthropic 的 MCP (Model Context Protocol) 串進 MSKCC Isabl Platform——470 個 project、105k sequencing experiment、70k 病人、4.5 PB 資料——讓 LLM 能夠把自然語言翻成合法 query。這是一個很值得袁醫師學的範式:不重寫 pipeline,重新包 pipeline 的 interface。Han Liang 的 DrBioRight(AB#8746)、Michael Reich 的 GP CoPilot(AB#5171,Genome Pattern 生態的 LLM agent)、Arthur Liberzon 的 RNA-seq agent(AB#6325)、Yuchang Seong 的 PortrAIgent(AB#5312,spatial transcriptomics co-scientist)都是同一條線上的產品。這些系統共同問題是:benchmark 幾乎都 in-domain、self-report,第三方 replication 不存在

再下一層就是 hype。Aman Sharma 的 ImmunoVerse-Chat(AB#2142)、Yi Ni 的 Multi-agent CAR-T Bio AI Agent(AB#230,號稱「六個 agent 自主設計 CAR-T」)、Long Do 的 CertisAI(AB#8045,preclinical model selector)都屬於「LLM 包一堆 tool,然後宣稱能自主做 drug discovery」——abstract 裡看不到 benchmark 對照、看不到 failure mode、看不到 acceptance criteria。這些海報不是錯,它們只是**「demo-ware」這個 genre 的 2026 版本**。2027 這批名字有一半會不見。

真正有意思的是一篇反指標:Philip Haddad 的 AB#183 做 Arkansas-Louisiana-Texas veteran 的 AI-in-healthcare 態度調查,提醒大家病人的信任感並不跟模型 AUROC 線性增長——這在 agentic AI 海報洪流中是必要的冷水。袁醫師要 push AI 醫療落地,這類 human factor 的 baseline 要先有。

一個隱藏趨勢:Brandon Theodorou 的 AB#7134 做 agentic cohort extraction,同時提到「digital twin modeling」跟「virtual trial simulation」——agentic AI + digital twin + synthetic control arm 的鐵三角在 pharma sponsor side 開始成形。這是 AACR 2027 可能會正式冒出的新 session 題目。

三、Pathology foundation model:UNI 幾乎吃下整個生態,但沒人真的驗證過邊界

Digital Pathology 1+2+3 合起來 60 篇,大半故事都圍繞一個生態事實:Mahmood lab 的 UNI / UNI2(Virchow2 / GigaPath 次之)幾乎變成 2026 pathology downstream 的預設 encoder

直接用 UNI/UNI2 的:Xiaohan Xing 的 AB#3285(把 UNI 跟 transcriptomics 大模型 BulkRNABert 對齊,預測 spatial TME)、Roshan Lodha 的 AB#3203(UNI2 frozen encoder 直接用在 Merkel cell carcinoma IHC,只 31 張片子跑 stage correlation)、Saugato Rahman Dhruba 的 Path2Prot(AB#7325,breast cancer 413 protein abundance 從 H&E 推)、Maayan Baron 的 AIM-io(AB#8696,多 model fusion 用 UNI/CONCH/GigaPath embedding 預測 ICI response)、Minsoo Lee 的 AB#5849(用 DINOv2 patch encoder + ST prediction head)。Haenara Shin 的 VGL(AB#5321)把 MedGemma 拉進 vision-gene-language 三模態 stack 做肺癌 cell typing。

這個生態有幾個很有意思的結構性問題,但很少人在 AACR 公開檢討:

第一,Merkel cell 那種 30 張片子的 cohort 真的適合套 1.5B-parameter UNI2 嗎?AB#3203 的 AUROC 看起來漂亮,但 31 張片子 × 4 stage 做 zero-shot feature clustering,這個樣本數在 foundation model era 是個公開的秘密:前人的 task 不 equal 現在 task,但大家默契地不拉 calibration plot

**第二,batch effect 沒有被嚴肅對待。**Alexander Bagaev 的 AB#2459 反而是整個 pathology 軸線最誠實的一篇——他明講 stain / scanner / site 的 non-biological variations 會讓 model 學到 spurious 特徵、內部 performance 膨脹、跨中心 drop 幾十 points。他的 diffusion-based color checker 是個簡單誠實的工程解法。Bardia Rodd 的 AB#5206 做 clinical-grade QC + stain harmonization,也是同一類問題。這種「把基礎架構認真做好」的工作在展板上永遠沒有「我們訓了一個 new foundation model」有聲量,但真正救命的是前者。Bardia Rodd 的另一篇 AB#5259 乾脆把 probability calibration 寫進摘要——margin-aware training + Macenko normalization 才能撐住 domain shift。2026 digital pathology 少數敢用「calibration」這個詞的展板值得全部記下來

第三,「virtual IHC」這件事比想像中進展快,但評估很糙。Kenneth To 的 AB#2892(lung TME virtual IHC)、Jeffrey Lock 的 AB#5167(TROP2 IHC AI scoring)、Jeannette Fuchs 的 AB#6750(Cyclin E1 virtual IHC)、Akash Parvatikar 的 AB#5591(ViewsML vIHC 跟 HistoWiz PathologyMap 合作驗證)、Juyeon Park 的 AB#8343 / AB#8438(holotomography 做 label-free virtual H&E 跟 virtual multiplex stain)——這組在技術上全部 feasible,但臨床 adoption 的瓶頸不在模型精度,而在「誰付這個 reimbursement code」跟「pathologist 願不願意簽」AB#6491 的 pathologist alignment paper 是少數敢碰這個組織行為問題的。

第四,prediction 跟 correlation 之間的鴻溝不夠誠實。Justin Johnson 的 AB#6927 把 WSI features + age 預測 prostate cancer recurrence。500 位 TCGA-PRAD 病人,這個 setting 已經被十幾個 group 做過,AUROC 通常落在 0.7-0.8。這類研究若不配外部 multi-site validation + decision curve analysis + calibration plot,在 2026 基本上是 replication hell。袁醫師做 prostate AI 應該要跳過這個坑,直接做跨院 external validation,否則跟 TCGA-PRAD 生態重疊等於沒做。

真正值得抄的 paper:Savitri Krishnamurthy 的 AB#2470,把 4 個 AI digital pathology tool 對 384 張 HER2 IHC 0/1+ 切片做 concordance 比較。4 家 tool 之間一致性差得見底。這種「vendor-level AI 不會收斂」的 observational paper 才是 clinical decision maker 要讀的。HER2-low / ultralow 的 T-DXd 決策不能讓 AI 獨唱,必須多工具 + 病理師三方比對。

袁醫師自己在 NTUH Yunlin 的 prostate cohort 如果要做 WSI-based risk stratification,我會建議第一步做 Krishnamurthy 式的 concordance 評估,第二步才是訓自己的 model。不要跳過這一步。

四、Agentic AI + Digital Twin + Multimodal foundation model:把「病人」變成「序列」

AI in Cancer 2026 最有野心的一組是把 EHR 整個 patient trajectory 當 sequence 做 foundation model。

Andrew Zhang 的 AB#7011 是這個 genre 的旗艦——一個 US major healthcare system、7.2 million patients、25 billion medical events、33 年、28 種臨床 modality(診斷、處方、lab、vital、notes、imaging),訓一個 transformer-based multimodal temporal foundation model。這跟 Mount Sinai / Epic 在類似方向的努力平行。

相似方向的 Marta Milo 的 AB#6227(baseline PBMC scRNA-seq + scGPT / scFoundation 預測 solid-tumor response + AE)、Alexander Abbas 的 GEM-1(AB#822,470,691 bulk RNA-seq samples + automated metadata agent,用 LLM 把實驗 metadata 標準化後訓 generative genomics model),跟 Tej Patel 系列的 patient-temporal EHR transformer 都在填這塊缺口。

Bardia Rodd 的 AB#5259 提到一個關鍵概念:「morphology twin」——每個病人的 WSI 形態投影當成 digital twin 的一個 dimension。Brandon Theodorou 的 AB#7134 把這些 twin 拉進 virtual trial simulation。Inbal Gazy 的 AB#6836 則直接用 AI-driven multimodal workflow 做晚期臨床試驗 outcome prediction——pharma sponsor 已經在 push「用 digital twin 取代 placebo arm」的論述,預計 2027-2028 就會在 FDA regulatory meeting 裡正式被討論。

這個賽道的真正風險不是技術,是 generalizability vs memorization 的經典陷阱。JONG HYUN KIM 的 AB#5261 做一件少見但關鍵的事:把 scRNA foundation model(CellFM / GeneFormer / scBERT / scFoundation / scGPT / scLong)跟 BulkFormer 對決——測它們能不能 generalize 到 bulk RNA-seq 資料。結論說白了:single-cell foundation model 套到 bulk data 上,distributional bias 跟 performance drop 可觀。這打到 Milo AB#6227、Xiaohan Xing AB#3285、Haenara Shin AB#5321 等一批 downstream paper 的地基:你用的 encoder 跟你用的 downstream data 根本不是同一 distribution。大家在裝不看見。

foundation model 這條線還有一個暗問題:train data 污染。Zoom 出來看,UNI / GigaPath 都 train 在 TCGA + 部分 public archive 上,但下游很多 paper 也用 TCGA 做 validation——這在 ML 裡叫 reviewer-laundered data leakage。Hongru Shen 的 MiFM(AB#6133)做 microbiome foundation model 時明寫「poor generalizability across cohorts and sequencing platforms」並刻意用 self-supervised pretraining + contrastive loss 去處理。他的另一篇 AB#3912 platelet RNA SSL biomarker,一樣誠實承認 supervised approach 會 overfit cohort artifact。這種第一原理的誠實在 2026 值得記名字。

五、Radiomics 的轉身:從「靶藥 AUROC 玩具」到「試驗加速器」

過去十年,radiomics 最被詬病的是 single-center AUROC、外部驗證失敗、無 calibration。2026 的 radiomics 有兩個轉向讓這條線重新找到位置。

第一個轉向是把 AI 塞進臨床試驗的 endpoint。Sean Khozin 的 AB#3240RECIST 的 inter-reader discordance(>30%)點名,然後端出 UNet + ResNet50 dual-architecture,跨三洲、4 種 scanner、2,464 CT、1,324 病人、11,705 病灶——目標是取代 RECIST 的 2-5 target lesion 做 total tumor burden 自動量化。這是過去 radiomics 做不到的規模跟地理分布,而且 Khozin 自己是前 FDA 的人,這件事是認真要推 regulatory endpoint 的訊號。Chiharu Sako 的 AB#2071 更進一步:用 Serial CTRS 這個 deep-learning CT biomarker 去救活 SWOG S0819 這個原本 miss primary endpoint 的 Phase III——簡單講,AI biomarker 可以讓沒讀到 PFS/OS 的試驗重新從 CT 上讀出 biological signal。這對 Phase II 的 go/no-go 決策是價值數千萬美元的改變。Omar Khan 的 AB#2501 IPRO-α 做的是 stage IV CRC 的 pre-treatment CT prognostication,也是同一條線。

第二個轉向是 non-invasive predictor 取代 tissue biomarker。Zhang Yaqi 的 PanClaudinAI(AB#688)用 CECT + Vision Transformer 預測胰臟癌的 Claudin 18.2 expression,目的是在無法做 IHC 的病人身上指引 zolbetuximab 或 CLDN18.2 ADC 治療。Bo Chen 的 AB#3841 在 unresectable HCC 用 radiomics 挑 lenvatinib 4 種 regimen 的 responder。Sehun Kim 的 AB#3304(gastric EGD foundation model)、AB#8460(esophageal depth prediction)把 endoscopic foundation model 推進 clinical-grade staging。Christopher Scott 的 AB#4298 把 MIRAI 5-year 乳癌風險模型 + polygenic risk score 結合——這是少數公開列 calibration curve 的 radiomics paper,值得抄板。

反面教材也有。Bardia Rodd 的 Kaniadakis vector embedding 系列(AB#7785AB#3847AB#5259)一連三張展板,每一張都主打一個「novel embedding framework」但 cohort size、external validation、calibration 敘述都偏弱——這個 pattern 在 2026 開始被 reviewer 點名。radiomics 的一個 paper 如果不附 external site 數據、calibration plot、decision curve analysis,到 2027 應該會被直接拒掉

袁醫師如果要做 prostate MRI AI,第一要看 Thineskrishna Anbarasan 的 AB#6116(mpMRI + spatial transcriptomics 對照 clonal heterogeneity——把 imaging signal 接到分子本體),第二要躲開單中心 AUROC 派,直接瞄 NYU / UCLA / Oxford 的 multicenter mpMRI 資料合作。

六、Federated learning 死了嗎?Privacy 變成論文點綴,不是研究方向

如果你 grep 整個 564 篇,會發現一件事——「federated learning」在整個 AI 軸線只有接近零有效命中。「privacy-preserving」除了 Ying Huang 的 AB#4431(Regulatory Science 場次的 scoping review)之外,也幾乎缺席。

這在 2021-2023 AACR 是不可想像的。那幾年幾乎每個大 center 都有一個 federated 展板。2026 消失了。理由大概三個:

一,healthcare data infrastructure 本身追上了。Andrew Zhang AB#7011 的 7.2M 病人 × 25B events 是在單一 healthcare system 內部做的——不需要 federated,因為資料本來就在一個 enclave 裡。美國幾個大型 IDN (Kaiser、UHG、HCA、Intermountain)的中央化程度在過去三年大幅提升,federated 的原動力就消失了。

二,foundation model 的「用別人的 embedding」取代了「跨院 train」。UNI、GigaPath、scGPT 這些 public foundation model 已經吃掉了 federated 的實際用途——你不需要跨院 train 原圖,只要把 embedding 傳來傳去。這比 federated gradient aggregation 簡單 100 倍,而且也沒有 IRB 問題(embedding 通常不算 PHI)。

三,pharma sponsor 的 real-world evidence 生態往集中式走。Brandon Theodorou AB#7134 的 digital twin、Inbal Gazy AB#6836 的 late-phase outcome prediction 都建立在集中的 multi-site dataset,不是 federated gradient。Sponsor 寧願花錢買 Flatiron / Tempus / Guardant 的 curated data,也不想處理 federated 的工程複雜度。

Ying Huang 的 AB#4431 在這個背景下變成一篇另類的重要論文:他在做 genomic relational privacy 的 scoping review——一個人的基因資訊同意不等於他家族的同意。當 federated 走弱、中央 dataset 膨脹,這種「個人 consent 解不掉家族 privacy」的結構問題反而會成為 2027-2028 最核心的 regulatory debate。

袁醫師的 Yunlin cohort 其實在這個世界圖裡有獨特的策略位置:台灣健保資料的 enclave 本質 + 東亞族群樣本稀缺性 + 袁醫師自己能寫 AI 的角色,可以不做 federated,直接走「本地 train 到 publish,再跟 UT Southwestern / NYU / MSK 對照」這條窄路。這條路的 bottleneck 從來不是模型,是 IRB 跟資料治理——而這恰好是臨床醫師(不是 AI 工程師)有比較優勢的地方。

七、Benchmark saturate 的 task vs 還沒被解的 task

如果要用一張清單劃一下 2026 AI-in-cancer 的 frontier,大致是這樣:

已 saturate(不要再做)

  • H&E slide 的 MSI / HER2 / PD-L1 scoring(Shima Nofallah AB#1400、Akul Singhania AB#1378 的 Lauren classification 幾乎已是 solved task)
  • 從 whole slide image 預測 TCGA molecular subtype(Yesul Jeong AB#8250、Brennan Simon AB#4553 等一堆 group,2026 大家都能做到 AUROC 0.85+)
  • Basic clinical note LLM abstraction(前面第一章提過;這已經不是研究問題,是 vendor 問題)

正在收斂但還有空間

  • H&E → gene expression prediction(AB#3932AB#7325AB#5849 各自的方法路徑不同但 accuracy 開始逼近 ceiling)
  • WSI + clinical multimodal survival model(多為 memorize-TCGA 問題,但 AIM-io AB#8696 做 ICI response 是少數外擴到 ICI 的)
  • Foundation model for bulk vs single-cell RNA(Kim AB#5261 點破 distributional bias 之後這條線需要一個新的 benchmark)

沒被解的

  • LLM clinical decision support with liability-graded failure modes(AB#764 + AB#7994 展示這個空白)
  • Multimodal AI 跨 modality 的 causal inference(目前的都還是 correlation + prediction,不是 counterfactual)
  • Rare cancer foundation model(Merkel cell AB#3203 31 張片子能幹嘛?NEPC、ACC、小兒肉瘤 foundation data 嚴重缺)
  • Patient-specific longitudinal prediction with calibration(AB#7011 規模夠大但沒公開 calibration plot)
  • Explainability 在 oncology context 的 actionable version(目前 SHAP / attention map 都還只是 visualization,不是 decision aid)

尾聲:袁醫師可以從 2026 AACR AI 軸偷走的三個 idea

第一,做 concordance paper 先於做 model paper。Krishnamurthy AB#2470 把四家 HER2 AI tool 對 384 張 IHC 切片的一致性拆解出來,這種 vendor-level AI reproducibility 的研究在台灣完全沒人做。Yunlin 有 prostate MRI 判讀的 case volume,袁醫師其實可以做類似的事情:拿 2-3 家 prostate AI(Artera、Unfold、PictorLabs)對同一批 NTUH cohort 做 head-to-head,publish 一篇「亞洲 prostate cohort 上 AI tool inter-vendor concordance」的 clinical-facing paper——這比再訓一個自己的 model 更有 clinical impact,而且 reviewer 更難拒。

第二,MCP + 自家 pipeline 包裝。Juan Arango Ossa AB#5131 把 MCP 塞進 MSKCC Isabl 的做法,同樣適用袁醫師的醫院工作流。台大雲林的 prostate patient trajectory (biopsy → MRI → prostatectomy → PSA 追蹤)完全可以包一層 MCP-enabled LLM agent,讓他的助理或 fellow 用自然語言問「過去兩年所有 Gleason 8 且 PSA > 20 的病人,biochemical recurrence rate 多少?」這種 infrastructure piece 不需要新模型,需要的是把工作流徹底 scripted 一次。這種工程價值在 2027-2028 會是小 practice 能否升級成 data-driven clinic 的分水嶺

第三,Self-critical agentic architecture。Mehdi Orouji 的 Charles AB#7886 跟 Asim Waqas 的 AB#8659 示範了一件很重要的事:agentic 不是 agent 越多越好,是 adversarial verifier + decoy injection 決定系統可靠性。袁醫師在做 urology clinical decision support 的時候,不要只做 GPT wrapper,要刻意設計一個「反對派 agent」,對主模型的輸出做 fact-check——這在 urology 的 AR signaling / PSMA-theranostic interpretation 這類 domain 上特別關鍵,因為指引本身每年都在跳。這個 verifier pattern 可以大到影響整個系統可信度。

不要錯過的場次

  • Large Language Models in the Clinic(25 abstracts):開場兩張(AB#764AB#7994)就把 2026 LLM clinic 最誠實的失敗模式擺上檯面;後面是 triage / trial matching / abstraction 的 solved task 收尾。這場要從頭看到尾。
  • Agentic AI in Cancer(20 abstracts):看 AB#7886 + AB#8659 + AB#5131 + AB#8780 四篇就夠——這是整個 session 敢講 hallucination、敢做 verification、敢承認 method 不一致的四張展板。其他可以略讀。
  • Digital Pathology 2(21 abstracts):跳過 TCGA-recycling 的 subtype paper,直奔 AB#2459(diffusion color checker)、AB#2470(四 tool HER2 concordance)、AB#5259(margin-aware calibration)、AB#8343/AB#8438(holotomography virtual H&E/multiplex)。這四張是 pathology AI 真的往臨床部署靠的訊號。
  • Radiomics and AI in Medical Imaging(19 abstracts):抓 AB#3240(Khozin 的 RECIST 替代)、AB#2071(Sako 的 Serial CTRS 救 SWOG S0819)、AB#688(PanClaudinAI)、AB#4298(MIRAI+PRS)四篇。AI biomarker 進 regulatory 的主戰場就是這幾篇指的方向。
  • Deep Learning in Cancer + Machine Learning Approaches for Cancer Prediction(18+23):合看,挑 AB#5261(Kim 的 foundation model distributional bias 揭露)、AB#822(Abbas 的 GEM-1)、AB#3912 + AB#6133(Shen 的 SSL 系列)。這是 2026 比較硬核的 methodology 討論。

AACR 2026 的 AI 軸,表面上是 LLM 跟 foundation model 在每條 subspecialty 遍地開花,底下真正的故事是這個領域正在從「新模型競賽」進入「工程品質、可靠性、calibration、reproducibility」的收斂期。以前五年 AI 研究的 AUROC 中位數不斷上漲,接下來五年會是 decision curve、calibration error、external validation drop rate 的中位數被更嚴格逼近可用門檻。袁醫師剛好站在一個能看到這個轉折的位置——既懂臨床,又懂 AI 工程,又剛好在一個還沒被 AI 生態吃乾淨的市場。2026 是布局年,不是觀望年。