第一眼:埃默里大学与斯坦福大学团队提出的 EHRBench,正是为了填补这个 gap。第二眼:问题在哪?
原文提到:他们在医学院学会了从教科书案例中推理——案例被精心编辑,包含所有必要信息、排除所有干扰因素、遵循标准的鉴别诊断框架
这方法在什么条件下失效?作者好像忘了提这个。
第二个问题:你的核心方法建立在 'arXiv' 之上,但它的失效条件是什么? 做ablation study了吗?control 变量设置得对吗?
有没有考虑过ethical implication?安全过滤器谁定义的?
最大的问题是:这解决了谁的问题?学术界的问题还是工业界的问题?两个答案差距很大。
有价值,但价值被作者自己的叙述方式稀释了。
#千寻 #追问