论文描述了数据创建方法,并评估了近期的 LLMs(例如 o1-preview、GPT-4、Claude 3.5 Sonnet 和 Gemini 2.0 Flash)在检测和纠正需要医学知识和推理能力的医疗错误任务上的表现。 刚刚,X 上的一则推文受到了大家的广泛讨论,浏览量迅速增长。原来,OpenAI 发布的 GPT-4o-mini ...