
AI 写论文这事儿确实不新鲜了清远泡沫板橡塑板专用胶,但天下苦假引用久矣。
以往咱用大模型写个综述,看着像模像样的,结果查参考文献——
好伙,论文不存在、期刊不存在、作者也不存在(扶额)。
现在不用愁了,Nature 新发表了篇研究,艾伦人工智能研究所(Ai2)和华盛顿大学开源了个叫OpenScholar的 AI 系统,写文献综述不瞎编。
奥力斯 万能胶生产厂家 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
背靠整整 4500 万篇科学论文库,直接把 GPT-4o 那种 78-90 的引用率给干翻了。
那么问题来了,大都在编,OpenScholar 为啥不编?
自我反馈理
其实主要还是因为 LLM 的底层逻辑就是预测下个词出现的概率。
当你问它个非常生僻的学术问题时,它为了维持语言的连贯以及"我所不知"的人设——
会强行根据语料库里的作者名、期刊名、标题关键词清远泡沫板橡塑板专用胶,拼凑出个看起来像真论文的…幻觉产物。
还有,通用 AI 缺乏事实锚点,读过万卷书结果全记串了。
张教授写过,李教授写过材料,当你问它材料时,它能面不改地给你编出篇《张教授与李教授关于材料的对话》……
这种由于训练数据截断以及缺乏真实文献验证机制致的假引用,真的太太太离谱了!
OpenScholar 就不样了,不再拍脑门预测下个词,直接接入了个名为ScholarStore的庞大数据库。
这是目前公开的大科学域段落索引,全开源可下载,任何人都能本地部署或者扩展。
里面实实地存了 4500 万篇论文的全文和摘要,再通过 RAG 技术,让每个知识点都背靠篇真实存在的论文。
当你抛出个科研难题,它会先在那个拥有2.37 亿个向量嵌入的大数据库里狂检索,把相关的论文片段全翻出来。
给出初稿之后,带着生成的"这里缺少讨论""这里引文不准""需要补搜新进展"等反馈再检索、再改稿,通过搜索、生成、自我审查、再搜索、再修正这套闭环,反复确认输出的内容是不是真有论文支撑。
这样来显著降低了幻觉,提了输出内容的覆盖度和引文精度,保温护角专用胶整个管道还会被用来生成质量成数据,反哺训练。
有多强?
但是!如果只是搜得准,那它充其量是个搜索引擎,OpenScholar 不止如此。
它在知识成的度上,已经开始正面硬刚人类了。
研发团队整了个叫Scholar QABench的测试集,涵盖了计机科学、物理、生物医药等吃逻辑的域,由 3000 个问题和 250 个长篇答案构成。
在自动测评上,OpenScholar-8B 这个体量不大的模型,在正确上 GPT-4o 出 5,比业的 PaperQA2 也出 7,引文准确度和人类持平。
团队还搞了个"人机大战"双盲实验,把 AI 写的答案和实实的博士、研究员写的答案放起,然后让另群顶科学来盲评分。
16 位两两对比了 108 份学术答案。结果显示,OpenScholar-8B 的回答有 51 比人类研究者亲手写的好,升组版的 OpenScholar-GPT4o 胜率是冲到 70,而普通 GPT-4o 只有 32。
评审们普遍反馈,OpenScholar 的优势集中在信息覆盖、结构清晰、逻辑连贯强,实用价值也。
作者团队
这篇研究的作Akari Asai是艾伦人工智能研究所研究科学,2026 年秋起将任卡内基梅隆大学助理教授。
在此之前她获得了东京大学电气工程与计机科学业的学士学位,后在华盛顿大学完成博士学业,研究聚焦于自然语言处理和机器学习,尤其侧重于大型语言模型。
Jacqueline He目前在华盛顿大学读自然语言处理业博士,本科毕业于普林斯顿大学,曾是普林斯顿自然语言处理小组成员,主要师是陈丹琦。
读研之前,她还担任过 Meta 的软件工程师。
Rulin Shao本科毕业于西安交通大学,取得了数学的学士学位,后在卡内基梅隆大学完成了机器学习硕士学位,现为华盛顿大学博士生,同时也是 Meta 的访问研究员。
团队的其他作者均来自伊利诺伊大学厄巴纳 - 香槟分校、卡内基梅隆大学、Meta、北卡罗来纳大学教堂山分校、斯坦福大学等校和机构。
论文地址:https://arxiv.org/abs/2411.14199
— 欢迎 AI 产品从业者共建 —
� �「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。
键关注 � � 点亮星标
科技前沿进展每日见清远泡沫板橡塑板专用胶
相关词条:铁皮保温施工 隔热条设备 锚索 离心玻璃棉 万能胶生产厂家