【ScienceAI Weekly】AI for Science 新鲜事速览-

AI for Science 的新成果、新动态、新视角——

* 由 DeepMind 拆分的 AI 药企首次达成制药合作，价值 30 亿美元
* 微软协助科研人员发现 3,200 万种新电池材料
* 网传 TikTok 在美国各地招募计算生物学、量子化学、分子动力学和物理方面的人才
* 科大讯飞拟分拆医疗业务在港交所主板上市
* 镁睿化学完成 2600 万美元 A 轮融资
* 学术期刊 Science 使用 AI 工具检测期刊中的图片造假

详见下文~

企业动态

由 DeepMind 拆分的 AI 药企首次达成制药合作

1 月 8 日，Alphabet 旗下 AI 制药公司 Isomorphic Labs 宣布与礼来和诺华达成了两项价值 30 亿美元的药物研发协议，此次合作涉及针对多种疾病相关蛋白和途径的治疗方法的研发。Isomorphic Labs 成立于 2021 年 11 月，由谷歌旗下 DeepMind 拆分而来，专注于 AI 医药领域。该公司运用了 DeepMind 在生物医药研究方面的成果，特别是其蛋白质结构预测模型 AlphaFold，来进行药物研发。

微软协助科研人员发现 3,200 万种新电池材料

据介绍，太平洋西北国家实验室利用微软的 Azure Quantum Elements 服务，快速评估了 3,200 万种潜在的新电池材料；美国能源部使用该服务 80 小时后发现了 18 个有前途的候选材料，而使用传统的研究方法可能需要数十年的时间；英国化学制造商 Johnson Matthey 正在利用该服务加速氢燃料电池的研发工作。

网传 TikTok 在美国各地招募计算生物学、量子化学、分子动力学和物理方面的人才

有报道称，TikTok 的母公司字节跳动正在为其人工智能药物设计和人工智能科学团队，招募计算生物学、量子化学、分子动力学和物理方面的人才。据悉，字节跳动正在纽约州、加利福尼亚州和华盛顿州招聘至少17个相关职位。

科大讯飞拟分拆医疗业务在港交所主板上市

1 月 9 日晚间，科大讯飞发布公称，公司拟将控股子公司讯飞医疗分拆至香港联交所主板上市。讯飞医疗本次发行规模不超过发行后总股本的 15%。分拆完成后，科大讯飞仍将维持对讯飞医疗的控制权。

讯飞医疗成立于 2016 年 5 月，基于国际领先的医学语义计算、文本理解、知识推理、数据挖掘等核心技术，打造人工智能医疗解决方案体系，针对基层医疗机构、医院、患者和居民等医疗行业从业者的广泛需要，实现从疾病预警、早筛、诊断、治疗与疗效评价、诊后与慢病管理的医疗全流程覆盖。

镁睿化学完成 2600 万美元 A 轮融资

上海镁锐科技有限公司日前完成 2600 万美元 A 轮融资，本轮融资由启明创投与 LYFE Capital 共同领投，创新工场与镁伽科技跟投。融资资金将用于进一步完善产品研发，开拓商业市场，支持国际化布局。

镁睿化学成立于 2022 年 1 月，由镁伽孵化并完成天使轮投资。公司由一支具有国际跨学科背景的团队创立，致力于利用自动化、智能化平台为新药研发客户提供新一代的化学合成 CRO 服务，大幅缩短新药研发周期中化学合成环节的交付周期，并显著降低化学合成相关成本，摆脱药化合成高度依赖手工操作的现状。

学术期刊 Science 使用 AI 工具检测期刊中的图片造假

Science 已经部署了 Proofig 平台并进行了数月的试用，有明确的证据表明，在论文发表之前可以检测到存在问题的数据，例如篡改图像以误导读者。此外，Science 还将该检测工具与文本抄袭检测软件一起使用，代替人工审查。

工具资源

华为、香港大学开源几何数学模型 G-LLaVA

目前，多模态大语言模型仍无法准确解析几何图形中的基本要素及其关系。为了解决这一难题，华为诺亚方舟实验室、香港大学、香港科技大学联合开源了专业几何数学模型 G-LLaVA。为了测试 G-LLaVA 的性能，研究人员在知名数学测试平台 MathVista 上，与其他大模型进行了深度评估。结果显示，G-LLaVA 的性能超过了 GPT-4-V、LLaVA1.5、MiniGPT-4 等模型。

开源地址：

https://github.com/pipilurj/G-LLaVA

论文地址：

https://arxiv.org/abs/2312.11370

上海 AI 实验室开源医疗大模型群「浦医 2.0」

近日，上海 AI 实验室与上海交通大学医学院附属瑞金医院等合作伙伴联合发布医疗多模态基础模型群「浦医 2.0」 (OpenMEDLab2.0)，实现了医疗大模型群「产、学、研、用、评」一站式开源，旨在为「跨领域、跨疾病、跨模态」的 AI 医疗应用提供能力支持。

开源地址：

github.com/OpenMEDLab

国内首个医疗专科推理数据集 RJUA-QA 开源

蚂蚁集团与上海仁济医院泌尿科专家团队联合研发，基于医生团队临床经验，通过构造模拟病例数据的方式，推出了首个中文医疗专科问答推理数据集 RJUA-QA，数据集由训练、验证、测试三部分组成，包含 2,132 个 QA 问答对，Context 来自于中国泌尿外科和男科疾病诊断治疗指南。病种覆盖了 97.6% 以上的泌尿科就医人群，能真实复刻诊疗场景。

数据集地址：

http://openkg.cn/dataset/rjua-qadatasets

paperai ：医学/科学文献发现和审阅引擎

paperai 是一款由 AI 驱动的医学/科学论文文献发现和审阅引擎。该工具运行 query 筛选出符合特定标准的论文，并执行基于问答提取技术的 report 功能，从一组医疗/科学论文中找出关键问题的答案。paperai 已被用于分析 COVID-19 开放研究数据集 (CORD-19)，并在 CORD-19 Kaggle 挑战赛中获得多个奖项。

工具地址：

https://paperpal.com/paperpal-for-researchers

DeepKE：浙江大学基于深度学习的开源中文知识图谱抽取工具

DeepKE 是一个开源和可扩展的知识图谱抽取工具，支持常规全监督、低资源少样本和文档级场景，覆盖各种信息抽取任务包括命名实体识别、关系抽取和属性抽取。通过一个统一的框架，DeepKE 允许开发人员和研究人员自定义数据集和模型，并根据他们的需求从非结构化文本中抽取信息。

工具地址：

http://openkg.cn/tool/deepke

ResGen：基于蛋白质口袋感知的 3D 分子生成模型

浙江大学与之江实验室研究团队提出了一种基于蛋白质口袋的 3D 分子生成模型——ResGen，用于设计给定目标内的有机分子。ResGen 具有更高的计算效率，大约比目前最优技术快 8 倍，在生成新的分子方面也有着比目前最优方法更高的成功率。

开源地址：

https://github.com/HaotianZhangAI4Science/ResGen

科研成果

生成式 AI，6 秒生成新化学反应

Accurate transition state generation with an object-aware equivariant elementary reaction diffusion model

* 来源：Nature Computational Science

* 领域：化学科学，机器学习

* 作者：麻省理工学院团队

研究人员开发出了一种基于机器学习的替代方法，能够在几秒钟内发现化学反应的过渡态。新模型可以协助化学家探索和设计新的反应和催化剂，从而生成高附加值的有用产品，例如燃料化合物或药物。此外，该模型还能够模拟自然发生的化学反应。

阅读原文：

https://www.nature.com/articles/s43588-023-00563-7

基于联邦学习的退役电池快速分类模型

Collaborative and privacy-preserving retired battery sorting for profitable direct recycling via federated machine learning

* 来源：Nature Communications

* 领域：通讯科学，机器学习

* 作者：清华大学深圳国际研究生院张璇、周光敏团队

研究团队建立了基于联邦学习的退役电池快速分类模型，无需历史运行数据，仅用少量现场测试信息即可实现退役电池正极材料的精确分类。

阅读原文：

https://doi.org/10.1038/s41467-023-43883-y

UniKP : 用于预测酶动力学参数的统一框架

UniKP : a unified framework for the prediction of enzyme kinetic parameters

* 来源：Nature Communications

* 领域：生物技术，语言模型

* 作者：中国科学院团队

研究人员基于预训练大语言模型和机器学习模型的酶动力学参数预测框架 (UniKP)，该框架仅通过给定酶的氨基酸序列和底物的结构信息，就可以实现多种不同的酶动力学参数的预测。

阅读原文：

https://www.nature.com/articles/s41467-023-44113-1

DeepProSite : 识别蛋白质结合位点

DeepProSite : structure-aware protein binding site prediction using ESMFold and pretrained language model

* 来源：Bioinformatics

* 领域：生物医药，语言模型

* 作者：上海交通大学和中山大学团队

DeepProSite 利用蛋白质结构和序列信息来识别蛋白质结合位点。其从 ESMFold 生成蛋白质结构，并从预训练的语言模型生成序列表示，并使用 Graph Transformer 并将结合位点预测制定为图节点分类。

阅读原文：

https://academic.oup.com/bioinformatics/article/39/12/btad718/7453375

活动预告

ALCF 培训：超级计算机基础知识，推动 AI for research

「Introduction to AI-Driven Science on Supercomputers」由 Argonne Leadership Computing Facility (ALCF) 主办，是一系列免费在线活动，活动将分为讲座和实践两部分。课程设置为：

* Week 1：超级计算机入门

* Week 2：神经网络介绍

* Week 3：进一步探讨神经网络

* Week 4：大语言模型简介

* Week 5：大语言模型的嵌入和标记化

* Week 6：AI的并行训练方法

报名链接：

https://www.alcf.anl.gov/alcf-ai-science-training-series?ct=t(EVT-ALCFINTROTOAI_01092024)

以上就是「Science AI Weekly」本要分享的所有内容了~

如果你有关于 AI for Science 的最新研究成果、企业一手信息等，欢迎留言「爆料」。