版权归原作者所有,如有侵权,请联系我们

用AI训练AI,越练越“傻”,本周度过了有记录以来最热三天 | 科技周览

返朴
原创
溯源守拙·问学求新。《返朴》,科学家领航的好科普。
收藏

整理 | 周舒义、望乡

首次在月壤中发现分子水

我国科研团队在嫦娥五号月球样品中,发现了一种富含水分子和铵的未知矿物晶体——ULM-1。这是科学家首次在月壤中发现分子水。相关成果近日发表于Nature Astronomy。

月球上是否存在水?这一问题对于月球演化研究和资源开发至关重要。嫦娥五号的着陆点位于月球正面风暴洋克里普地体的东北部地区,该地区被认为是月球表面最年轻的玄武岩单元之一。嫦娥5号采集的月壤样品属于最年轻的玄武岩(~20亿年),并且是迄今为止纬度最高的月球样品,为月球水的研究提供了新的机遇。


ULM-1的照片和成分组成。a. CE5土壤样本的照片,b.ULM-1单晶照片,c. EDS光谱,d. EPMA光谱,e.拉曼光谱,f. IR光谱 | Jin, S., Hao, M., Guo, Z. et al.

基于单晶衍射和化学分析,研究人员发现这些月球样品含有一种成分为(NH4,K,Cs,Rb) MgCl3·6H2O的水合矿物。该矿物分子式中含有多达六个结晶水,水分子在样品中的质量比高达41%。在红外和拉曼光谱上,均可以清晰地观察到源于水分子和铵的特征振动峰。晶体的电荷密度可以清晰地看到水分子中的氢。ULM-1的晶体结构和组成与地球上近年来发现的一种稀有火山口矿物相似。在地球上,该矿物是由热玄武岩与富含水和氨的火山气体相互作用形成,这一发现为月球上的水和氨的来源提供了新的线索。

研究人员表示,与易挥发的水冰不同,ULM-1这种水合矿物非常稳定。ULM-1的发现意味着,月球上即使在广阔的阳光照射区,也可能存在稳定的水合盐。这为未来月球资源的开发和利用提供了新的可能性。

适量饮酒有益健康?相关研究存在重大缺陷

也许你听说过“适量饮酒有益健康”,多年来许多研究也表明,适量饮酒者更加长寿,罹患心脏病、糖尿病、中风等疾病的风险更低。但发表在Journal of Studies on Alcohol and Drugs上的一项新研究打破了上述看法,研究人员指出,此前研究存在根本性的设计缺陷,唯一“安全”的饮酒量是“不饮酒”。


少量饮酒也会危害健康。

新研究通过系统评价和荟萃分析,回顾了107项队列研究,共纳入近484万名参与者,分析了饮酒习惯与全因死亡率之间的关联。其中,“少量饮酒”被定义为每周一杯到每天两杯酒(平均每天摄入1.3克~25克乙醇)。

综合所有数据发现,少量饮酒者的死亡风险要比滴酒不沾者低14%。这符合大多数“低质”研究的结论。然而,如果按照少数“高质”研究的做法,在一开始纳入相对年轻的参与者(平均不到55岁),并将他们此前的饮酒习惯纳入考虑,情况就会发生变化——这些研究显示,少量饮酒与长寿无关。

研究人员指出,“低质”研究存在设计缺陷。主要问题在于,这些研究一般以老年人为研究对象,没有考虑他们年轻时的饮酒习惯。许多年轻时贪杯的饮者,年老时健康状况频出,因此选择戒酒或减量,而这些人被分到了“滴酒不沾组”或“偶尔饮酒组”。于是,“相比之下,那些继续饮酒的人看起来要健康多了。”换言之,“少量饮酒组”的健康优势并非来自杯中醪醴,而是因为对照组被“污染”了。

适量饮酒延长寿命、有益健康的观念可以追溯到几十年前。一个著名的例子是“法国悖论”:法国民众饮食中饱和脂肪相对丰富,但是冠状动脉疾病(CHD)发病率相对较低。红酒延年的说法一时风行。时至今日,类似观点仍根深蒂固地存在于公众的想象中。

事实上,酒精是一种公认的致癌物质,饮酒是增加全球疾病负担的主要危险因素之一。WHO数据显示,全球15岁~49岁人群中近10%的死亡与饮酒相关。2019年,全球有260万人死于酒精消费。研究人员表示,“根本就没有绝对‘安全’的饮酒量”。

发现宇宙最高能量伽马谱线

在一项新研究中,研究团队通过分析极目空间望远镜和费米卫星的联合观测数据,在伽马暴中发现能量高达37兆电子伏的伽马射线谱线,且谱线的能量和光度均以幂律形式演化,这是迄今观测到的宇宙天体产生的能量最高、证据最确凿的谱线。相关论文7月25日发表于《中国科学:物理学 力学 天文学》(英文版)。

伽马暴是宇宙大爆炸之后最剧烈的爆炸现象,普遍认为由大质量恒星的核心坍缩或两颗极端致密天体(中子星、黑洞等)并合而产生。研究人员利用极目空间望远镜(GECAM-C)和费米卫星伽马射线监测器(Fermi/GBM)的观测数据,对迄今最亮伽马暴开展了详细的能谱分析和谱线搜索工作,成功提取出伽马暴能谱。

分析发现,该伽马暴能谱中存在一条演化规律的发射线谱线,谱线的能量和光度均随时间以幂律演化,为谱线的真实性以及谱线起源于该伽马暴提供了坚实证据。此外,研究团队还发现谱线的相对展宽较窄(仅10%左右)且基本不随时间变化。令人更意外的是,在伽马暴主暴阶段谱线能量高达37兆电子伏,这是迄今探测到的宇宙天体产生的最高能量的谱线。

研究人员表示,新发现为破解伽马暴及相对论性喷流产生之谜提供了全新的重要线索,是伽马暴和极端宇宙观测研究的重大突破。

忙碌的时光总是短暂的

你是否有过这样的体验:不论是和倾慕的异性相处,还是求解一道几何难题,时间都过得飞快;反之,无所事事的时光就会度日如年。一项新研究为这种感觉找到了根据:我们感知时间的流逝,并非像钟表那样基于每分每秒的具体间隔,而是基于积累的经验数量。这意味着大脑会通过自己完成了多少工作、经历了多少事情来判断时间。


我们通过经验数量来感知时间,而非某种内部生物钟。

新研究让大鼠在三臂老虎机任务(3-arm bandit task)中重复完成210次鼻触操作,追踪其大脑前扣带皮层 (ACC) 的活动。前扣带皮层位于额叶内侧与胼胝体相邻处,被认为在认知控制和行为监控中起到广泛作用。

此前研究表明,在重复性任务中,尽管刺激、环境和行为没有变化,但神经元的活动模式会逐渐缓慢改变,这种现象被称为“表征漂移(representational drift)”。关键问题在于,和表征漂移模式相一致的,是大鼠重复操作的次数,还是时钟记录的真实时间?

实验观察到,随着任务进行,大鼠的脑活动确实会发生可检测的变化。重要的是,不同大鼠在完成相同次数操作时,所花的时间长短不一。因此,研究人员基于一只大鼠的脑活动数据,用机器学习训练模型,在另一大鼠身上预测其操作次数或时间,通过分析误差模式,就能区分表征漂移背后的驱动因素。结果发现,不论大鼠操作时间长短,大脑活动模式的改变总是遵循着相同的路径,而这种改变与操作次数相一致。这表明前扣带皮层的表征漂移由经验积累驱动,而与时间无关。

“完成任务的时间长短不会影响大脑模式,大脑与其说是时钟,不如说是个计数器。”研究人员表示,“我们根据自己经手的事情来判断时间。做得越多,时间就过得越快。人们常说,‘快乐的时光总是短暂的’,或许真相是,‘忙碌的时光总是短暂的’。”

全世界每11人中就有1人面临饥饿

7月24日,联合国粮农组织发布2024年《世界粮食安全和营养状况》报告。报告指出,2023年约有7.33亿人面临饥饿,相当于全球每11人中就有1人食不果腹,非洲每5人中就有1人面临吃饭难问题。


肯尼亚一个农贸市场上陈列的蔬果。

报告表明,全球消除饥饿的步伐不进反退,食物不足水平倒退15年,相当于2008~2009年间水平。全球饥饿水平连续第三年居高不下,2023年有7.13亿至7.57亿人食物不足,中位数高达7.33亿,较2019年新增约1.52亿。就饥饿人口比例而言,非洲持续攀升(20.4%),亚洲虽然保持平稳(8.1%),但因区域内饥饿人口占全球半数以上,依然面临严峻挑战,同时拉丁美洲取得一定进展(6.2%)。2022至2023年间,西亚、加勒比和非洲大多数次区域饥饿形势呈现加剧趋势。

报告强调,仍有数十亿人难以获取充足的食物。去年,全球约有23.3亿人面临中度或重度粮食不安全,这一数字在2020年因新冠疫情而骤增,此后并未发生显著改观。其中,8.64多亿人处于重度粮食不安全状况,有时整日甚至多日忍饥挨饿。

报告倡议,准确估算粮食安全和营养供资缺口,并探索创新融资途径来弥补缺口,已成当务之急。必须出台并落实政策、法规和干预措施,为此需要筹措大量资源。这不仅是对未来的投资,更是义不容辞的责任。

7月21日、22日和23日是全球有记录以来最热三天

新华社消息,联合国秘书长古特雷斯25日表示,刚刚过去的7月21日、22日和23日是全球有记录以来最热的三天,这一周出现的高温现象史无前例。

古特雷斯当日在联合国总部就极端高温发表讲话时指出,欧盟气候监测机构哥白尼气候变化服务局近日宣布7月21日为有记录以来最热的一天。但7月22日气温继续攀升。据联合国收到的初步数据,7月23日的气温仍居高位。这意味着,7月21日、22日和23日是全球有记录以来最热的三天。

古特雷斯说,极端高温正在对人类和地球产生极端影响,世界必须面对气温上升的挑战。他表示,地球正变得越来越热,这对世界各地的每个人来说都越来越危险。极端高温正“撕裂”全球经济,扩大不平等,破坏可持续发展目标并造成人员死亡。据估计,高温每年导致近50万人死亡,这一数字大约是热带气旋造成死亡人数的30倍。

哥白尼气候变化服务局23日发布报告说,全球在7月21日刚刚经历了有记录以来最热的一天,日平均气温达到17.09℃。该气温以0.01℃之差刷新2023年7月6日创下的最高纪录。但该机构24日公布的数据显示,7月22日全球日平均气温为17.15℃,连续第二天打破单日最热纪录,是1940年开始记录相关数据以来最热的一天。该机构25日公布的初步数据显示,7月23日气温与前两日相似。

用AI训练AI,可能越练越“傻”

人类是AI的老师。如果让AI自立门户,“自己教自己”,效果会如何呢?目前来看,这可能行不通——一项新研究显示,如果没有人工干预,只用AI生成的数据来训练大模型,会使模型性能劣化、越练越“傻”。

训练数据是大语言模型(LLM)生成、推理、预测等能力的基础。尽管目前大语言模型使用的训练数据主要来自人类,但人力有时尽,训练数据储备是有限的。一项来自Epoch AI Research团队的研究预测,高质量的语言数据存量将在2026年消耗完毕,低质量的语言数据和图像数据存量将在2050年前后枯竭。届时,使用AI生成的数据来训练AI可能难以避免。

而新研究指出,如果在训练时不加分辨地使用AI生成的内容,会导致大模型迅速劣化,出现不可逆的缺陷,丢失真实数据分布的尾部(低概率部分),这被称为“模型崩溃(model collapse)”。分析显示,这种效应很可能具有普遍性,波及所有规模的大语言模型、变分自编码器(VAE)和高斯混合模型(GMM)。


AI模型使用之前生成的数据进行训练,输出图像越来越扭曲。|

研究人员使用大语言模型创建类似维基百科词条的文本,然后用前代模型的输出内容来训练下代模型,如此反复迭代。随着AI生成信息(即合成数据,synthetic data)“污染”训练集,模型输出逐渐不知所云。当被要求写一段关于英国教堂塔楼的说明文本时,初始模型尚且中规中矩,第9代模型却在讨论野兔尾巴的多种颜色。

分析发现,导致“模型崩溃”的重要原因是,模型只能从训练数据中采样,这意味着原始数据中本就较少出现的低频词汇,在每次迭代后“再现”的概率每况愈下,而常见词汇重复出现的概率会逐渐上升。错误在迭代中被层层累积、放大,模型逐渐无法正确模拟真实世界的复杂性,最终导致“满纸荒唐言”。

不过,应对“模型崩溃”并非束手无策。研究发现,如果在模型微调过程中加入10%的真实数据,就能推迟崩溃到来。此前也有研究表明,如果模型能持续从真实世界积累数据,崩溃就不太可能发生。此外,可以利用数字水印技术,将合成数据与真实数据区分开来;在向模型投喂AI生成内容之前,也可由人类先行筛选过滤。

新研究揭示了一种“数据套娃”式的困境。在模型贪大求全的潮流之下,无数次滚雪球式的迭代训练,会逐渐稀释掉人类世界的情感浓度和行为逻辑。合成数据层层蒸馏,失却了源头和索引,也就必然抹消了真实的物理痕迹。机器包裹之下,数据洪流在语言迷宫里兜兜转转,逐渐逃逸出生命个体的范畴。在“乱码”中迷失的,又何止大语言模型呢?

特 别 提 示

1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。

版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。

内容资源由项目单位提供

评论
科普64f7f2999f48d
儒生级
已学习
2024-08-07
美 好时 光
进士级
为了健康最好不饮酒,饮酒或少量都是对人体有伤害的,要坚信科学,饮酒一有伤害,二容易引发多种隐患等。
2024-07-29
通辽市科尔沁区科尔沁街道民航社区
大学士级
了解
2024-07-28