人工智能對各個領域科學研究正在產生廣泛影響,如何將強大的人工智能模型真正用于分析科學數據、構建數學模型、發現科學規律,成為亟待突破的關鍵問題。
近日,自動化所研究團隊提出了一種創新性框架——DrSR (Dual Reasoning Symbolic Regression):通過數據分析與經驗歸納“雙輪驅動”,賦予大模型像科學家一樣“分析數據、反思成敗、優化模型”的能力。
在DrSR中,三位“虛擬科學家”協同工作:一個善于洞察變量關系的“數據科學家”;一個擅長總結失敗教訓與成功經驗的“理論科學家”;一個勇于嘗試假設、不斷優化模型的“實驗科學家”。這三種角色基于大模型構建起高效的協作機制,共同驅動DrSR實現智能化、系統化的科學方程發現。
在物理、生物、化學、材料等跨學科領域的典型建模任務中(如非線性振蕩系統建模、微生物生長速率建模、化學反應動力學建模、材料應力-應變關系建模等),DrSR展現出強大的泛化能力,刷新當前最優性能,成為AI助力科學研究的有力工具。
DrSR:讓大模型“有據可依、步步為營”地發現規律
DrSR的核心創新是“雙路徑推理”(Dual Reasoning)機制,即通過數據驅動的結構分析和經驗驅動的策略總結,為大模型提供結構化引導與反饋,模擬科學家的研究過程,高效且穩健地進行科學建模與方程發現。
DrSR在每一輪嘗試中都“看數據、學經驗、再出手”,具體流程如圖1所示:
圖1. DrSR的雙路徑推理機制
數據驅動洞察模塊(Data-aware Insight):負責分析數據中的變量關系,包括耦合程度、單調性、非線性趨勢等結構特征。同時,DrSR 還會根據上一輪候選方程的殘差,進一步定位“沒擬合好”的數據段,為后續方程生成提供更高質量的提示。
經驗驅動總結模塊(Inductive Idea Learning):將生成的方程按效果分為“更好”、“變差”和“無效”,反思成功與失敗原因,總結經驗并存入經驗庫(Idea Library),為后續生成方程提供策略指導,避免重復錯誤,提升生成效率。
方程生成與優化模塊(Equation Generation):綜合數據分析和經驗庫指導,生成方程骨架(skeleton),再調用優化器(如BFGS)擬合參數,持續迭代、評估,形成從數據分析、方程生成到經驗總結的閉環反饋機制。
總的來說,DrSR實現了一種閉環式智能探索,使模型從“盲目試探”走向“有的放矢”,系統化、高效地推動模型構建與科學規律的自動發現。
DrSR不僅“更準”,還“更快、更穩、更聰明”
研究團隊在六大符號回歸基準任務上系統評估了DrSR的性能,結果顯示:DrSR在精度、建模效率和泛化能力上全面領先主流方法,并展現出卓越的跨領域適應性。
表1. DrSR和基線方法在權威符號回歸基準上的性能對比
圖2. 訓練收斂性比較
圖3. 跨科學領域的泛化對比
讓大模型更像科學家,科學智能邁出關鍵一步
DrSR提出了一種融合數據感知與經驗反思的科學問題建模新范式,它通過結構洞察指導生成方向,通過經驗總結提升推理質量,讓大模型在科學建模中逐步具備“看數據、記教訓、會修正”的能力。作為一套通用性強、可解釋性好、建模效率高的新架構,DrSR為人工智能深度參與科學發現提供了堅實技術支撐。
DrSR已集成至一站式智能科研平臺 ScienceOne,為科研工作者提供高效、可解釋的科學建模服務。DrSR 并不依賴特定的大模型,具備良好的模型兼容性和可擴展性。未來,研究團隊將基于平臺自研的科學基礎大模型S1-Base,進一步增強 DrSR在科學建模中的推理能力與跨任務泛化能力。
研究團隊表示,讓人工智能不僅能“擬合數據”,更能“發掘自然規律”,這是AI4Science走向深層科學智能的必由之路。
來源:中國科學院自動化研究所