2017-12-04 08:37:00
物理界在1880年代就提出暗物質的猜測。一開始是因爲銀河系外圍恆星的切向飛行速度太快,銀河系核心被觀測到的質量遠遠不足以提供所需的向心力。後來在20世紀發現同樣的問題也出現在更大的尺度上,星系團(Galaxy Cluster)和超星系團(Supercluster)的外圍成員的切向飛行速度也是數倍於核心重力能維持的範圍。如此一來,只有兩個邏輯可能,第一是每個星系(Galaxy)都有大量不參加強作用力(否則會與原子核有反應)和電磁力(否則會與電子和質子有反應)的暗物質;第二,是廣義相對論的重力方程式在星系以上的尺度必須有新修正項。
近年來,用各種間接手段觀測到的暗物質重力效應越來越多,要靠修改重力方程式來滿足所有的觀測結果也越來越難自圓其説,所以暗物質就成為天文物理界的主流理論。這個月(2017年十一月)有兩篇論文引起了學術界專家的注意和廣汎討論,剛好就是有關這個話題;一篇似乎是對的,另一篇則似乎是錯的。
頭一篇是UC Berkeley的Katelin Schutz在十一月9日發表的論文:經過觀測和研究,證明暗物質的重力效應,至少在銀河系内是完全球對稱的(Spherically Symmetric)。因爲銀河系的可見物質成碟狀分佈,如果暗物質的重力效應其實來自重力方程式的變形,那麽應該也會看到碟狀而不是球狀的現象,所以這個新結果又再一次偏愛(Favor)了暗物質的存在。
另一篇是University of Geneva的教授André Maeder在十一月27日發表的理論,是廣義相對論重力方程式的又一個新的變形。但是隨即遭到好幾個物理博主的無情反駁(參見Sabine Hossenfelder在十一月30日的總結:http://backreaction.blogspot.com/2017/11/if-science-is-what-scientists-do-what.html ),基本上已經確定是錯的。
至於中國的悟空衛星,在十一月30日發表於《Nature》的論文,號稱在1.4TeV的能階上發現了暗物質衰變產生的電子,雖然被中國物理主管機關的公關單位廣為宣傳,不但充斥於中文媒體,英文的大衆媒體也多有報導,但是如此驚人的結果,物理專業的博客卻對它基本無視,既沒有慶祝也沒有反駁,這是爲什麽呢?
前面提過,暗物質理論來自對重力現象的間接觀測結果;它不可能參與強作用力和電磁力,否則必然早已被直接觀測到。但是宇宙中還有第四種作用力,也就是弱作用力;它太過微弱,所以暗物質是否參加弱作用力,目前的實驗和觀測很難完全排除其可能。其實客觀來説,希望很小,這是因爲量子效應會在較低的能階也留下蛛絲馬跡,人類的對撞機已經做到13TeV的能級,卻完全沒有看到任何這類的量子修正項,代表著在1TeV、10TeV、乃至100TeV的能級上,暗物質都不太可能有弱作用力的效應。如果理論非要硬拗不可,當然也做得到,只須要多加幾十個、乃至幾百個自由度,或者硬是假設精度極高的參數(例如弱作用反應項的係數被設定為0.00001),但是這些做法都是失敗理論的特徵,嚴重違反了Occam's Razor。
但是實驗學家要和政府要大錢(我不知道悟空計劃全部花了多少錢,因爲那個團隊老是答非所問,只說衛星本身是7億人民幣,其實地面設備才是真正的大錢;但是和它類似的AMS-02花了20多億美元,亦即130多億人民幣)來花,就不能老實地解釋這一點,而必須假裝暗物質參加弱作用力(叫做“WIMP”假設,Weakly Interacting Massive Particles)是個有根據的結論。剛好超弦的基本假設,也就是超對稱,天然就會產生WIMP,於是裏應外合,高能物理的理論和實驗界都衆口一詞,把WIMP假設吹噓成主流理論,在過去十年裏催生了十幾個昂貴(即十億美元級)的實驗,專門要測量WIMP。這些WIMP實驗又分成兩類:第一類是在很深的地下,用大量同位素穩定(亦即沒有會自發衰變的同位素)的介質,藉以觀察其原子核與WIMP直接進行弱作用力反應,例如美國的LUX實驗和中國的山寨版PandaX。第二類則是用衛星來測量WIMP在銀河系空間中因弱作用力而自行衰變產生的正子和電子對,例如美國的AMS-02和中國的山寨版悟空衛星。
所以悟空衛星實際上是一個專門測量宇宙綫中的正子流和電子流的儀器。但是因為銀河系到處都有磁場,電子和正子在被截獲之前,已經轉過許多彎了,所以不可能知道它們的發源方向。那麽唯一能測量的,只是它們的能量。結果幾百個博士,花十年時間和百億元,所得到的,也就是下面這張圖:橫軸是能量,縱軸是觀測到的電子流密度。然而,宇宙中能產生電子和正子的機制太多了,根本不可能精確計算背景信號曲綫。所以最後只能籠統地看看測量結果的曲綫是否平滑。
DAMPE是悟空衛星計劃的英文名字,AMS-02和Fermi都是美國較早發射的衛星。這次悟空衛星團隊吹噓的結果,就是在圖中紅綫右端沒有平滑過渡的一高一低兩個點,分別對應著1.4TeV和1.2TeV的能量。但是有三個疑點:1)Fermi衛星(圖中的藍綫)也涵蓋了相關的能階,卻沒有看到類似的現象;2)這個結果出現在電子流(縱軸)密度很低的尾端,剛好對應著較少的統計樣本和較低的統計意義;3)這兩個偏離平滑曲綫的點,偏離的程度只有兩個統計標準差左右,距離物理界傳統上要求的五個標準差很遠,連“有趣”都談不上。
一般統計方法假設高斯分佈(Gaussian Distribution),兩個標準差名義上(Nominally)對應著4.5%的統計噪音機率(亦即有4.5%的機率這個結果是因統計樣本不足而隨機產生的噪音)。五個標準差則精確到0.00006%。爲什麽物理界會要求如此高的統計精確度呢?這有很多原因,和我們眼前話題有關的有三個:1)實際的隨機分佈往往不遵循高斯分佈,而有不能確定的胖尾巴(Fat Tail),使得統計噪音被低估。2)兩個標準差對應到4.5%的噪音,是假設只有一個數據,像上圖這條紅綫總共有38個數據點(如果正子流也有38個數據,那麽總共就有76個),那麽隨機出現兩個標準差數據的機率就是(1-(1-4.5%)^38)=83%;換句話說,如果沒有偏離的現象才算奇怪。這在物理界叫做“Look Elsewhere Effect”;也就是人類天性就會專注在“特別”的數據點上,而忘記有多少“普通”的數據點被嘗試過了。所以要求五個標準差,即使有10000個“普通”的數據點被忘記,實際上統計噪音仍然只有(1-(1-.00006%)^10000)=0.6%,還在可接受的精度内。3)這種簡單的標準差估算,還有另一個隱性的假設,就是橫軸的測量是絕對精確的,統計誤差只存在於縱軸。可是電子流密度的測量,最大的誤差其實是在能級上;換句話說,這張圖的橫軸誤差實際上比縱軸誤差還大,有少數幾個1.2TeV的樣本被測量成1.4TeV,就自然會有一個1.2TeV的低點和一個1.4TeV的高點。這是統計噪音又被低估的另一個原因。
正是因爲悟空衛星結果的實際統計誤差太大,完全沒有任何統計意義,所以國際物理界不把它當回事。但是悟空衛星團隊不止是事後拿一個沒有實際統計意義的假結果來矇混過關,而且是原本設計就有嚴重問題。我這麽說,是因爲暗物質如果真的衰變,會產生同樣數量的正子和電子;但是在1TeV左右的能級上,宇宙綫中電子流的背景比正子流高20倍,所以AMS-02發表結果的時候,專注在正子流而不是電子流上,正是緣於前者的信噪比是後者的20倍。悟空衛星團隊反其道而行,為了追求稍高一點的能級,犧牲了分辨正子和電子的能力,原本對WIMP的解析力就弱於早上三年的AMS-02,難怪這次只能拿出統計噪音來當結果。
實際上,WIMP和它所依據的超對稱理論,從1986年的Ginsparg & Glashow論文揭露真相開始,大多數的高能物理學家就知道不靠譜(例如2000年有行内的賭盤,結果賭LHC不會發現超對稱的佔70%),偏偏高能所與美國超弦界勾結,誤導決策單位,浪擲巨款來為超對稱做實驗,兩年前的Panda X和這次的DAMPE不但都如有識之士早已預見地做了虛功,而且是山寨美國實驗的重複投資,即使誤打誤撞中了彩票,也只會是追救護車之舉,可有可無。這是因爲它們比起美國稍早的版本,只多出一點點功能,而美國實驗在設計的時候,就已經尋求效費比的最大化,所以名義上的多出來的那一點功能,其實沒有什麽實際上的物理意義。例如這次悟空衛星,犧牲了壽命來追求高一點點的能階。但是高能級的統計誤差本來就大,再犧牲了壽命之後,完全不可能有足夠的統計樣本來得逞確實的新結果。換句話説,PandaX和悟空衛星都是不明智的亂投資,純粹浪費錢:不但找到信號的機率很低(小於0.1%),就算有信號,美國實驗也會先找到。美國人找不到而中國找到的脚本,是完全不存在的。那麽這許多億的人民幣難道沒有更好的純科研項目可以用上嗎?相對前面提到Katelin Schutz真正推展了人類對暗物質的瞭解,所用的卻只是幾臺簡單的個人計算機,中國高能物理學主管的不負責任,真是讓人唏噓。
=================================================
以上是我為《觀察者網》所寫的,對悟空衛星觀察結果的評論。因爲是面對大陸讀者,而他們一般愛國心切,不能客觀接受這種專業的評論(其實很多大陸青年和臺灣年輕人一樣,追求自我感覺良好的欲望高於一切),所以有些主觀的意見沒有寫,在此做個總結。
這篇文章的重點之一,是暗物質和WIMP是兩回事:前者有一系列對重力現象的天文觀測為佐證,現實裏存在的機率很高;後者不但必須加上一個天外飛來的假設(即暗物質由參加弱作用力的粒子構成),而且在實際的詳細計算上,基本依賴完全不靠譜的超對稱理論,即使WIMP假設是正確的,其細節也不可能遵循超弦論者的猜測。
所以我對悟空計劃的批評,第一點就是它完全基於WIMP假設,理論基礎先天就很薄弱。不過計劃本身的執行者的專業是天文實驗,他們對高能理論的理解原本就很有限,這個基本的錯誤不能算在他們頭上。事實上可以說,他們被高能所的理論學家忽悠了,因此也是被害人。
但是在衛星設計上的失誤,這些實驗學家自己就難辭其咎了。首先他們對美國太過崇拜,以爲用衛星來測量正子/電子流是正道,只須要在能階上稍高一點,就可以在旁邊撿剩飯。其實在高能階上,統計樣本有嚴重的數量不足問題,丁肇中的AMS-02對此就有針對性的認識,不但强調衛星壽命要長,而且堅持要能夠分辨正子和電子,如此一來就可以專注在信噪比高得多的正子流上,基本避免了統計噪音的問題。
至於事後拿明顯的統計噪音當作研究結果來宣傳,應該是不得已的。畢竟花了國家不少錢,如果不假裝慶祝一下,大家臉上都不好看。我在三年前有機會和John Hopkins University生物系的一位老教授聊天,那時生醫界的Replication Crisis正在風頭上,我就問他爲什麽77%-89%(這是無法複製的論文比率的估計範圍)的研究人員會願意發表不能複製的結果。他説很多研究是藥品公司資助而且指定題目的,做出來發現藥品無效,但是論文還是非要發表不可,要不然無法對資助方交代,那麽自然只好把明顯的統計噪音當做結果報告出來,反正行内人都心知肚明,一看圖表就知道是怎麽回事。這次悟空團隊也是同樣的心態。