2020-02-02 06:53:00
最近武漢的新冠病毒(nCov)成爲大衆一致關心的議題。但是正因爲它是一個突發的意外事件,而且病毒還在不斷演化之中,所以自然有很多不確定性,連致死率、潛伏期等等基本參數都還沒有共識,像是R0(Basic Reproduction Number,用來標識病毒流行的擴散率)、有效藥物、種族的易感性這些需要很多樣本才能做統計分析的事,更加是先天上就不可能這麽早有定論的。
然而這不影響網絡上的大V們不斷地創造和傳播謠言。我原本本周有個小感冒,所以沒有用心寫稿,但是實在看不過去,所以在《觀察者網》的留言欄和《微博》賬戶上反復盡一己之力來闢謠;爲了節約精力,主要專注在美國合成了nCov作爲生物武器這個陰謀論上。但是正如我們多次討論過的,造謠比闢謠容易太多了,結果我當然是疲於奔命。
不論如何,無腦群衆對美國的非理性指控,會使未來中方對美國的正當指責失去道德制高點;而把流行疫情的來源搞錯了,更是會影響事後的彌補工作。所以我已經寫下來的分析,還是值得讀者們閲讀理解。在此節錄一些原本沒有發在博客上的討論:
一)同濟大學的一篇論文,號稱nCov所專注的ACE2受體,在亞洲人的基因特別常見,結果成爲網絡上美國合成nCov這個陰謀論的主要“證據”(參見https://user.guancha.cn/main/content?id=233158&fixcomment=20011409 和https://user.guancha.cn/main/content?id=233468&fixcomment=20030311 )。這些人不但完全忽視十天前德國就已經有白種人輕易被傳染的事實,也根本沒有去讀懂那篇論文。
我評論如下:“這篇論文所用的統計樣本,總共有 八 (8)個人次!基本就是趁話題熱門來炒作;真正在做實事的生醫從業人員很多,許多病患還在生死邊緣掙扎,這種散佈假大空公關的人其實是在吃人血饅頭,爲什麽要幫他們出名呢?”
“生醫研究要比較個人之間的基因差異,都必須有至少幾千個樣本起算,往往還遠遠不足以得到確切的結論,直到幾十年後,纍積了幾十萬個樣本的Meta-Study才有定論。
這篇論文一共采集了8個樣本,他們敢下任何定論都是明顯在胡扯,只能靠公關炒炒熱度、騙騙外行人,實際上就是消費真正在做研究的科學家們的信譽,順便還製造謠言恐慌,這些社會成本是很大的。這麽自私的騙子,應該被嚴厲打伐才對。”
二)十幾年前SARS結束之後,有一位大陸的軍醫叫徐德忠,寫了“非典非自然起源和人制人新種病毒基因武器”一書,把SARS都歸做是美國的生物武器。這本書自然成爲陰謀論者的聖經(參見https://user.guancha.cn/main/content?id=234107&fixcomment=20052488 )。
我:“一篇文章被管制,不一定是因爲它說了實話,也可能是它説了假話。
一個作者想不出對某現象合理的解釋,並不代表合理的解釋不存在。
以這篇論文爲例,它的核心論點是SARS後期的傳播特徵和西班牙流感以及一般流感都不同。但是不同的病毒,原本就會有不同的傳播特徵;尤其冠狀病毒和流感病毒的血緣較遠,差異大是必然的。爲什麽作者避而不談呢?
即使忽略基因上的差別,傳染病的傳播特徵也受社會因素影響很大。SARS和流感的最大差別,在於它一開始的人傳人不强,所以政府反應雖然不是第一時間,但是2003年開始全力隔離圍堵的時候,仍然是局限在10000人次這個數量級以下。一般流感和西班牙流感都沒有在前期遭遇這樣强力的防治,那麽後期的演化和發展會有不同不是理所當然的嗎?
造謠張張嘴,闢謠跑斷腿。MIT的研究估計後者比前者困難大約四個數量級。你覺得在爭論這個議題時順風順水,其實正因爲你是造謠的那一方。”
三)美國北卡州立大學的教授Ralph Baric,在2015年發表了一篇論文,其實是只改動了冠狀病毒的一個基因,但是在陰謀論者口中,就成了美國合成生物武器的證據(參見https://user.guancha.cn/main/content?id=234651&fixcomment=20078425 )。
我:“剛剛去讀了論文的原版。這個所謂的“人造”、“Engineer”和“Hybrid”都頗有誤導外行人之意。
實際上是拿中國科研人員在蝙蝠洞找到的一種冠狀病毒(從時間來看,當時還沒有找到蝙蝠版的SARS,所以應該是SARS的表親),然後用基因編輯手段,改動了一個表面抗原的蛋白質。這種只改動一個蛋白質的基因編輯,在2012年發明了CRISPR之後,是很隨意的事,隨便哪個大學生物實驗室都做得到。
這樣的結果,是最低程度的轉基因,所以硬要説是“全新”、“人造”、“嵌入”等等,立刻成爲一個語義學上的爭論。論文的作者認爲這個新抗原會幫助病毒傳染到人類呼吸道,但是並不能真正做實驗證實,距離對種族能精確制導的生化武器,更是差了十萬八千里。”
四)以上的評論被轉發到《微博》之後,聼不進去的讀者不少。其實這不是意外;博客這裏不入流的留言早就被刪或被禁了,微博的水準自然不能比。不過代我管理微博賬戶的“世界對白”還是緊張,向我反映了一下。以下是我們的對話之一。
世界對白:“昨兒發的其他關於陰謀論的帖子下面大約有一半人是不贊同的,或者說“害人之心不可有,防人之心不可無”。而直接反對的人有不少同在風聞中回復是一樣的---不需要精確制導,只需要定點播撒就行了。要麽是拿白人更易得流感來反證。
不過我現在有點擔心您被稱為批評者!雖說沒啥不好,但怕被標籤化!!!真的要考慮下這個問題。”
我:“我向來沒有預設的意見和立場,最近的評論依舊是就事論事,給出證據,或者剝開假證據的皮。有邏輯能力的人,自然能看得出來;沒有邏輯能力而已經預設錯誤立場的人,當然就會1)忽略我給的反證; 2)失去了自己的證據,就退守較弱的論據,然後說總還有可能。其實我在五年前,開始批評台獨的時候,他們不也是這樣反應的?沒有證據的可能性,我以前已經解釋很多次了,就是宗教;像是上帝的存在,並沒有任何證據,但也不可能從邏輯上否認這個可能性。後來邏輯學家為了方便群眾理解,還提供像是Russell’s Teapot(由著名英國哲學/邏輯學家Bertrand Russell提出)這樣的例子:如果有人硬要說在小行星帶漂流著一隻精美的茶壺,這種沒有任何正面證據的論述,反對的人有義務提出反證嗎?沒有正面證據,就是廢話,根本連猜想都不應該,更別說在大眾論壇傳播了。事實上,絕大多數的謠言在邏輯上就屬於這一類;所以這種行為不只是非理性的,而且是有害國家社會的。
我一再說,有一分證據說一分話,其背後的理論基礎就在於此。我所謂的不在乎流量,正是不能屈從於多數群眾的非理性。他們聽不進事實與邏輯,自然有能聽得進去的。我如果不說給後者聽,這些人在天然愚昧的公共論壇就會勢單力孤,開始懷疑自己的態度和結論,最終是劣幣驅逐良幣。所以請你務必把這裏這段話發在微博。不喜歡聽的讀者,請終止訂閱,但不要在留言欄無視事實證據,大放厥詞,污染言論環境。國家有難,許多人正在犧牲奉獻,旁觀者的最基本責任,就是不要無中生有,給做事的人添亂。”
五)與世界對白的對話之二。
世界對白:“今天又開始另外一撥所謂“證據”(王孟源注:參見https://www.biorxiv.org/content/10.1101/2020.01.30.927871v1 ,這是一篇印度人寫的論文稿,號稱新冠病毒有HIV基因被人工剪接進去),而有人已駁斥沒法複製這一過程。另外就是remdesivir治好了一例美國病人,而上次非典的特效藥達菲也是這家公司進展 的。這個被一個在美國的醫療科普大號闢謠。“思想火炬”(社科院官方賬號)轉發了第一則新謠言。
魔幻的是願意公開出面批駁的好多都是海外華人,支持的都是國內大V。“知識分子”這兩天也開始關注一些負面消息,天天撕逼。倒是陳經還堅持就事論事。”
我:“唉,真是讓我無語。我早就說過,在期刊發表的生化論文,9篇倒有8篇是假的;所以論文本身不是證據,論文裡面提到的“證據”也必須仔細與已知的事實核對,如果有任何“新穎”的證據,就應該視為“嚴重存疑”來處理,畢竟它有8/9的機率是錯的。
美國和中國的那些藥物(包括雙黃連)研究,毛病很簡單,他們的樣本數量太低,都是個位數的。就算他們實驗過程完全正確嚴謹,光是統計誤差就讓它們毫無意義。這些人出來說我們的結果有100%的強度,但是他們忘了提,統計誤差是10000%。(100±10000)%是什麼?什麼都不是!所以這些作者都是在蹭熱度,吃人血饅頭,偏偏沒有科研常識的大V也只想著流量,拼命傳播假新聞。面對這種天然沒有確實信息的情況,反而越是謊言越可以說得確切,也就越容易讓百姓接受。
那篇印度人寫的,連期刊論文都不是,而是所謂的“ Preprint”,也就是“預印本”,作者高興怎麼寫就怎麼寫,證據可信率連1/9都沒有,而是無限接近於零。為了嚴謹性,我還是去把它仔細讀過了(捏著鼻子讀的;其他人做到了嗎?);它的內容是這樣子的:他們直接拿了中美分析出來的nCov基因(含2萬9千多個基因字母),和既有的100多個冠狀病毒(7大類,包括SARS,MERS和nCov)基因樣本(這個工作有國際上現成的資料庫可以查詢,作者的工作量大約是一分鐘)做比較,發現有4個小段落是nCov獨有的。然後他們再拿這4個小段落去查詢HIV的基因(9千多個字母)做比較(同樣用現成資料庫一行指令就做得到),結果宣稱都找到了對應。然後他們直接進一步說這不可能是天然的。
假設這群印度作者在打入指令的過程中,完全沒有犯錯,我們看看他們邏輯推演的細節:首先,他們不是在所有的HIV基因組合裏面都找到對應,而是在已知的幾百萬種HIV樣本裏,硬是强迫電腦反復地去找最好的對應。結果的確是第一個段落(6個字母,不到一個蛋白質分子的1/100;而人類從HIV的祖先Retrovirus所抄襲的基因,光是Syncytin 1就有幾千個字母)在一個來自泰國的HIV樣本以及第二個段落(也是6個字母)在一個來自肯亞的樣本裏有重複,但是第三個段落的最佳對應是15個字母裏有9個一樣,第四個段落是19個字母有8個一樣,這顯然是極爲牽强的。在邏輯學裏,這個Fallacy叫做“Data fishing”,也就在過多的樣本裏,挑出偶然類似的巧合,然後硬上因果關係。任何一個生化研究員,至少必須估計一下P-Value,也就是結果因巧合而出現的機率;然而這群印度作者連討論都沒有,顯然很不入流。
其次,HIV病毒已經人傳人100多年了,幾百萬個變種都是為侵入人體細胞而演化出來的。nCov雖然很新,卻已經是所有近年來爆發的冠狀病毒中人傳人能力最高的(但是致死率也最低);那四個獨特的段落都發生在Spike glycoprotein之上,也就是病毒表面的抗原蛋白,負責接觸寄主細胞,方便傳染用的。所以除了統計偶然之外,也可能是趨同演化。總之,作者那句“不可能是天然的”天外飛來,完全缺乏邏輯論據;必須先排除統計偶然和趨同演化兩個遠遠更自然、更可能的解釋,但是他們連嘗試都沒有做。如果硬是要說那四個基因段落是人工加上去的,那麽更必須解釋爲什麽要用HIV來抄襲增加傳染力的基因。HIV的可怕,在於1)它主動攻擊免疫系統;2)它能躲到内臟深處,很難根除。傳染力是HIV的弱項,若要抄襲,應該抄流感才對。所以這群印度人的電腦搜索結果,其實是證明了HIV沒有被用來人工合成nCov,剛好和他們的結論相反。
中國網絡上的大V們,前一分鐘才罵北京的研究人員只花了兩三個禮拜就急著出論文在國際一流期刊發表,下一分鐘連氣都不必換就可以拿印度人只花了幾分鐘就做出來的預印本來造謠、傳謠,居然還不知道是在自我矛盾。這基本上是因爲他們造謠的流量收穫很大,成本卻是零,不到幾天,他們的讀者就把這些謊話忘光了(參見前文《大婁子的零後果》)。有了E-Government之後,應該要求這些大V的年度發言必須有至少50%正確,否則每個謊言按一個讀者一塊錢來罰款;有了成本,才有可能讓這些人收斂;群衆本身必然沒有能力來糾正這個亂象。
不同意我這些意見的人,很簡單,留下實名身份做記錄,我們等半年看看誰對誰錯。上次我被這樣質疑是兩年多前,我說悟空衛星的所謂重大發現是統計噪音(參見前文《談悟空衛星》),整個中國高能和天文行業裏幾千個人在《知乎》上罵,什麽髒話都出來了,結果一年後復盤,這些一度呱噪不停的猴子不是都全部噤聲嗎?連一個有品格能承認錯誤的都沒有。所以大衆必須明白,有品格有見識的人,萬中無一,網絡上幾千、幾萬個流量明星,比不上一個堅持說實話的人。”
【後註一】結果這次不用等一年,不到一天,印度人就被迫道歉撤稿。原因正是我在正文中指出的,他們沒有考慮統計偶然。別的能搜索同一個資料庫的生化研究人員,重複了他們的伎倆,發現那4個段落在其他非HIV的病毒樣本出現的頻率遠遠更高。這是因爲DNA只有4種字母,一串6個字母的段落只能有4^6~4000種變化。換句話說,每4000個字母就可以預期它出現一次,而每個病毒樣本就有幾千或幾萬個基因字母,每一類病毒在資料庫裏有N個樣本,那麽印度式的搜索自然會找到超過N個對應。
【後註二】在2020年二月6日,一篇南卡大蔡教授(Cai,Guoshuai)的新論文公佈(參見https://www.preprints.org/manuscript/202002.0051/v1)出來。這和同濟大學的研究是完全相同的題材,也同樣是一篇預印本,還沒有刊在期刊上。它們主要的差別在於蔡教授的樣本有224個,而同濟的研究只有8個。蔡教授的發現是,ACE2的基因表達和種族、性別都沒有關係;換句話說,白種人對nCov和黃種人一樣易感。唯一影響ACE2的因素是吸烟,越是老煙槍,ACE2在肺部和支氣管細胞出現得越多,也就越容易因爲nCov而惡化成肺炎,致死率隨之越高。所以同濟的結果可能是因爲8個樣本中代表中國的都是抽烟者,而代表白種人的不是。此外蔡的結果也解釋了至今兩個很奇怪的統計現象:首先雖然nCov在國外的患者往往也是中國僑民,中國内地的致死率卻是遠遠最高的,這可能是來自中國沒有嚴格的禁烟文化,成年男性吸烟的比率高達48%,遠高於常住西方的華裔僑民。其次,中國内地的死者,有超過2/3是男性,而中國女性吸烟的比率當然要比男性低得多。
【後註三】因爲SARS也是靠ACE2來感染人類呼吸道,針對它的抗體和藥物已經研發了17年了,可能有些已經通過臨床實驗的第二步。我們可以確定過去兩個月,許多生醫研究人員日夜加班嘗試用這些藥物來對付nCov,只要它們通過了培養皿階段,那麽馬上就可以被應用在實際治療上。這些目前還未公開宣傳的藥物,可能比Remdesivir更加有效些。
【後註四】今天是2020年二月18日,我剛注意到一篇由好幾個國際知名研究機構的研究員發表的新Preprint(成文於2020年二月16日,參見http://virological.org/t/the-proximal-origin-of-sars-cov-2/398),把nCov的基因代碼和SARS做了詳盡的比較,發現雖然兩者都依賴ACE2蛋白質來侵入人體支氣管細胞,但是所用的方法不同,屬於趨同演化的結果。這當然是對陰謀論(中美兩邊皆然)的又一打擊。
【後註五】根據《NPR》在2020年二月20日的報導(參見https://www.npr.org/sections/goatsandsoda/2020/02/20/807742861/new-research-bats-harbor-hundreds-of-coronaviruses-and-spillovers-arent-rare),三年前有研究人員在Borneo采集蝙蝠樣本,一次就發現有至少400多種冠狀病毒寄生在蝙蝠身上。他們對附近村落居民也做了檢驗,發現有幾種冠狀病毒早已跨越物種,可幸的是傳染力和致死率都很低,當地又偏僻,所以沒有引發流行疫情。我在此再一次强調,有些人所謂“吃了幾千年野味都沒問題”,其實是把自己的無知當成事物不存在的證據,這種埋頭鴕鳥的心態是非常危險的。實際上野生動物的病原傳染到人體,是年年處處都在不斷發生的,nCov只不過是小機率的完美風暴:傳染力和致死率雙高,而且一開始就出現在大城市中心,沒有被自然局限在窮鄉僻壤。
【後註六】我在過去幾周搜集新冠肺炎的學術資料時,很看重的一個網站是https://nextstrain.org/ncov。這裏他們實時列出全世界所有已經被實驗室可靠檢驗出的新冠病毒基因變種,編纂出一個家譜。仔細去分析,可以得出很多有意思的結論;例如美國已知的病例,除了從武漢撤僑和鑽石公主號的游客之外,有一例來自泰國,另一例來自尼泊爾,但是華盛頓州的發病集團(Cluster),來自早先出現在福建、重慶和台灣的一個變種,其背後的傳染鏈可能是一位沒有症狀的華裔僑民。
另一個觀察,是病毒已經因突變而分爲兩大類,S族最早於一月5日在武漢被檢測到,估計突變時間是去年十二月26日,被放在家譜的下半;L族,最早采樣也在武漢,估計突變時間是十二月17日(這裏的突變時間估算和三月3日來自中國的一篇論文相反,中方研究人員認爲S早於L,這可能是因爲他們的病毒樣本較少,參見https://academic.oup.com/nsr/advance-article/doi/10.1093/nsr/nwaa036/5775463)。S包括了前面提到的華盛頓州發病集團、南韓、香港、英國、澳洲以及部分台灣和日本的早期病例等等(據稱還有一個美國人和一個澳洲人同時兼有兩類病毒)。目前還未能確定L與S之間的傳染特性有什麽差別。
不論如何,L族和S族之間的差別,正是在新冠病毒的Spike Glycoprotein(又叫Peplomer)之上,負責咬住人體支氣管細胞表面的ACE2受體,使病毒得以侵入,所以這是決定病毒傳染力的要素,也是疫苗和抗體(Antibody,血清療法靠的就是抗體)辨識病毒的關鍵所在。目前中外共有至少35個研究團隊在開發新冠疫苗,因爲病毒的分化,這些疫苗不一定會對兩類都有效。例如流感病毒有兩種主要的Peplomer:Haemagglutinin(H)和Neuraminidase(N),各有好幾個類型,所以流感被分類為H1N1、H2N3、H3N8等等,而個別疫苗一般不能兼顧。冠狀病毒的H Peplomer不太重要,前面討論新冠病毒的L/S類別其實是針對它的N Peplomer,如果用流感的命名法,L/S會變成N1和N2,所以我猜測有可能會需要混合疫苗。
【後註七】一個月前,我提到試管(In Vitro)實驗中對COVID-19有效的藥物,除了Remdesivir之外,還有氯喹(Chloroquine)。最新(今天是三月10日)的中國和南韓研究報告,發現氯喹的抗病毒機制,來自它是一種Ionophore(離子載體),可以幫助Zn2+(鋅)離子進入細胞内,而鋅離子能干擾RNA病毒複製蛋白RdRP的合成。不過目前很多研究小組還在做人體(In Vivo)實驗,氯喹是否有療效必須等待雙盲實驗的證實。
【後註八】後註四提到新冠病毒與SARS雖然同樣利用ACE2來侵入人體細胞,但是基因設計細節不同。在2020年三月26日發表的新論文(參見https://user.guancha.cn/main/content?id=273449)中,發現新冠對ACE2的結合能力,不但强於SARS,而且遠超目前人類計算機模型所能預期的精妙程度;這一點,其實我在二月底上《八方論壇》節目時,已經做出同樣的結論。
【後註九】剛剛注意到這篇三月30日的論文(參見https://www.imperial.ac.uk/media/imperial-college/medicine/sph/ide/gida-fellowships/Imperial-College-COVID19-Europe-estimates-and-NPI-impact-30-03-2020.pdf),研究了11個歐洲國家的新冠疫情,認爲實際的感染人數是官方數字的10到60倍。例如意大利,如果假設10倍差異,那麽死亡率是1%左右,正是我一再估計的數值。