前情提要
2021 年 3 月 26 日,國際頂尖學術期刊 Science 刊發了一篇題為 Comment on 「Large-scale GWAS reveals insights into the genetic architecture of same-sex sexual behavior」 的評論性文章,再次將「全基因組關聯分析」和「同性戀的遺傳學特徵」這兩個話題推到了風口浪尖,文章從科學嚴謹的角度,重新探討同性戀遺傳特性該怎樣研究,直言不諱的指出全基因組關聯分析研究一直被詬病的問題。
雙方措辭激烈,硝煙四起,原文讀起來非常帶感。

圖片來源:Science
這篇評論性文章劍指 2019 年發表在 Science 的研究性文章,題為 「Large-scale GWAS reveals insights into the genetic architecture of same-sex sexual behavior」,該研究通過大規模的全基因組關聯分析以揭示與同性戀相關的遺傳特徵,文章發表之後,就引起了科學界和大眾媒體的廣泛關注,以至於有媒體直接使用「同性戀基因」、「同性吸引力的來源」、 「同性戀的原因」等標題進行宣傳。

圖片來源:Science
針對這篇評論性文章,原作者在第一時間做出迴應,並同期刊發在 Science。原作者針對評論性文章中的質疑做出了詳細說明,闡明瞭全基因組關聯分析研究中的「痛點」。接下來,我們就細細解讀這場辯論。

圖片來源:Science
人類性行為的生物學特徵
人類的性行為是複雜和多變的,儘管它在生物學和社會上都很重要,但其潛在的發展路徑和性行為個體差異的來源至今都還沒有被很好地理解。隨著研究的不斷深入,大多數科學家們都認識到:生物學、心理學和文化、環境因素等共同影響著性行為和性身份的形成。
據不完全統計,在整個人類社會中,約有 2 – 10% 的人報告自己與同性伴侶發生過性行為,或只與同性伴侶發生性行為,或與同性 / 異性均發生過性行為。導致性取向的生物學因素在很大程度上是未知的,但是,同性性行為似乎在某些家族中代代相傳,這一觀察結果暗示了遺傳因素的影響,此外,同性性行為在基因相同的同卵雙胞胎中比異卵雙胞胎或兄弟姐妹中更常見。這些觀察更加提示了同性戀的遺傳學影響。因此,科學家們就希望通過遺傳研究識別特定的基因和生物過程,並結合生活環境和社會動態,為同性戀的生物學特徵提供更為重要的新認識。
原始研究開展的背景及成果發表
同性戀的相關研究是比較敏感和特殊的,不僅具有生物學意義,而且相關結果也會產生社會層面的影響,因此,之前的研究都較為侷限。全基因組關聯分析技術的成熟極大的推動了此類研究。
2019 年 8 月 30 日,來自麻省總醫院基因組醫學中心的科學家們,聯合昆士蘭大學心理與進化中心等單位的研究人員,在 Science 刊發了這項關於同性性行為的全基因組關聯研究,研究人員對來自英國生物樣本庫和 23andMe 公司,共計約 48 萬人的全基因組學資料進行關聯分析,共鑑定出 5 個與同性戀相關的基因位點,並在其他三個較小的人群研究中進行了驗證。

圖片來源:Science
表型判斷標準的嚴重質疑!
Hamer 等人的評論文章直擊該研究的「命門」,對其應用的表型形狀的認定標準產生了嚴重的質疑!要知道,表型資訊在全基因組關聯分析研究中是至關重要的,它是研究開展的前提,也是希望通過關聯分析擬解決的科學問題,如果對錶型的認定標準產生質疑,那麼這也就基本等同於對該研究的全盤否定。
評論性文章指出:對於表型認定,原始研究中使用的是一個自我報告的二分測量方法,也就是說被研究人員的主要表型是由一個問題確定,即「你是否曾與同性發生過性行為?」 回答「否」的被歸為「異性戀者」,回答「是」的被歸為「非異性戀者」。
質疑者認為,Ganna 等人選擇這種二分法僅僅是為了方便統計,但它的科學性卻存在很大的問題。另外,這種方法太過於極端和絕對,即在「異性戀者」和「非異性戀者」之間並沒有設定一個有效的閾值,而這本可以通過一些基本的問題來辨別。更為荒謬的是,Ganna 等人使用的二分法沒有經過任何可靠性或有效性的測試。質疑者指出:在絕大多數科學文獻中幾乎沒有見過這種生硬的評判標準,因為它幾乎沒有體現關於人類性行為多樣性的資訊。

圖片來源:Science 截圖
原始研究結論的質疑
「炮轟」表型判斷標準之後,質疑者隨後對其產生的結論也產生質疑。
他們認為,Ganna 等人在這項研究中檢測到了與同性戀相關的 5 個遺傳位點,儘管其中 3 個在其他資料集中得到了驗證。然而,在完全同性行為的參與者中,這些變數都沒有表現出統計學顯著的升高,也沒有與對應於同性相對於異性伴侶的比例的變數顯著相關。
此外,儘管原始研究中對這 5 個基因進行了文獻支持和討論,但質疑者指出,這些基因可以作為同性性行為相關的候選基因 (如性激素和嗅覺) ,但實際上它們中沒有一個與人們通常理解的同性戀有關。

圖片來源:Science
質疑者們也對這 5 個鑑定出來的基因位點拋出了一種合理的解釋:他們與人類性行為的分類沒有任何關係,而是與個性特徵有關,或許僅僅只是好奇心驅使的性體驗。
最後,質疑者重申:所有複雜性狀的遺傳學研究都需要精確有效的表型測量,考慮到性行為的社會、政治和個人影響,這一點尤其重要。
精確評判標準 or 更大的樣本量?
針對質疑,原始研究人員也迅速做出迴應。
針對表型判斷的標準,Ganna 等人首先指出,由於缺乏足夠大的樣本,先前的基因組關聯分析研究無法檢測出具有複雜特徵的變異,這也是對性行為的遺傳學研究受到限制的原因。因此,為了產生最大的有效樣本量,他們選擇了這個簡單易懂的變數。
另外,在數十萬人群的這種大規模基因組學研究中,勢必會受到現有表型資料的限制,這是因為那些表型資料並不是為了某一研究而收集的。比如說,英國生物樣本庫 (UK Biobank) 包含了大部分可用基因組資料,但不包括性吸引力或性身份等詳細資訊,其唯一與性行為相關的問題是:參與者是否有過同性伴侶。因此,也只有基於二分類項的變數,才能使絕對樣本容量最大化。
研究結論在後續分析中反覆得到驗證
Ganna 等人也承認,原始研究中的這一變數的確沒有包含性行為的多樣性和複雜性,不過他們也沒有聲稱用這個變數來衡量性取向或性吸引力。同時,在原始研究中,後續深入的分析與資料的子集以及獨立資料集均能驗證研究結論,這與質疑者們提到的「結論不可靠」是不符合的,之所以認為不可靠,是因為 Hamer 等人忽略了原始研究的這些後續分析。

圖片來源:Science
最後,原始研究人員提到:「儘管我們更希望大規模的基於生物樣本庫的樣本具有我們感興趣的主題的深度、詳細表型,但這種性質的資料目前還無法獲得。」這句話也戳中了全基因組關聯分析研究的痛點:表型深度和樣本量大小之間的權衡!
科學發現被質疑才會「越辯越明」,同時這也正體現了其多面性及包容性。在任何科學研究中,均有其侷限性,合理利用現有條件、現有資料推動該領域的發展,認識到他人所無法看到的深度資訊,這才是科學研究的追求方向。
參考文獻
1、 A. Ganna, K. J. H. Verweij, et.al. Large-scale GWAS reveals insights into the genetic architecture of same-sex sexual behavior. Science 365, eaat7693 (2019). doi:10.1126/science.aat7693pmid:31467194.
2、 D. Hamer, B. Mustanski, R. Sell, et.al. Comment on 「Large-scale GWAS reveals insights into the genetic architecture of same-sex sexual behavior」. Science 371, eaba2941 (2021).
3、 A. Ganna, K. J. H. Verweij, et.al. Response to Comment on 「Large-scale GWAS reveals insights into the genetic architecture of same-sex sexual behavior」 DOI: 10.1126/science.aba5693