為什麼“完成”人類基因組需要20 年——以及為什麼還有更多工作要做

2001 年人類基因組序列草案的發布是我們了解人類基因組的一個重大時刻，為我們進一步了解人類生物學和疾病的基因組基礎鋪平了道路。

但是部分沒有排序，並且一些序列信息不正確。現在，二十年後，我們有了一個更完整的版本，由一個國際研究人員聯盟作為預印本（尚未經過同行評審）出版。

技術限制意味著最初的人類基因組序列草案只涵蓋了基因組的“常染色質”部分——我們基因組的92%，其中發現了大多數基因，並且在製造RNA 和蛋白質等基因產物方面最為活躍。

新更新的序列填補了大部分剩餘的空白，完整地提供了我們DNA 代碼的全部30.55 億個鹼基對（“字母”）。這些數據已經公開，希望其他研究人員能夠使用它來進一步研究。

許多新測序的材料是基因組的“異色”部分，它比常染色質基因組更“緊密”，並包含許多高度重複的序列，很難準確讀取。

這些區域曾經被認為不包含任何重要的遺傳信息，但現在已知它們包含參與基本重要過程的基因，例如胚胎髮育過程中器官的形成。在2 億個新測序的鹼基對中，估計有115 個基因預計會參與蛋白質的產生。

兩個關鍵因素使人類基因組的完成成為可能：

1. 選擇一種非常特殊的細胞類型

新公佈的基因組序列是使用源自一種稱為完全葡萄胎的非常罕見的組織類型的人類細胞創建的，當受精卵失去了母親為其提供的所有遺傳物質時，就會發生這種情況。

大多數細胞包含每條染色體的兩個拷貝，一個來自每個親本，每個親本的染色體提供不同的DNA 序列。來自完整葡萄胎的細胞只有父親染色體的兩個拷貝，每對染色體的基因序列是相同的。這使得完整的基因組序列更容易拼湊起來。

2. 測序技術進展

經過幾十年的冰川進步，人類基因組計劃通過開創一種稱為“霰彈槍測序”的方法實現了2001 年的突破，該方法涉及將基因組分解成大約200 個鹼基對的非常小的片段，將它們克隆到細菌內，破譯它們的序列，然後像巨大的拼圖一樣將它們拼湊在一起。

這是原始草案僅涵蓋基因組常染色質區域的主要原因——使用這種方法只能對這些區域進行可靠的測序。

最新的序列是使用兩種互補的新DNA 測序技術推導出來的。一種是由PacBio 開發的，可以以非常高的準確度對更長的DNA 片段進行測序。第二個由Oxford Nanopore 開發，可產生超長的連續DNA 序列。這些新技術使拼圖塊的長度達到數千甚至數百萬個鹼基對，從而更容易組裝。

這些新信息有可能促進我們對人類生物學的理解，包括染色體如何發揮作用和維持其結構。它還將提高我們對遺傳疾病的理解，例如具有潛在染色體異常的唐氏綜合症。

嗯，不。一個明顯的遺漏是Y 染色體，因為用於編譯該序列的完整葡萄胎細胞包含X 染色體的兩個相同副本。然而，這項工作正在進行中，研究人員預計他們的方法也可以準確地對Y 染色體進行測序，儘管它具有高度重複的序列。

儘管對人類細胞的（幾乎）完整基因組進行測序是一個非常令人印象深刻的里程碑，但這只是充分了解人類遺傳多樣性的幾個關鍵步驟之一。

下一項工作將是研究不同種群的基因組（完整的葡萄胎細胞是歐洲的）。一旦新技術成熟到可以常規用於對來自不同人群的許多不同人類基因組進行測序，它將更好地對我們對人類歷史、生物學和健康的理解產生更重要的影響。

需要謹慎和技術發展，以確保在充分了解人類基因組多樣性的情況下進行這項研究，以通過將發現限制在特定人群中來防止健康差異的加劇。

為什麼要花20 年時間“完成”人類基因組——以及為什麼還有更多工作要做，一文首先出現在米奇身上。

資訊來源：由0x資訊編譯自MICKY。版權歸作者The Conversation所有，未經許可，不得轉載