Ngày nay, bộ gen tham chiếu chiếm một vị trí trung tâm trong nghiên cứu y sinh. Nó cung cấp ngôn ngữ chung mà các nhà khoa học và bác sĩ lâm sàng sử dụng để tổng hợp các phát hiện từ các nghiên cứu bộ gen khác nhau. Đối với nhiều nhà nghiên cứu bộ gen, sự phổ biến của nó đã mang lại cho nó cảm giác cuối cùng và đầy đủ. Thành tựu kỹ thuật hoành tráng này đã biến thành một phần của cơ sở hạ tầng khoa học cơ bản — phụ thuộc vào hoàn toàn nhưng hiếm khi được xem xét rõ ràng.
Bất chấp những thành công này, những thiếu sót của bộ gen tham chiếu của con người đã dần trở nên rõ ràng theo thời gian. Những thiếu sót này có nhiều dạng. Một số là vấn đề về độ chính xác: Các phần của tham chiếu không nhất thiết phản ánh chính xác bộ gen của bất kỳ cá nhân nào. Một số liên quan đến sự đa dạng: Bởi vì bộ gen tham chiếu hiện tại chỉ dựa trên một số ít cá thể, nó đại diện chính xác cho bộ gen của một số cá nhân nhưng không phải của những người khác, điều này có nguy cơ làm sai lệch nghiên cứu dựa trên di truyền. Nghịch lý thay, điểm mạnh của bộ gen tham chiếu của con người cũng nhân lên những điểm yếu này. Sự phổ biến của nó trong nghiên cứu có nghĩa là những thành kiến gây ra bởi những thiếu sót của nó tràn ngập toàn bộ lĩnh vực gen người.
Sau nhiều năm thảo luận giữa các nhà di truyền học và nhà sinh vật học tính toán của con người, cộng đồng này hiện đang cố gắng giải quyết dứt điểm những vấn đề này. Hai sự hợp tác quốc tế quy mô lớn đang đi đầu trong những nỗ lực này: Telomere-to-Telomere Consortium và Human Pangenome Reference Con người, trong đó một trong số chúng tôi (J.E.) là thành viên. Ngoài việc xác định sự hiểu biết của các nhà nghiên cứu về bộ gen người, các dự án này đang viết lại cuốn sách về một số phương pháp nghiên cứu cơ bản nhất trong bộ gen.
Mặc dù các mảnh của bộ gen người đã được giải trình tự vào năm 1990, nhưng khi HGP chính thức được đưa ra, dự án là nỗ lực quy mô lớn đầu tiên để xác định trình tự của phần lớn loạt as, Cs, Gs và Ts dài 3 tỷ nucleotide cụ thể tạo nên bộ gen người. Nhiều người thường gọi nỗ lực này là "giải trình tự bộ gen người". Tuy nhiên, quá trình này thực sự bao gồm hai bước: giải trình tự DNA, trong đó một cỗ máy chuyên dụng đọc các chuỗi các đoạn DNA và lắp ráp, khi các nhà nghiên cứu ghép các chuỗi ngắn này lại với nhau để xây dựng các chuỗi liền kề lớn hơn (gọi tắt là contigs) và cuối cùng là một bộ gen đầy đủ bằng cách tìm kiếm sự chồng chéo giữa hai lần đọc — giống như ghép các mảnh ghép lại với nhau. Cả hai bước đều đầy thách thức theo những cách riêng của chúng. Giải trình tự thường liên quan đến các phản ứng hóa học phức tạp, trừ khi được thiết kế thông minh, có thể tốn nhiều thời gian. Assembly đòi hỏi các thuật toán có thể xử lý hàng triệu chuỗi một cách hiệu quả.
Trong khoảng thời gian một thập kỷ, các nhà nghiên cứu làm việc trên HGP đã giải trình tự và tập hợp bộ gen người một cách tỉ mỉ, chủ yếu sử dụng nhiễm sắc thể nhân tạo của vi khuẩn (BACs): trình tự của con người theo thứ tự 100 kilobase được chuyển thành vi khuẩn và sau đó được khuếch đại bằng cách nuôi cấy khuẩn lạc của vi khuẩn. Quá trình chia nhỏ bộ gen người thành BAC rất tốn công sức, nhưng nó đã giảm vấn đề lắp ráp bộ gen xuống một quy mô có thể quản lý được — gần hơn với kích thước của bộ gen virus và vi khuẩn đã được lắp ráp thành công trước đây bằng cách sử dụng trình tự Sanger truyền thống.
Năm 2001, HGP đã xuất bản một bản thảo trình tự bộ gen người để được hoan nghênh và phấn khích đáng kể. Tuy nhiên, như tên ngụ ý, bộ gen này khác xa với một sản phẩm hoàn chỉnh. Thứ nhất, dự thảo chỉ nhắm mục tiêu vào các chuỗi euchromatic của bộ gen: DNA được lưu trữ trong nhân một cách lỏng lẻo. Ngược lại, các chuỗi dị sắc, được đóng gói chặt chẽ ở ngoại vi của hạt nhân, được đặc trưng bởi mức độ lặp lại cực đoan, và chúng được coi là quá khó để lắp ráp. Theo phép ẩn dụ câu đố, hãy tưởng tượng bạn đang cố gắng hoàn thành một vùng rộng lớn của bầu trời xanh rắn chắc. Một hạn chế khác của bộ gen dự thảo ban đầu của HGP là nó chỉ bao phủ 94% trình tự euchromatic; trình tự bộ gen được xen kẽ với 150.000 khoảng trống mà không thể xác định được trình tự. Trong một số trường hợp, thứ tự hoặc định hướng chính xác của các chuỗi được lắp ráp cũng chưa được giải quyết.
Trong vài năm tiếp theo, HGP đã tham gia vào một nỗ lực "hoàn thiện" chuyên sâu để lấp đầy những khoảng trống này phần lớn bằng cách sử dụng cùng một công nghệ và lắp ráp đầy đủ 99% chuỗi euchromatic. Cuối cùng, số lượng khoảng trống đã giảm từ 150.000 xuống còn 341, chủ yếu xung quanh các khu vực có sự trùng lặp quy mô lớn và các chuỗi dị sắc đầy thách thức của các centromeres và các phân nhóm, các chuỗi ở cuối mỗi nhiễm sắc thể ngay trước chính các telomere.
Năm 2007, Hiệp hội tham chiếu bộ gen (GRC) được thành lập để đảm nhận việc quản lý bộ gen tham chiếu của con người. Nó giám sát việc tiếp tục cải tiến dần dần như các công nghệ và cách tiếp cận mới, chẳng hạn như trình tự bằng cách tổng hợp và đọc dài, làm nổi bật các lỗi trước đó và điền vào các chuỗi còn thiếu.
Những nỗ lực trước đó là một lợi ích cho nghiên cứu bộ gen. Đối với một điều, họ đã cho phép phương pháp hiện đại được sử dụng rộng rãi nhất để nghiên cứu di truyền bệnh tật của con người trên quy mô dân số: nghiên cứu liên kết toàn bộ bộ gen, hoặc GWAS. Mục tiêu của GWAS thường là so sánh kiểu gen của một nhóm thuần tập "trường hợp" bị bệnh và một nhóm thuần tập "kiểm soát" lành mạnh để xác định những người đóng góp di truyền của một căn bệnh nhất định. Để rút ra sự so sánh đó, các nhà gen xác định khu vực trên bộ gen tham chiếu tương tự nhất với trình tự của mỗi lần đọc và có lẽ là khu vực mà nó bắt nguồn. Quá trình này, được gọi là căn chỉnh, giống như ghép một câu đố với sự trợ giúp của hình ảnh trên hộp. Sau đó, các nhà nghiên cứu tìm kiếm sự khác biệt giữa từng bộ gen được lấy mẫu và tài liệu tham khảo và so sánh sự khác biệt được xác định trong trường hợp và nhóm đối chứng. Trong 10 năm qua, GWAS đã phát hiện ra những người đóng góp di truyền cho hàng trăm kiểu hình, bao gồm các tình trạng tâm thần như tự kỷ và tâm thần phân liệt, và các bệnh mà nhiều người trước đây tin là hoàn toàn môi trường như béo phì. GWAS thậm chí đã giúp khai quật nguồn gốc di truyền của các đặc điểm của con người phức tạp như là một "người buổi sáng".
Nhưng bộ gen tham chiếu hiện tại của con người, HG38, vẫn chưa hoàn thành bất chấp những nỗ lực của GRC để hoàn thành nó. Một số trong số 341 khoảng trống còn lại tỏ ra ngoan cố không khoan nhượng, đặc biệt là các vùng dị sắc lặp đi lặp lại cao. Một bộ gen tham chiếu không đầy đủ hoặc không chính xác có thể khiến các bài đọc không được căn chỉnh hoặc căn chỉnh sai vị trí, khiến các nhà nghiên cứu bỏ lỡ những người đóng góp di truyền tiềm năng cho bệnh tật. Một số nhà khoa học đưa ra giả thuyết rằng một bộ gen tham chiếu không đầy đủ có thể giải thích một phần lý do tại sao chúng ta vẫn không hiểu đầy đủ nguyên nhân di truyền của hầu hết các bệnh, ngay cả những bệnh rõ ràng có cơ sở di truyền, vì chúng rất thường được truyền từ cha mẹ sang con cái.
Ngoài ra, rõ ràng là một số khu vực nhất định của bộ gen người có sự đa dạng bộ gen cao cũng được phục vụ kém bởi bộ gen tham chiếu. Các khu vực này có mức độ thay đổi cấu trúc tăng cao — sự khác biệt trình tự phức tạp liên quan đến các đoạn DNA kéo dài — so với các vùng được bảo tồn nhiều hơn của bộ gen. Chúng có khả năng thay đổi cao đến mức không có chuỗi đơn lẻ nào có thể đại diện đầy đủ cho toàn bộ loài người. Nhiều trình tự khác nhau đến mức các thuật toán căn chỉnh không nhận ra chúng thuộc về bất kỳ nơi nào trong bộ gen tham chiếu. Trong các bản phát hành gần đây, GRC đã phân phối một số lượng nhỏ các chuỗi thay thế khác nhau cho các khu vực được nhắm mục tiêu, nhưng chúng không thường xuyên được sử dụng, một phần vì các công cụ gen chưa hoàn toàn bắt kịp.
Đưa các nhà khoa học vào nhiệm vụ tìm kiếm sự hoàn thiện bộ gen cuối cùng. Mục tiêu ban đầu: hoàn thành trình tự đầy đủ, telomere-to-telomere, của mọi nhiễm sắc thể của một bộ gen người duy nhất. Mục tiêu cuối cùng: xây dựng một bộ gen tham chiếu có thể nắm bắt sự biến đổi di truyền ở tất cả các vùng của bộ gen cho tất cả con người.
Trình tự Sanger mà HGP ban đầu chủ yếu dựa vào là một cách tốn nhiều thời gian và tài nguyên nhưng cực kỳ chính xác để xác định trình tự của một đoạn DNA dài tới khoảng 1,000 cơ sở. Trong hai thập kỷ sau HGP, một số phương thức giải trình tự khác nhau đã được phát triển (xem hình minh họa) và Telomere-to-Telomere (T2T) Consortium đã tận dụng công nghệ mới này để giúp cuối cùng hoàn thành trình tự bộ gen người của mỗi và mọi người trong số 23 nhiễm sắc thể được ghép nối của chúng tôi.
Hai trong số các phương thức mới này, trình tự đọc ngắn bằng cách tổng hợp và giải trình tự nanopore đọc dài, tỏ ra rất quan trọng đối với những nỗ lực lắp ráp ban đầu của T2T Consortium. Cả hai đều có thông lượng cao hơn nhiều so với trình tự Sanger hiện đã lỗi thời, nhưng mỗi cái đều có những hạn chế riêng. Trình tự đọc lâu có thể giải trình tự các đoạn DNA của hơn 10.000 bazơ, đơn giản hóa việc lắp ráp bộ gen nhưng có tỷ lệ sai số tương đối cao. Trình tự đọc ngắn có tỷ lệ lỗi rất thấp nhưng chỉ có thể giải trình tự 100 đến 500 cơ sở cùng một lúc. Sử dụng các bài đọc ngắn, câu đố bộ gen người 3 tỷ cặp cơ sở được xây dựng từ các chuỗi dài 150 cặp cơ sở có nghĩa là các nhà nghiên cứu đang làm việc với một câu đố 20 triệu mảnh ghép. Và nếu việc căn chỉnh với bộ gen tham chiếu đang ghép lại một câu đố với sự trợ giúp của bức ảnh trên hộp, thì việc lắp ráp bộ gen de novo đang cố gắng thực hiện một câu đố được mua tại một đợt bán hàng trong nhà để xe không đi kèm với hộp và thậm chí có thể không chứa tất cả các mảnh.
Một số vùng trong bộ gen có tính lặp đi lặp lại cao và khi những lần lặp lại này dài hơn các đoạn được giải trình tự, tất cả chúng đều không thể lắp ráp được. Hãy tưởng tượng nếu bầu trời xanh vững chắc đó được tạo thành từ hàng ngàn mảnh nhỏ. Ngoài ra, giải trình tự đọc lâu dẫn đến một câu đố có ít mảnh hơn - có lẽ bầu trời bây giờ phù hợp với một mảnh duy nhất - nhưng tỷ lệ lỗi của các đoạn đọc dài có nghĩa là các mảnh lân cận có thể không thực sự khớp với nhau. Đôi khi, các nhà nghiên cứu sử dụng sự kết hợp của cả công nghệ giải trình tự đọc dài và đọc ngắn để giải câu đố lắp ráp, với các lần đọc dài cung cấp một ý tưởng sơ bộ về các chuỗi trong từng vùng của bộ gen và các bài đọc ngắn làm mịn các lỗi.
T2T Consortium bắt đầu với mục tiêu lắp ráp nhiễm sắc thể X, nhiễm sắc thể giới tính xuất hiện trong một bản sao ở nam và hai ở nữ. Sử dụng trình tự đọc dài, các nhà nghiên cứu trước tiên đã phát triển một loạt các giàn giáo — những đoạn dài của chuỗi mà họ biết có lẽ dễ bị lỗi. Với sự trợ giúp của trình tự đọc ngắn, các nhà nghiên cứu đã sửa các lỗi trong mỗi chuỗi dài hơn đó. Sau đó, họ sử dụng ánh xạ quang học, có thể xác định khoảng cách bộ gen giữa các mô típ trình tự DNA ngắn trên cùng một nhiễm sắc thể, để tìm ra vị trí của từng mảnh ghép lớn. Đó là một quá trình lâu dài, lặp đi lặp lại liên quan đến nhiều công nghệ giải trình tự, quản lý thủ công và xác nhận lặp đi lặp lại lắp ráp. Nhưng vào năm 2019, T2T Consortium đã phát hành nhiễm sắc thể người được giải trình tự đầy đủ đầu tiên, lấp đầy 29 khoảng trống và 1,147,861 cơ sở trình tự.
Trước khi T2T Consortium tuân theo quá trình khó khăn tương tự để hoàn thành phần còn lại của nhiễm sắc thể, công nghệ giải trình tự đã thực hiện một bước nhảy vọt khác. Pacific Biosciences (PacBio) đã tinh chỉnh các thiết bị giải trình tự thời gian thực đơn phân tử (SMRT) của họ, sử dụng một enzyme polymerase được thiết kế để thêm các nucleotide được gắn thẻ huỳnh quang bổ sung vào một chuỗi mẫu DNA. Nó có thể giải trình tự các đoạn hơn 100 kb. Khi công ty sau đó đã phát triển một giao thức để khoanh tròn một chuỗi DNA và cho phép polymerase chạy qua một chuỗi duy nhất hàng chục lần để cải thiện đáng kể độ chính xác, điều đó đã làm mất đi chiếc bánh. T2T Consortium đã từ bỏ đường ống mà nó đã sử dụng cho cụm nhiễm sắc thể X và gần như hoàn toàn dựa vào công nghệ giải trình tự đọc lâu mới, có độ trung thực cao (HiFi) này.
Hiệp hội T2T đã lắp ráp phần còn lại của các nhiễm sắc thể bằng cách sử dụng dữ liệu giải trình tự HiFi hầu như độc quyền với sự trợ giúp của trình tự nanopore đọc cực dài (với các lần đọc gần với một megabase đầy đủ) để ghép lại với nhau một vài contigs phức tạp có chứa các chuỗi lặp đi lặp lại cao. Hầu hết các thuật toán lắp ráp trước đây hoạt động với các lần đọc ngắn hoặc các lần đọc dài dễ bị lỗi và họ thường từ bỏ việc lắp ráp các khu vực lặp đi lặp lại cao đó. Do đó, T2T Consortium đã phải phát minh ra các thuật toán lắp ráp mới có thể hoạt động với loại dữ liệu mới. Sự đổi mới của họ đã được đền đáp, và chưa đầy hai năm sau khi công bố trình tự của nhiễm sắc thể X, họ đã phát hành bộ gen đầy đủ của mình, lấp đầy 200 triệu cặp cơ sở của khoảng trống trong autosome và nhiễm sắc thể X của bộ gen tham chiếu của con người. Tổng cộng, cụm mới chứa 3,054,815,472 bazơ trải rộng trên 23 nhiễm sắc thể, cộng với 16,569 bazơ DNA ty thể.
Trong khi đột phá, lắp ráp T2T không hoàn hảo; vẫn còn một số khu vực có thể chứa các lỗi trình tự nhỏ. Quan trọng hơn nữa, cụm T2T là trình tự của chỉ một bộ gen duy nhất — và một bộ gen đồng hợp tử đồng nhất ở đó. T2T đã giải trình tự bộ gen từ CHM13, một dòng tế bào có nguồn gốc từ một quả trứng được thụ tinh bất thường có hai bản sao giống hệt nhau của mỗi nhiễm sắc thể thay vì bản sao mẹ và bản sao của mỗi nhiễm sắc thể mà tế bào người soma có. Nhờ CHM13, T2T không phải lo lắng về việc giải quyết các chuỗi khác nhau một cách tinh tế trên mỗi bản sao nhiễm sắc thể, nhưng đường ống lắp ráp của chúng vẫn chưa thể lắp ráp đầy đủ bộ gen từ các tế bào soma. (Điều này cũng có nghĩa là CHM13 không có nhiễm sắc thể Y, mặc dù T2T đã giải phóng sự lắp ráp sơ bộ của nhiễm sắc thể Y từ một dòng tế bào khác.) Hơn nữa, trong khi lắp ráp T2T sửa chữa một khía cạnh không hoàn chỉnh của bộ gen người, nó không giải quyết vấn đề rõ ràng khác gây khó khăn cho bộ gen tham chiếu của con người: đại diện cho sự đa dạng di truyền.
Cùng lúc với T2T Consortium đang làm việc để lắp ráp bộ gen người đầy đủ, các nhà gen đã bắt đầu tính đến sự thiếu đa dạng của lĩnh vực này. Phần lớn dữ liệu về bộ gen của con người đến từ những người tham gia ở Mỹ và châu Âu, với gần 80% người tham gia GWAS là người gốc Châu Âu tính đến năm 2018.
Có một số lý do cho sự thiên vị lấy mẫu này. Nhiều trung tâm giải trình tự lớn đầu tiên được đặt tại Châu Âu hoặc Hoa Kỳ. Ngoài ra, cách doanh nghiệp nghiên cứu bộ gen giao diện với những người tham gia nghiên cứu tiềm năng lựa chọn cho những người thuộc nhóm nhân khẩu học xã hội nhất định: Những người có thời gian và nguồn lực để tham gia vào các nghiên cứu di truyền quy mô lớn có nhiều khả năng đến từ các khu vực giàu có hơn trên thế giới hơn là từ các nước có thu nhập thấp và trung bình. Những yếu tố này cũng gây ra thành kiến lựa chọn ở Hoa Kỳ và Châu Âu, hạn chế sự tham gia vào nghiên cứu bộ gen của những người từ các cộng đồng ít được đại diện.
Làm trầm trọng thêm thiếu sót này, các nhà nghiên cứu thực hiện GWAS đã từng tìm kiếm các quần thể có ít biến thể di truyền tổng thể hơn. Việc thu thập dữ liệu bộ gen rất tốn kém và sử dụng các quần thể đồng nhất như vậy có nghĩa là sức mạnh thống kê được cải thiện. Trường hợp điển hình: Iceland, một trong những quần thể đồng nhất thế giới, là nơi sinh sống của ít hơn 0,1% dân số thế giới nhưng hơn 10% những người tham gia GWAS trên thế giới. Ở phía bên kia của quang phổ, những người có tổ tiên châu Phi, những người có một số bộ gen đa dạng nhất trên thế giới, trong lịch sử đã ít được đại diện trong các nghiên cứu về bộ gen.
Thật không may, sự thiên vị trong các nghiên cứu bộ gen đã dẫn đến việc xác định các loci liên quan đến bệnh chủ yếu cho các quần thể châu Âu. Chúng tôi có một sự hiểu biết không đầy đủ về cách thức hoặc liệu các biến thể tương tự này có tương tác với các cấu trúc di truyền nền khác nhau để gây bệnh hay không. Chúng ta cũng có thể bỏ lỡ cơ hội để xác định các biến thể liên quan đến bệnh hiếm gặp ở các quần thể châu Âu nhưng có thể phổ biến hơn ở những người thuộc các tổ tiên khác. Một số nhóm đã nhận ra tiềm năng của điều này dẫn đến sự bất bình đẳng trong y học chính xác và đã khởi động các dự án để giải trình tự bộ gen của các nhóm ít được đại diện hoặc đa dạng về mặt di truyền. Một số nhà nghiên cứu đã lập luận rằng sự giàu có của sự đa dạng di truyền ở châu Phi cung cấp một cơ hội tuyệt vời để hiểu mối quan hệ giữa sức khỏe con người và một lựa chọn to lớn các biến thể khác nhau. Do mô hình di cư của con người cổ đại, một người có nguồn gốc châu Phi chứa đựng một tập hợp các biến thể không chỉ rất khác so với những người trong dân số châu Âu, mà còn rất khác với một người gốc Phi khác. Nói một cách genomically, tổ tiên châu Phi cận Sahara và Bắc Phi khác nhau như tổ tiên châu Phi cận Sahara và Bắc Âu.
Tuy nhiên, việc thực hiện nhiều GWAS hơn trên các nhóm ít được đại diện không hoàn toàn giải quyết được vấn đề đa dạng của chúng tôi. GWAS vốn chỉ giới hạn ở các biến thể có thể được mô tả dưới dạng bộ gen tham chiếu. Nhiều nhóm tương tự có các biến thể chưa được GWAS nghiên cứu kỹ lưỡng cũng có các phần lớn bộ gen không tương ứng tốt với bất kỳ trình tự nào trên bộ gen tham chiếu. Sử dụng hơn 900 cá thể có tổ tiên châu Phi, một nghiên cứu đã xác định được gần 300 triệu cặp cơ sở — gần 10% chiều dài của bộ gen người — của trình tự DNA người mới không có trên bộ gen tham chiếu hiện tại. Các biến thể trong các khu vực này được hiển thị hiệu quả vô hình bằng cách sử dụng các phương pháp GWAS tiêu chuẩn.
Những phát hiện như vậy làm nổi bật một thực tế quan trọng về bộ gen tham chiếu. Ngay cả với một bộ lắp ráp gần như hoàn hảo như lắp ráp được sản xuất bởi T2T Consortium, vẫn còn những hạn chế đối với khả năng phục vụ như một tài liệu tham khảo cho toàn bộ loài. Một số vấn đề với bộ gen tham chiếu phát sinh không phải từ sự không chính xác trong quá trình lắp ráp, mà là từ việc sử dụng chính bộ gen tham chiếu số ít.
Một bộ gen tham chiếu duy nhất chỉ có thể đại diện — tốt nhất — một chuỗi bộ gen duy nhất từ quần thể. Sự không phù hợp giữa bộ gen được lấy mẫu và bộ gen tham chiếu dẫn đến một số vấn đề kỹ thuật được gọi chung là thiên vị tham chiếu. Có lẽ hình thức thiên vị tham chiếu nguy hiểm nhất phát sinh trong bước căn chỉnh của các thí nghiệm giải trình tự. Nếu trình tự bộ gen của mẫu không khớp với tham chiếu, độ chính xác của việc căn chỉnh đọc sẽ xuống cấp, với sự khác biệt lớn hơn dẫn đến sai số lớn hơn. Kết quả là các phân tích kém chính xác hơn một cách có hệ thống đối với các bộ gen khác với tham chiếu.
Thiên vị tham khảo có ý nghĩa đáng lo ngại. Cụ thể, nó có thể xây dựng các thành kiến dân tộc thành nền tảng của các phương pháp nghiên cứu bộ gen. Mặc dù mức độ của sai lệch tham chiếu khó đánh giá hơn so với độ lệch lấy mẫu của GWAS, nhưng nhiều chuyên gia trong lĩnh vực này nghi ngờ rằng nó là tinh tế nhưng phổ biến. Và không giống như thiên vị lấy mẫu GWAS, thiên vị tham chiếu không thể được giải quyết đơn giản bằng cách lấy mẫu đa dạng hơn của bộ gen. Thay thế bất kỳ bộ gen nào khác để làm trình tự tham chiếu sẽ dẫn đến sự sai lệch tham chiếu nhiều như bộ gen tham chiếu hiện tại. Đây là động lực cốt lõi đằng sau sự hình thành năm 2019 của Human Pangenome Reference Con người (HPRC), mà một trong số chúng tôi (J.E.) đã giúp phát triển các phương pháp tính toán.
HPRC có một phạm vi rộng lớn với mục tiêu cuối cùng là tạo ra một tài liệu tham khảo có thể sử dụng được bao gồm hầu hết các chuỗi DNA phổ biến ở loài người, cùng với bối cảnh của chúng trong bộ gen: một pangenome của con người. May mắn thay, những tiến bộ công nghệ tương tự đã cho phép lắp ráp bộ gen người T2T hiện đang phá vỡ các rào cản công nghệ đã hạn chế các dự án pangenome trước đó.
Các nhà khoa học đang làm việc trên bốn lĩnh vực chính song song để đạt được mục tiêu này. Đầu tiên, họ phải xác định những gì biến thể di truyền của con người tồn tại. Bởi vì biến thể lớn hơn gây ra sai lệch tham chiếu nghiêm trọng hơn, có một sự nhấn mạnh đặc biệt vào việc xác định các biến thể lớn, cấu trúc. Thứ hai, HPRC nhằm mục đích xây dựng các cấu trúc tham chiếu tổng quát hơn có thể thể hiện sự thay đổi này. Thứ ba, HPRC đang xây dựng một bộ công cụ cho phép pangenome tham chiếu được sử dụng trong các cài đặt thực tế. Cuối cùng, củng cố tất cả công việc này, có một nỗ lực phối hợp để xem xét các tác động đạo đức, pháp lý và xã hội của nghiên cứu, từ lấy mẫu cho đến phân tích và ứng dụng.
Sau con đường được trải nhựa bởi T2T và những nỗ lực quy mô nhỏ hơn để lập danh mục các biến thể cấu trúc của con người, HPRC đang tránh các phương pháp gọi biến thể dựa trên tham chiếu để ủng hộ việc lắp ráp bộ gen de novo bằng cách sử dụng công nghệ giải trình tự đọc dài. Để lấy mẫu từ dân số loài người toàn cầu, HPRC không thể tập trung vào một dòng tế bào đồng hợp tử duy nhất như T2T Consortium đã làm. Thay vào đó, nó phải thực hiện vấn đề thách thức hơn là lắp ráp bộ gen lưỡng bội, trong đó hai bản sao của mỗi nhiễm sắc thể khác nhau. Bởi vì cả hai bản sao đều rất giống nhau, có thể khó trêu chọc chúng ra xa nhau. Cho đến nay, HPRC đã giải quyết thách thức này bằng cách tập trung vào bộ ba mẹ-cha-con, trong đó hai bản sao của một đứa trẻ có thể được phân biệt bằng cách so sánh chúng với dữ liệu trình tự từ cha mẹ của chúng. Giai đoạn đầu tiên của nỗ lực lắp ráp bộ gen HPRC, hoàn thành vào năm 2021, đã tạo ra 45 trình tự bộ gen lưỡng bội và có kế hoạch lắp ráp 350 trình tự khi dự án hoàn thành trong vài năm tới.
Đại diện cho một pangenome tham chiếu được xây dựng với các dữ liệu này đòi hỏi một cấu trúc dữ liệu biểu cảm hơn một chuỗi đơn giản. Các lựa chọn thay thế phổ biến nhất bao gồm đồ thị pangenome toán học. Chúng được hình thành bằng cách hợp nhất trình tự được chia sẻ trên nhiều bộ gen. Cấu trúc kết quả có thể được mô tả bằng các nút đại diện cho các biến thể trình tự có trong bộ gen và các cạnh của một loài kết nối các chuỗi lân cận tiềm năng với nhau. Không giống như các bộ gen tham chiếu thông thường, đồ thị pangenome có thể phân kỳ và hội tụ lại xung quanh các vị trí biến thể, và chúng đủ biểu cảm để nắm bắt các vùng gen với sự thay đổi cấu trúc phức tạp. Bộ gen của một cá nhân có thể được mô tả bằng cách đi qua các nút thích hợp của biểu đồ như vậy.
Xây dựng đồ thị Pangenome hiện là một biên giới nghiên cứu trong tin sinh học. Các tài nguyên dữ liệu như bộ sưu tập các tổ hợp do HPRC sản xuất chỉ mới có sẵn và các công cụ để sử dụng chúng vẫn đang được phát triển. Bụi vẫn chưa giải quyết được cách tiếp cận nào sẽ hiệu quả nhất đối với ứng dụng nào, nhưng có lý do để hy vọng rằng sự thay đổi giữa các cá nhân sẽ sớm dễ dàng mô tả và thiên vị tham chiếu sẽ phần lớn là một vấn đề của quá khứ. Hiện tại, các ứng dụng ban đầu đang cho thấy những cải tiến so với trạng thái nghệ thuật đối với một số phân tích bộ gen.
Từ vị trí hiện tại của chúng ta, tương lai của bộ gen tham chiếu của con người có vẻ tươi sáng. Không chỉ có công việc của T2T Consortium đã mang lại cho nhân loại trình tự bộ gen người hoàn chỉnh hoàn chỉnh đầu tiên, công nghệ được phát triển trên đường đi đã mở ra những cánh cửa mới khi giải trình tự và tập hợp bộ gen từ các quần thể đa dạng. Bây giờ, các nhà bộ gen cần đảm bảo rằng sự đa dạng và hòa nhập đóng một vai trò lớn hơn trong bộ gen người so với những thập kỷ trước, một cái gì đó sẽ được tạo điều kiện bởi văn hóa hợp tác đa quốc gia do Dự án Bộ gen người đưa ra và tiếp tục bởi T2T, HPRC và các hiệp hội bộ gen toàn cầu khác. Với sự tham gia của các tổ chức và người tham gia đa dạng, chúng tôi hy vọng một ngày nào đó sẽ đưa ra một bộ gen tham chiếu đại diện cho không chỉ 3 tỷ cơ sở của người đàn ông bí ẩn của chúng tôi từ Buffalo, mà còn là bộ gen đầy đủ của đàn ông và phụ nữ từ Brazil, Burkina Faso, Belarus, Bhutan, Botswana, Belize, Bangladesh, và hơn thế nữa.
Brianna Chrisman là nghiên cứu sinh năm cuối tiến sĩ tại Khoa Kỹ thuật Sinh học tại Đại học Stanford. Jordan Eizenga là một nhà nghiên cứu sau tiến sĩ tại Đại học California, Santa Cruz, Viện Genomics và là thành viên của Human Pangenome Reference Consortium.
Sep 1, 2022