Ứng dụng Deep learning trong việc cải thiện phát hiện biến thể nhân quả/gây bệnh trong nghiên cứu GWAS
Phân tích fine mapping dựa trên mô hình Borzoi cải thiện việc phát hiện và ưu tiên biến thể nhân quả/gây bệnh trong các nghiên cứu GWAS
Trước đây mình có viết một bài blog về mô hình sequence-to-function dựa trên chuỗi DNA để dự đoán chức năng là AlphaGenome từ Google Deepmind và Calico Life Sciences, đã cho thấy tiềm năng của chúng trong việc dự đoán hàng loạt quá trình điều hòa gene. Đầu tuần vừa rồi, team này có công bố thêm một bài báo về ứng dụng của mô hình sequence-to-function cho di truyền quần thể (population genetics). Họ đưa ra giả thuyết rằng, liệu mô hình sequence-to-function có thể cung cấp thông tin chi tiết về sự liên quan của biến thể chức năng trong GWAS hay không?
1. Các khái niệm cơ bản:
Để hiểu rõ hơn bài này thì cần có hiểu biết một chút về GWAS và các khái niệm trong lĩnh vực này:
GWAS (Genome-Wide Association Study): là phương pháp thống kê khảo sát toàn bộ hệ gen của nhiều cá thể để phát hiện các biến thể di truyền liên quan đến một tính trạng hoặc bệnh cụ thể.
Mô hình sequence-to-function: là mô hình học máy nhận đầu vào là chuỗi nucleotide hoặc acid amin và dự đoán trực tiếp các đặc tính chức năng của chúng (như hoạt tính, độ bền, ái lực...). Các mô hình dựa trên DNA gần đây khá hot như AlphaGenome hay Borzoi.
Causal variant - biến thể nhân quả/gây bệnh: là biến thể (đột biến) trong DNA trực tiếp gây ra hoặc làm thay đổi đặc điểm hay bệnh lý quan sát được, chứ không chỉ đơn thuần liên quan về mặt thống kê.
Linkage disequilibrium (LD): là hiện tượng các alen ở những locus khác nhau liên kết không ngẫu nhiên, khiến tần suất xuất hiện của tổ hợp alen lệch khỏi giá trị mong đợi theo di truyền độc lập.
Fine mapping: trong GWAS là quá trình thu hẹp và xác định chính xác biến thể di truyền chịu trách nhiệm cho tín hiệu liên kết bệnh/tính trạng bằng cách phân tích chi tiết các biến thể và cấu trúc di truyền ở vùng liên quan.
Trong fine-mapping GWAS, prior causal probabilities là xác suất tiền nghiệm (dựa trên thông tin sinh học, vị trí gene, mô hình thống kê…) gán cho mỗi biến thể, phản ánh mức tin cậy ban đầu rằng biến thể đó chính là nguyên nhân gây ra tín hiệu liên kết quan sát được. Posterior inclusion probability (PIP) là xác suất hậu nghiệm rằng một biến thể di truyền cụ thể thực sự nằm trong tập biến thể nhân quả đối với tính trạng đang nghiên cứu, sau khi đã xét đến dữ liệu tương quan và mô hình thống kê.
SuSiE (Sum of Single Effects): là phương pháp finemapping Bayesian mô hình hoá tín hiệu di truyền như tổng các hiệu ứng đơn độc lập, từ đó tính xác suất hậu nghiệm mỗi SNP là nhân quả và xây dựng các credible set không chồng lấn.
PolyFun: là phương pháp fine-mapping gán cho mỗi biến thể xác suất gây bệnh dựa trên mô hình hóa di truyền đa thức của dị hợp xuất (per-SNP heritability) kết hợp chú giải chức năng, giúp khoanh vùng biến thể nhân quả chính xác hơn.
Polygenic Priority Score (PoPS) là chỉ số thống kê gộp tín hiệu GWAS đa gen cùng dữ liệu chức năng, biểu hiện, tương tác, tín hiệu, con đường sinh học… để xếp hạng và ưu tiên các gene có khả năng ảnh hưởng mạnh nhất đến tính trạng hoặc bệnh đang nghiên cứu.
Massively parallel reporter assays (MPRAs): là kỹ thuật functional genomics cho phép gắn nhãn hàng chục nghìn đoạn DNA vào một vector phóng tín hiệu chung nhờ giải trình tự song song, đồng thời định lượng mức độ hoạt động điều hòa (promoter/enhancer) của từng đoạn.
2. Đặt vấn đề
Các nghiên cứu GWAS đã xác định được hàng nghìn vùng liên kết với các tính trạng phức tạp ở người. Tuy nhiên, việc xác định chính xác biến thể nhân quả (causal variants) trong các vùng này vẫn là một thách thức lớn do trạng thái mất cân bằng liên kết (LD) và kích thước mẫu có hạn.
Mặc dù các phương pháp fine mapping theo hướng thống kê như SuSiE và PolyFun đã được phát triển để giải quyết vấn đề này, chúng vẫn còn hạn chế khi chỉ dựa vào các chú giải chức năng (functional annotations) truyền thống, vốn chỉ mang tính mô tả gián tiếp và có độ phân giải thấp. Đặc biệt, các chú giải này thường không phản ánh đúng tác động chức năng thực sự của biến thể, nhất là trong trường hợp nghiên cứu đặc trưng trong bối cảnh một loại mô/tế bào nhất định.
Trong khi đó, các mô hình học sâu mới như AlphaGenome hay Borzoi (phiên bản trước của AlphaGenome, tương tự) có khả năng dự đoán trực tiếp tác động của biến thể lên các hiện tượng sinh học phân tử như phiên mã, splicing, và biểu hiện gen ở cấp độ mô/tế bào từ chuỗi DNA đầu vào. Điều này mở ra cơ hội sử dụng các mô hình học sâu để làm rõ vai trò chức năng của biến thể trong GWAS.
3. Tóm tắt nghiên cứu
Bài báo giới thiệu Sniff, một phương pháp fine mapping mới trong các nghiên cứu GWAS, sử dụng mô hình học sâu Borzoi để cải thiện khả năng phát hiện và ưu tiên các biến thể di truyền có khả năng gây ảnh hưởng đến các tính trạng phức tạp ở người.
4. Phương pháp
Tác giả mô tả quy trình ba bước chính trong phương pháp Sniff, một hệ thống fine mapping sử dụng dự đoán từ mô hình học sâu Borzoi để cải thiện việc xác định các biến thể nhân quả trong GWAS.
(A) Dự đoán hiệu ứng biến thể từ Borzoi
Borzoi là một mô hình học sâu có khả năng dự đoán mức độ bao phủ của 7.611 track dữ liệu phiên mã và biểu hiện gen (bao gồm ChIP-seq, ATAC/DNase, CAGE, RNA-seq) với độ phân giải 32 bp.
Tác giả sử dụng Borzoi để tính variant effect predictions (VEPs) cho khoảng 19,53 triệu biến thể, bao gồm SNPs và indels.
Mỗi biến thể được biểu diễn bằng một vector có 7.611 giá trị, phản ánh mức độ ảnh hưởng của biến thể lên các dấu hiệu chức năng phân tử.
(B) Giảm chiều dữ liệu VEPs bằng PCA
Do số lượng track rất lớn, tác giả sử dụng Phân tích thành phần chính (PCA) riêng biệt cho từng loại assay (6 nhóm: ATAC, DNase, CAGE, ChIP, RNA-GTEx, RNA-ENCODE).
Giữ lại 5, 10, 15 hoặc số lượng PC đủ để giải thích 95% phương sai cho mỗi nhóm (tối đa 20 PC/nhóm), tạo ra các bộ đặc trưng mới gồm: 30, 60, 90 hoặc 102 đặc trưng (từ Borzoi-30 đến Borzoi-102).
Điều này giúp giảm nhiễu, tăng ổn định thống kê và giảm chi phí tính toán khi tích hợp vào mô hình fine mapping.
(C) Kết hợp với PolyFun và thực hiện fine mapping
Các PC từ Borzoi được tích hợp cùng 187 đặc trưng chú giải baseline-LF (chú giải chứng năng từ v2.2.UKB) trong công cụ PolyFun để tính toán xác suất tiên nghiệm (prior causal probabilities) cho mỗi biến thể.
Sau đó, tác giả sử dụng SuSiE để ước tính posterior inclusion probabilities (PIPs) dựa trên các prior đã tính.
Biến thể sẽ được phân tích trong các cửa sổ di truyền 3 Mb trên toàn bộ hệ gen, và PIP cuối cùng được lấy từ cửa sổ mà biến thể nằm ở vị trí trung tâm nhất.
5. Kết quả
Sniff xác định nhiều hơn 255 biến thể nhân quả so với phương pháp PolyFun (tăng 9.45% ở mức PIP > 0.8) trên 15 tính trạng từ UK Biobank. So với SuSiE-uniform (không dùng prior), Sniff xác định nhiều hơn 920 biến thể (+45.23%).
Sniff giúp tăng >2.5 lần khả năng phát hiện biến thể ảnh hưởng đến biểu hiện gen (emVars) so với biến thể đối chứng trong thí nghiệm MPRA. Sniff cũng ưu tiên các biến thể có hoạt động đặc hiệu mô phù hợp với sinh lý tính trạng (ví dụ: biến thể liên quan đến cholesterol có ảnh hưởng đặc hiệu gan).
Các gen được Sniff đề xuất được xếp hạng cao hơn bởi PoPS. Với GO enrichment, nó cho thấy các gene Sniff đề xuất liên quan chặt chẽ đến tính trạng sinh học (ví dụ: IL4R cho bệnh eczema, PKN2 cho huyết áp tâm trương).
Sniff cho phép truy vết nguồn gốc hiệu ứng biến thể thông qua motif điều hòa và dự đoán biểu hiện gen từ chuỗi DNA, nhờ mô hình Borzoi. Ví dụ: rs12041762 tạo motif GATA2 làm tăng H3K4me1 tại mô tim, rồi ảnh hưởng đến gen PKN2 (liên quan tới huyết áp).
6. Kết luận
Nhìn chung, mô hình sequence-to-function nếu làm tốt thì sẽ mang lại rất nhiều ứng dụng trong lĩnh vực genomics. Thay vì chỉ làm fine mapping, Borzoi/AlphaGenome có thể trở thành công cụ chuẩn để dự đoán chức năng biến thể, thiết kế thí nghiệm, xây dựng mạng lưới điều hòa, và cá thể hóa y học. Đối với Việt Nam, liệu chúng ta có thể fine-tuning mô hình này với dữ liệu riêng của Việt Nam. Hoặc áp dụng mô hình trên cho những bài toán downstream để tìm ra những đặc điểm riêng của người Việt Nam; giải thích rõ hơn các bệnh đặc biệt ở người Việt. Rất hy vọng có những nghiên cứu genomics cho người Việt và ứng dụng trong thực tiễn trong tương lai. Cảm ơn các bạn đã đọc.
Tham khảo
[1] https://www.biorxiv.org/content/10.1101/2025.07.09.663936v1.full.pdf
[2] https://www.nature.com/articles/s41588-024-02053-6
[3] https://www.nature.com/articles/s41588-023-01443-6
[4] https://www.nature.com/articles/s41588-020-00735-5