Estimating disease prevalence in large datasets using genetic risk scores

Evans, Benjamin D; Slowinski, Piotr; Hattersley, Andrew T; Jones, Samuel E; Sharp, Seth; Kimmitt, Robert A; Weedon, Michael N; Oram, Richard A; Tsaneva-Atanasova, Krasimira; Thomas, Nicholas J

s41467-021-26501-7.pdf (2.07 MB)

Estimating disease prevalence in large datasets using genetic risk scores

journal contribution

posted on 2023-06-10, 03:41 authored by Benjamin D Evans, Piotr Slowinski, Andrew T Hattersley, Samuel E Jones, Seth Sharp, Robert A Kimmitt, Michael N Weedon, Richard A Oram, Krasimira Tsaneva-Atanasova, Nicholas J Thomas

Clinical classification is essential for estimating disease prevalence but is difficult, often requiring complex investigations. The widespread availability of population level genetic data makes novel genetic stratification techniques a highly attractive alternative. We propose a generalizable mathematical framework for determining disease prevalence within a cohort using genetic risk scores. We compare and evaluate methods based on the means of genetic risk scores’ distributions; the Earth Mover’s Distance between distributions; a linear combination of kernel density estimates of distributions; and an Excess method. We demonstrate the performance of genetic stratification to produce robust prevalence estimates. Specifically, we show that robust estimates of prevalence are still possible even with rarer diseases, smaller cohort sizes and less discriminative genetic risk scores, highlighting the general utility of these approaches. Genetic stratification techniques offer exciting new research tools, enabling unbiased insights into disease prevalence and clinical characteristics unhampered by clinical classification criteria.

History

Publication status

Published

File Version

Published version

Journal

Nature Communications

ISSN

2041-1723

Publisher

Nature Research

External DOI

https://doi.org/10.1038/s41467-021-26501-7

Issue

1

Volume

12

Page range

1-12

Article number

a6441

Event location

England

Department affiliated with

Informatics Publications

Full text available

Yes

Peer reviewed?

Yes

Legacy Posted Date

2022-05-26

First Open Access (FOA) Date

2022-05-26

First Compliant Deposit (FCD) Date

2022-05-26

Usage metrics

Keywords

Algorithms Cohort Studies Computer Simulation Diabetes Mellitus Type 1 Type 2 Genetic Predisposition to Disease Humans Models Genetic Multifactorial Inheritance Polymorphism Single Nucleotide Prevalence Reproducibility of Results Risk Factors Sensitivity and Specificity

Licence

CC BY 4.0

Exports

RefWorks

BibTeX

Ref. manager

Endnote

DataCite

NLM

DC

Estimating disease prevalence in large datasets using genetic risk scores

History

Publication status

File Version

Journal

ISSN

Publisher

External DOI

Issue

Volume

Page range

Article number

Event location

Department affiliated with

Full text available

Peer reviewed?

Legacy Posted Date

First Open Access (FOA) Date

First Compliant Deposit (FCD) Date

Usage metrics

Categories

Keywords

Licence

Exports