분자 바코드와 웹

소식

홈페이지홈페이지 / 소식 / 분자 바코드와 웹

Nov 10, 2023

분자 바코드와 웹

커뮤니케이션 생물학 볼륨

커뮤니케이션 생물학 5권, 기사 번호: 1411(2022) 이 기사 인용

1834년 액세스

1 인용

18 알트메트릭

측정항목 세부정보

전통적으로 환자의 여행 기록은 토착 말라리아 사례와 해외 유입 사례를 구별하는 데 사용되었지만 Plasmodium vivax의 휴면 간 단계는 이러한 접근 방식을 혼란스럽게 합니다. 분자 도구는 가져온 사례를 식별하고 매핑하는 대체 방법을 제공합니다. 21개국의 799개 P. vivax 게놈에 적용된 계층적 고정 지수 및 결정 트리 분석을 통합한 기계 학습 접근 방식을 사용하여 예측 능력이 높은 33-SNP, 50-SNP 및 55-SNP 바코드(GEO33, GEO50 및 GEO55)를 식별했습니다. 감염이 발생한 국가. 기존에 일반적으로 적용되는 38-SNP 바코드(BR38)에 대한 매튜스 상관 계수(MCC)는 62% 국가에서 0.80을 초과했습니다. GEO 패널은 GEO33의 90% 국가, GEO50 및 GEO55의 95% 국가에서 MCC 중앙값이 0.80을 초과하여 BR38보다 성능이 뛰어났습니다. 데이터 분석을 지원하기 위해 온라인, 개방형, 가능성 기반 분류자 프레임워크가 구축되었습니다(vivaxGEN-geo). SNP 선택 및 분류 방법은 말라리아 제어 프로그램을 지원하기 위해 다른 사용 사례에 맞게 쉽게 수정할 수 있습니다.

지난 3개의 세계 말라리아 보고서에서는 말라리아 사례가 충격적으로 증가했으며, 사하라 이남 아프리카 이외의 지역에서는 Plasmodium vivax로 인한 말라리아 비율이 증가하여 지난 10년 동안 전염을 줄이려는 공동 노력이 약화되었음을 밝혔습니다1. 이러한 추세는 새로운 감시 도구의 긴급한 필요성과 non-falciparum Plasmodium 종에 대한 더 큰 관심의 필요성을 강조합니다. 말라리아 통제에 대한 한 가지 특별한 과제는 이동성이 높은 인구이며, 이는 한 국가에서 다른 국가로 Plasmodium 분리물을 수입하게 하여 지역 통제 노력을 방해하고 발병 위험과 항말라리아제 내성 확산을 증가시킬 수 있습니다. 이러한 문제에 대응하려면 환자가 어디서 감염되었는지 확인하는 데 도움이 되는 도구를 개발하는 것이 중요합니다.

지역 감염과 해외 감염을 구별하는 것은 P. vivax의 경우 특히 어렵습니다. 기생충이 초기 감염 후 몇 주에서 몇 달 후에 재활성화될 수 있는 휴면 간 단계(최면체)를 형성하는 능력과 고도로 지속성, 비장 장애를 유발하는 능력을 고려할 때 특히 어렵습니다. 일상적인 진단을 피할 수 있는 저밀도 순환 혈액 단계 감염2,3,4. 한때 거의 제거되었던 P. vivax가 여러 지역에서 다시 출현한다는 사실은 부지런한 감시의 중요성을 강조합니다5,6. 낮은 풍토병 환경에서는 일반적으로 발생률이 감소함에 따라 유입된 사례의 상대적 비율이 증가하며, 특히 이 지역에서 유입된 P. vivax 사례를 식별할 수 있는 감시 도구의 중요성을 강조합니다5. 전통적으로 해외 사례는 환자 여행 이력에 대한 정보를 사용하여 식별되고 매핑되었지만 지속적인 비장 및 혈액 단계 감염과 늦은 재발로 인해 P. vivax에 대한 이러한 접근 방식의 정확성이 제한됩니다. 가져온 P. vivax 사례를 식별하고 매핑하는 분자 도구는 기존 역학 도구에 대한 매력적인 보완 기능을 제공합니다.

Amplicon 기반 시퀀싱은 말라리아 기생충의 표적 유전자형 분석에 선호되는 접근 방식이 되었습니다. 최신 세대의 Illumina 시퀀서와 같은 고도의 병렬 시퀀싱 플랫폼을 사용하면 앰플리콘 기반 시퀀싱을 높은 정확도와 감도로 보통에서 높은 처리량까지 적용할 수 있습니다. 이러한 플랫폼은 유연하여 SNP(단일 염기 다형성) 바코드를 반복적으로 향상할 수 있으며, 이는 인구 기반 분자 감시에 적합한 저렴한 유전형 분석 접근 방식을 제공할 수 있습니다.

이전 연구에서는 수입된 지역 P. vivax 분리주를 구별하기 위해 미토콘드리아 및 아피코플라스트 마커를 사용했지만 이러한 세포 기관 게놈의 분해능은 제한적입니다9,10,11. 2015년에는 일반적으로 Broad 바코드라고 하는 42개의 SNP로 구성된 패널이 기생충 지문 인식 및 지리적 할당을 용이하게 하기 위해 식별되었습니다12. 42-SNP Broad 바코드는 7개국의 13개 분리물에서 얻을 수 있는 게놈 데이터에서 파생되었으며 표적 유전자형 분석을 사용하는 여러 연구에 적용되었습니다12,13,14. 보다 최근의 연구에서는 17개국에서 분리된 433개 균주의 데이터를 사용하여 또 다른 P. vivax SNP 바코드를 확인했습니다15. 이 바코드는 또한 지문 인식과 지리적 할당을 모두 용이하게 하는 것을 목표로 했지만 이 바코드에 대한 실험적 분석은 사용할 수 없으며 in-silico 도구로만 남아 있습니다15. 또한 현재까지 말라리아에 대한 모든 지리적 바코드 연구는 원산지를 평가하기 위해 주성분 분석과 같은 시각적 방법에 의존해 왔습니다. 이 접근 방식에는 어느 정도 유용성이 있지만 다소 주관적이며 국립 말라리아 통제 프로그램(NMCP)과 같은 번역 최종 사용자의 요구를 충족시키지 못합니다. 이러한 플롯을 생성하고 해석하는 데 필요한 유전 역학 또는 생물정보학 기술이 없을 수 있습니다.

 0, minimum depth of 1 and minimum Minor Allele Count (MAC) of 2 to produce Dataset 0. The restriction to bi-allelic SNPs is a standard approach undertaken in malaria population genomics to simplify downstream computations and does not impose constraints on the analysis of polyclonal infections, which are still detectable through the composite of allelic variants across the respective SNPs (see27,28,29). Individual genotype calls were defined as heterozygotes based on an arbitrary threshold of a minor allele ratio > 0.1 and a minimum of 2 reads for each allele; all other genotype calls were defined as homozygous for the major allele. Dataset 0 was further filtered to exclude non-independent samples, defined arbitrarily as isolate pairs with genetic distance less than 0.001, resulting in 1,227 samples with 662,641 SNPs, denoted as Dataset 1. Dataset 1 was then subjected to iterative data quality filtering to derive the best representative number of samples and informative SNPs without any genotype missingness by iteratively removing samples with higher missingness and calculating the number of informative SNPs (defined as SNPs with MAC > = 2), from the remaining samples. Based on the plot of the result of this data quality filtering (Supplementary Fig. 1), we identified 826 samples and 229,317 SNPs to be included in Dataset 2. The isolates in Dataset 2 were initially assigned to country based on the available metadata, which was further evaluated using 1) country-level prediction using the BALK classifier against all 229,317 SNPs and 2) manual confirmation by constructing a neighbor-joining tree based on genetic distance. Isolates whose country assignment differed from the prediction result and that were not in the same country cluster as observed manually from the neighbor-joining tree were considered suspected imported infections and removed from the dataset to produce Dataset 3, comprising 799 samples and 229,317 SNPs. For comparative assessment of candidate SNP panels, a new dataset (Dataset 4) was produced which comprised the samples in Dataset 3, but only the SNPs selected by the consecutive SNP selection process (we refer to these SNP panels as GEO barcodes) and 38 assayable SNPs from a commonly used 42-SNP P. vivax barcode developed by the Broad institute12. The SNP panel comprising the 38 assayable Broad Institute barcode SNPs is referred to as BR38. The BR38 SNP panel was integrated in the study for evaluation on its own as well as in combination with the newly selected GEO SNP panels as it has been implemented in several countries./p>