Sequencing 101: Ploidy, Haplotypes, and Phasing – How to Get More from Your Sequencing Data
PacBio의 높은 정확도의 long read를 활용하면 polyploidy 및 heterozygosity 등으로 분석이 어려웠던 크고 복잡한 genome을 분석할 수 있습니다.
인간과 대부분의 다른 동물은 두 세트의 염섹체 (2배체, 2N)를 가지고 있으며, 많은 종의 식물은 더 높은 배수성 (예를 들어 캘리포니아 레드우드는 6 배체, 6N)을 가지고 있습니다.
염색체 쌍의 수는 유전체의 총 DNA 양뿐만 아니라 대립 유전자 등을 증가시켜 유전체의 복잡성을 증가시킵니다. 쌍을 이룬 염색체 사이의 대부분의 서열은 동일하지만 종 내 생물학적 변이의 폭을 제공합니다.
시퀀싱의 목표는 genome 전체 또는 관심 영역을 완전하고 정확하게 분석하는 것입니다. 이를 위해서는 염기 서열 뿐만 아니라 서열들의 공간적 위치(cis-, trans- position 정보)를 분석하는 것도 중요합니다.
HiFi read를 단독으로 사용하거나 Hi-C 및 Strand-seq와 같은 다른 기술과 결합하여 복합 사배체인 장미, 캘리포니아 레드 우드 등의 phased genome assembly를 생성 할 수 있었습니다. Phased genome은 각각 기능적으로 중요한 변이에 대한 새로운 시각을 제공하고 있습니다.