An efficient CRISPR-Cas9 enrichment sequencing strategy for characterizing complex and highly duplicated genomic regions - 리뷰 및 분석
이번 리뷰에서는 Fiol 외 연구진이 발표한 논문 "An efficient CRISPR-Cas9 enrichment sequencing strategy for characterizing complex and highly duplicated genomic regions. A case study in the Prunus salicina LG3-MYB10 genes cluster"를 다룹니다. 본 논문은 유전자 중복과 구조적 변이로 인해 분석이 어려운 식물 유전체 영역, 특히 일본 자두(Prunus salicina)의 LG3 염색체에 존재하는 MYB10 유전자 클러스터에 대해 새로운 시퀀싱 전략을 제시합니다. 기존의 전장 유전체 시퀀싱으로는 해결하기 어려운 복잡한 구조를 가지는 영역을 타겟으로, CRISPR-Cas9 시스템을 이용해 관심 영역을 선택적으로 절단하고, 이를 롱리드 시퀀싱 기술인 Oxford Nanopore와 결합하여 고정확도 데이터 확보를 목표로 하였습니다. 이 리뷰에서는 이 방법의 원리, 실험 설계, 주요 결과, 그리고 식물 육종 및 유전체 연구에의 응용 가능성에 대해 상세히 살펴봅니다.
연구 배경 및 중요성
농업에서 중요한 형질은 종종 유전체 내 중복된 유전자 영역이나 복잡한 구조적 변이에 의해 조절되며, 이는 전통적인 유전체 분석 방법으로는 해결이 어렵습니다. 특히 식물은 전장 유전체 중복(whole genome duplication, WGD) 및 유전자 클러스터를 다수 가지고 있으며, 이러한 요소는 품종 간 유전자 변이성에 큰 영향을 미칩니다. 일본 자두 LG3에 위치한 MYB10 유전자 클러스터는 과피 색소(anthocyanin) 형성과 관련된 주요 유전자로, 다양한 품종 간 유전자 복제, 삭제, 삽입 등의 변이가 보고되고 있습니다. 이러한 복잡한 유전자 영역을 정확히 분석하고 변이를 파악하는 것은 식물 육종에 매우 중요합니다.
연구 목적 및 배경
본 연구의 목적은 다음과 같습니다: (1) MYB10 유전자 클러스터에 위치한 고도로 복잡하고 중복된 영역의 유전적 변이를 식별하는 새로운 시퀀싱 전략을 개발하고, (2) 이를 일본 자두의 다섯 개 품종에 적용하여 SNP, InDel 및 구조적 변이(SV)를 효율적으로 탐지하며, (3) 참조 유전체가 없는 경우에도 활용 가능한 방법론으로써 그 유용성을 평가하는 것입니다. 이를 위해 Cas9 효소와 gRNA를 이용하여 해당 영역을 절단하고, MinION 플랫폼을 이용한 long-read sequencing을 통해 높은 정확도의 변이 분석을 수행하였습니다.
연구 방법
- PsMYB10.1, PsMYB10.2, PsMYB10.3 유전자의 보존된 부위에 대해 7개의 crRNA 설계
- 5개 품종의 DNA를 각각 Cas9 RNP 복합체로 절단하고 바코딩 처리
- MinION 시퀀서를 이용한 단일 시퀀싱 런 수행
- ‘Sanyueli’, ‘Zhongli No. 6’ 유전체를 참조하여 시퀀싱 데이터 정렬 및 변이 호출
- de novo assembly 및 상동성 분석을 통해 변이 확인
crRNA는 각 유전자의 엑손 및 인트론에 걸쳐 설계되었고, 두 개의 추가 crRNA는 타겟 영역 양 끝에 위치한 유전자에 부착되었습니다. 이렇게 생성된 RNP는 품종별로 절단 후 바코딩되어 단일 런으로 시퀀싱되었습니다. 시퀀싱 후 alignment, variant calling, de novo assembly가 수행되었습니다.
주요 발견 및 결과
시퀀싱을 통해 총 194Mb의 데이터가 생성되었으며, 각 품종에 대해 평균 11.9배의 깊이로 타겟 영역을 커버하였습니다. 총 3261개의 SNP와 287개의 구조적 변이가 발견되었고, 이들 중 상당수는 새로운 변이였습니다. 특히, MYB10.1a 프로모터 내 44bp 삽입은 붉은 과피 색과 관련된 변이로 확인되었고, 8bp 삽입과의 상동적 존재는 해당 유전자의 기능 상실을 의미했습니다. de novo assembly를 통해 H1–H6 및 H9까지 총 7개의 haplotype을 식별하였으며, 상호간 상동성 비교를 통해 품종 간 유전적 다양성을 명확히 밝혀냈습니다.
실험 결과 요약
| 품종 | 시퀀싱 수율 | 평균 리드 길이 | 평균 깊이 (‘Sanyueli’ 기준) | 발견된 SNP 수 | 구조적 변이 수 |
|---|---|---|---|---|---|
| Angeleno | 38.85Mb | 7777bp | 12.2x | – | 72 |
| Black Gold | 45.64Mb | 4109bp | 19.1x | – | 63 |
| Fortune | 29.32Mb | 5412bp | 23.2x | – | 68 |
| Golden Japan | 34.98Mb | 6908bp | 2.0x | – | 30 |
| TC Sun | 45.27Mb | 6275bp | 29.1x | – | 54 |
Golden Japan 품종은 낮은 깊이로 인해 일부 변이 탐지가 제한적이었으며, ‘TC Sun’은 가장 높은 커버리지를 보였습니다. SV의 유형으로는 breakend, deletion, insertion, duplication, inversion이 포함되었습니다.
한계점 및 향후 연구 방향
본 전략은 참조 유전체 없이도 복잡한 유전자 클러스터의 분석을 가능하게 하지만, crRNA 절단 위치가 겹치지 않아 조립 완성도가 제한될 수 있습니다. 또한 ONT 기술의 고질적인 오류율과 sequencing clipping 현상은 정밀한 분석에 영향을 미칩니다. 향후에는 서브풀 단위로 crRNA를 분리하여 조립 성능을 높이거나, 메틸레이션 분석 기능과 결합하여 기능적 변이 분석까지 확장할 수 있을 것입니다.
결론
본 논문은 CRISPR-Cas9 선택적 절단 기술과 롱리드 시퀀싱을 결합한 방법이 복잡하고 고다형성 유전자 영역 분석에 매우 효과적임을 입증하였습니다. 특히, MYB10 유전자 클러스터에서의 유전적 다양성과 구조적 변이 탐색은 향후 식물 육종 및 유전체 진화 연구에 중요한 기초 자료가 될 것입니다. 이 방법은 참조 유전체가 부족하거나 타겟 유전체 내 변이가 많은 작물에서 유용한 도구로 자리매김할 수 있습니다.
개인적인 생각
이 연구는 실질적인 식물 유전체 분석의 난제를 해결하는 데 중요한 돌파구를 마련했다고 생각합니다. 특히, 유전자 중복과 변이가 집중된 영역에 대한 고정확도 분석을 가능케 했다는 점에서 큰 의의를 가집니다. 단일 런으로 다양한 품종을 처리할 수 있는 경제성, 중복 유전자 간 구분이 가능한 정밀도, 그리고 참조 유전체 없이도 분석이 가능하다는 유연성은 향후 다양한 작물에서 적용 가능한 범용성을 시사합니다. 다만 기술적 완성도를 높이기 위한 후속 연구도 필요하며, 메틸레이션 등 후성유전학적 분석과 결합된 통합 분석 플랫폼 개발이 기대됩니다.
자주 묻는 질문(QnA)
- Q1: CRISPR-Cas9 enrichment 시퀀싱이란 무엇인가요?
A1: 관심 있는 유전체 영역만 선택적으로 절단하고 시퀀싱하는 기술로, 시퀀싱 비용을 절감하고 복잡한 영역의 분석을 가능하게 합니다. - Q2: MYB10 유전자는 어떤 역할을 하나요?
A2: 과피의 색소 형성, 특히 anthocyanin 생합성과 관련된 전사인자를 코딩합니다. - Q3: 왜 롱리드 시퀀싱이 필요한가요?
A3: 유전자 중복, 삽입, 삭제와 같은 구조적 변이를 정밀하게 분석하기 위해서는 긴 리드가 필요합니다. - Q4: crRNA는 어떤 기준으로 설계되나요?
A4: 유전자 내 보존된 엑손과 인트론 부위를 중심으로 on-target 효율이 높은 서열을 선택합니다. - Q5: off-target 효과는 없었나요?
A5: 설계 시 보존 유전자 분석과 BLAST로 off-target 가능성이 낮은 서열을 선별하였습니다. - Q6: 본 전략을 다른 식물에도 적용할 수 있나요?
A6: 참조 유전체가 없는 작물에도 적용 가능하여 다양한 작물 육종 연구에 응용될 수 있습니다.
용어 설명
- CRISPR-Cas9: 유전자를 정밀하게 절단하여 편집할 수 있는 유전자 가위 기술
- Enrichment: 관심 있는 유전체 영역만 선택적으로 시퀀싱하기 위한 전처리 과정
- Long-read sequencing: 긴 DNA 조각을 읽어내는 시퀀싱 기술로, 구조적 변이 분석에 적합
- Structural Variants (SV): 유전체 내 크고 복잡한 변이로, 삽입, 삭제, 역위 등이 포함됨
- MYB10: anthocyanin 색소 합성을 조절하는 전사인자 유전자
- gRNA/crRNA: Cas9이 표적 DNA를 인식하도록 안내하는 RNA
- Nanopore sequencing: Oxford Nanopore 기술 기반으로 DNA를 실시간으로 시퀀싱하는 방법
- Haplotype: 한 개체가 가진 유전자나 염기서열 조합을 의미하며, 품종 특성 분석에 유용함
- de novo assembly: 참조 유전체 없이 시퀀싱 데이터만으로 유전체 서열을 구성하는 방법
- On-target rate: 설계된 타겟 영역에 정확히 절단 및 시퀀싱이 일어난 비율
댓글