Database Lab.
지도교수

윤지희
- 학위 : 한양대학교 공학사, 규슈대학교 공학석사, 규슈대학교 공학박사
- 경력 : UCLA 방문교수
- 교육분야 : 데이터베이스/파일처리론
- 연구분야 : Database, Data Mining, Bio Informatics, Cloud Computing
- 이메일 : jhyoon@hallym.ac.kr
- 연구실 : 성호관 A1307호
- 실험실 : 성호관 1314-1호
차세대 시퀀싱 데이터 분석 기술
유전 정보 소개
- DNA(Deoxyribo Nucleic Acid)
- Nucleotide라는 단위 물질이 연결된 집합체
- 세포 내에서 생물의 유전 정보를 보관하는 물질
- 이중나선구조 : 두 가닥의 사슬이 꼬여 연결
- Gene(유전자)
- DNA염기 배열의 특정 영역, 단백질 합성의 유전정보
- 유전자의 차이로 다양한 단백질이 합성
- RAN(Ribo Nucleic Acid)
- Nucleotide 가 Ribose를 기반으로 이루어진 백신의 한 종
- 하나의 나선이 길게 꼬여 있는 구조로 DNA의 일부가 전사되어 만들어짐
- Chromosome(염색체)
- 세포의 핵 속에서 DNA가 존재하는 형태
- Genome
- Gene + Chromosome, 한 생물체가 지는 모든 유전정보의 집합체
차세대 시퀀싱(Next Generation Sequencing : NGS) 기술
- 유전정보를 지닌 혈액과 같은 샘플로부터 시퀀싱 장비를 통해 서열 정보를 읽어오는 방법
- 생성되는 정보는 짧게는 수십 bp에서 길게는 수백 bp이상의 크기를 갖는 대량의 DNA, mRNA 서열정보인 리드들로 구성
- 생물 정보학
- 인간 유전체 분석을 정밀한 수준까지 가능

NGS 데이터를 이용한 분석법
- Sequence Assembly
- In bioinformatics, sequence assembly refers to aligning and merging fragment of a much longer DNA sequence
- 시퀀싱의 발달로 인해 수많은 시퀀싱 데이터가 축적
- 대량의 시퀀싱 데이터를 통해 Assembly가 가능
- Reference Assembly, De-novo Assembly로 구분
- 데이터의 관리와 분석 과정의 컴퓨팅 파워의 문제 발생
NGS 데이터를 이용한 분석법
- Reference Assembly
- 기존의 reference sequence와 비교하여 read들을 유사한 영역에 맵핑
- Variation 및 Eplgenetics 연구에 주로 이용
- 비교적 적은 컴퓨팅 파워를 요구하여 다양한 연구가 진행
- De-novo Assembly
- Read의 유사한 영역을 이어붙여 점차적으로 긴 서열을 만드는 방법
- 기존에는 BAC library를 이용한 샷건 시퀀싱을 이용
- Whole geneme sequencing에 이용
- 높은 컴퓨팅 파워를 요구해 미생물을 제외한 대부분의 종에서의 assembly가 힘듬
유전자 변이 연구
- Reference sequence에 맵핑과 정렬을 통해 비교 분석하여 SNP, CNV등의 변이를 검출
- 시퀀싱 데이터가 많을수록 통계적으로 안정적이고 명확한 변이를 분석 할 수 있기 때문에 NGS가 적합
- SNP(Single Nucleotide Polymorphism)
- 단일염기 다형성, 유전체 상에 가장 많이 존재하는 형태
- 유전체상의 특정 염기서열 하나의 변화
- CNV(Copy Number Variation)
- Reference 유전체와 비교해 copy number(유전자 복제)의 차이를 보이는 1kbp 이상의 DNA 조각
- 양이나 많은 질병 감수성과 연관 가능성이 높아 많은 연구가 진행
시퀀싱 데이터 분석 툴 제작
- 시퀀싱을 통해 사람의 30억 bp의 시퀀스가 짧은 시퀀스 조각으로 산출
- 시퀀싱 데이터를 통해 사람의 유전적 변이를 판별하기 위한 툴 제작


RNA-seq 데이터 분석 툴 제작
- 차세대 시퀀싱 기술을 통해 RNA, Exon 시퀀싱 데이터를 산출
- RNA 시퀀싱 데이터를 통해 coverage 데이터, SNP, Indel 등 의 유전체 변이 정보를 추출하고 추출된 분석 데이터를 유전자 또는 Exon 비교 분석하는 툴을 제작

클라우드 컴퓨팅기술을 이용한 바이오 정보 처리
- 클라우드 컴퓨팅
- 네트워크상에 다수의 컴퓨터들의 리소스들을 가상화 기술로 통합/제공하는 기술
- 하돕(HAdoep) : 대량의 자료를 처리할 수 있는 분산 응용프로그램을 지원하는 오픈 소스 프레임워크, Map/Reduce 모델 제공
- Map/Reduce : Key/Value 창으로 표시할 수 있는 데이처를 병렬처리

- 클라우드 컴퓨팅 기술을 활용한 변이 검출


연구 내용
- 시퀀스 검색을 통한 유전자 변이 검색
- RNA-Seq 데이터 분석 툴 제작
- 클라우드 컴퓨팅기술을 이용한 바이오 정보 처리
- De-novo Assembly를 이용한 분석
최근 연구 논문
- "Shape-based retrieval of CNV regions in read coverage data" International Journal of Data Mining and Bioinformatics, 2012.
- "Extraction of Informative Genes from Multiple Microarray Data Integrated by Rank-Based Approach," IEICE Transaction on Information and Systems, Vol. E94-D, pp. 841-84, No.4, April 2011