GO(Gene Ontology)는 Gene Ontology Consortium이 구축한 데이터베이스로, 다양한 종에 적용 가능한 유전자 및 단백질 기능을 정의하고 기술하며, 연구가 진행됨에 따라 지속적으로 업데이트되는 의미론적 어휘 표준을 만드는 것을 목표로 합니다. 이 표준은 다양한 종에 적용될 수 있습니다. 유전자 및 단백질이 세포 내에서 수행하는 역할을 설명하기 위해 동적 형식의 제어 어휘 집합(Controlled Vocabulary)을 작성하여 생물체 내 유전자 및 유전자 산물의 속성을 포괄적으로 설명합니다. GO 데이터베이스는 세 가지 주요 범주로 구성되어 있으며, 각각은 생물학적 과정(Biological Process, BP), 세포 구성 요소(Cellular Component, CC), 분자 기능(Molecular Function, MF)입니다. 각각 유전자 산물이 수행할 수 있는 분자 기능, 위치한 세포 환경 및 참여하는 생물학적 과정을 설명합니다. GO 데이터베이스의 기본 개념은 노드입니다. 각 노드에는 'Cell', 'Fibroblast Growth Factor Receptor Binding' 또는 'Signal Transduction'과 같은 이름이 있으며, 'GO:nnnnnnn'과 같은 고유 번호가 있습니다. 식별된 단백질 ID에 기반하여 Uniprot 데이터베이스에서 단백질의 GO 데이터베이스 주석 정보를 매핑 방식으로 얻어 단백질의 기능을 분류하고 주석합니다. BP, CC, MF에 관련된 GO 노드에 대해 모든 해당 단백질 수를 나열하고, 각각의 표현 단백질의 2차 분류 상태에 대한 통계 차트를 작성합니다.
1. GO 2차 분류 통계 차트
차트1 차별적으로 발현된 단백질의 GO 2차 주석
주: 가로 축은 GO 분류를 나타내고, 세로 축 왼쪽은 단백질 수의 백분율, 오른쪽은 단백질 수를 나타냅니다. 이 차트는 차별적으로 발현된 상향 조절 단백질과 하향 조절 단백질의 GO 각 2차 기능의 단백질 풍부도를 보여주며, 두 조절 방향에서 각 2차 기능의 위치를 나타내며, 뚜렷한 비율 차이가 있는 2차 기능은 차별적으로 발현된 상향 조절 단백질과 하향 조절 단백질의 풍부도 경향이 다름을 설명하며, 이 기능이 차이와 관련이 있는지에 대한 집중 분석을 가능하게 합니다.
2. GO 레벨 분류 통계 차트
다양한 레벨에서 GO 노드에 주석된 단백질 수에 따라 상위 20개의 GO 노드를 선택하여 표시합니다, 차트에 나와 있는 것처럼:
차트2 단백질의 다양한 레벨에서의 주석 결과 통계 차트
주: 가로 축은 단백질의 백분율을 나타내고, 세로 축은 레벨별로 작은 것에서 큰 것으로 정렬됩니다. 서로 다른 레벨은 서로 다른 색상으로 표시되며, 각 막대 뒤의 숫자는 해당 분류의 단백질 수를 나타냅니다.
3. topGO 단백질 풍부도 분석
Biotime Pack은 topGO를 사용하여 차별적으로 발현된 단백질의 풍부도 분석을 수행하여, 차별적으로 발현된 단백질이 GO 노드에서의 풍부도 유의성을 얻을 수 있습니다. 유의하게 풍부한 노드는 GO 시스템 내의 계층 관계를 방향성 비순환 그래프(DAG) 형태로 시각적으로 표시합니다. topGO 방향성 비순환 그래프는 차별적으로 발현된 유전자의 풍부한 GO 노드(용어) 및 그 계층 관계를 직관적으로 보여주며, 가지는 포함 관계를 나타내며, 위에서 아래로 정의된 기능 설명 범위가 점점 더 구체적입니다. 방향성 비순환 그래프에서 화살표는 포함 관계를 나타내며, 즉 해당 노드의 모든 유전자는 상위 노드에도 주석됩니다.
차별적으로 발현된 단백질의 topGO 분자 기능 방향성 비순환 그래프는 다음과 같습니다:
차트3 차별적으로 발현된 단백질 topGO 풍부도 방향성 비순환 그래프(분자 기능)
주: 각 GO 노드에 대해 풍부도를 계산하며, 차트에서 상위 10개의 유의미한 노드를 사각형으로 나타내며, 차트에는 각 계층의 대응 관계도 포함되어 있습니다. 각 사각형(또는 타원)에는 해당 GO 노드의 내용 설명과 풍부도 유의성 값이 포함되어 있습니다. 서로 다른 색상은 서로 다른 풍부도 유의성을 나타내며, 색상이 진할수록 유의성이 높습니다.