Estimation of the Single Nucleotide Polymorphism (SNP) Effects for Milk Production Traits in Holstein Dairy Cattle

Review
최 성훈  Sung-Woon Choi1당 창권  Chang-Gwon Dang2박 경도  Kyung-Do Park1*

Abstract

This experiment was conducted to estimate the SNP effects for milk production traits by parity using a total of 506,481 test records from 293,855 heads of Holstein cows calved from 2002 to 2016 and the information on 41,837 SNPs from 2,007 heads. Most of the SNP effects for milk yield were distributed from –1 to +1 and most of the SNP effects for fat yield and protein yield were in the range of –0.04 ~ +0.04 and –0.03 ~ +0.03, respectively. For milk yields, the numbers of SNPs whose effects were more than 4 standard deviations in the first, second and third parity were 9, 11 and 11, respectively and the number of common SNPs whose effects were more than 4 standard deviations in all parity was 5. For fat yields, they were 14, 9 and 8, respectively in the first, second and third parity and the number of common SNPs whose effects were more than 4 standard deviations in all parity was 8. For protein yields, they were 9, 7 and 6, respectively in the first, second and third parity and the number of common SNPs whose effects were more than 4 standard deviations in all parity was 2. There was no common SNP with more than 4 standard deviations for milk, fat and protein yields. This might be due to the genetic composition differences among milk production traits.

Keyword



서론

DNA분석 기술의 발달과 단일염기다형성(Single nucleotide polymorphism, SNP) 칩의 분석비용이 감소되면서 젖소의 경제형질들에 대한 양적형질좌위(Quantitative trait locus, QTL) 및 Tagging SNPs에 대한 대한 발굴 연구는 꾸준히 이루어졌으나 주로 1차회귀식에 의한 유전체연관분석(Genome-wide association study, GWAS)이 주를 이루었다(Pryce et al., 2010; Jiang et al., 2010; Mai et al., 2010; Guo et al., 2012; Cho et. al., 2015).

VanRaden (2008)는 유전체 혈연계수행렬(Genomic relationship matrix, GRM)의 계산 알고리즘 및 유전체 육종가(Genomic expected breeding value, GEBV)를 추정하는 방법을 제시하였으며, Misztal 등(2009)은 기존 혈통정보와 유전체정보결합 알고리즘을 발표하였다. Liu 등(2014)은 SNP Single-step genomic model을 개발하여 분석모형에서 SNP 효과를 직접 추정 할 수 있는 방법을 제시하였으며, 이후 젖소의 유전체 선발 대한 많은 연구가 진행되었다(Winkelmal et al., 2015; Garcia-Ruiz et al., 2016; Jattawa et al., 2016; Nguyen et al., 2016). 따라서 본 연구의 목적은 국내 젖소집단의 산차별 유생산형질에 대한 SNPs의 효과를 추정하고 이들의 분포적 특성을 구명하는데 있다

재료 및 방법

유전체 자료

2013년부터 국내 보유 중인 동결정액 및 착유 중인 젖소에서 DNA시료를 채취한 후 BovineSNP50 BeedChip(Illumina, USA)을 이용하여 총 2,090두(씨수소: 507, 씨암소: 1,583)에 대한 50,908개의 SNP정보를 수집하였다.

유전체자료의 품질평가는 성염색체상에 존재하는 SNP(1,139개)와 염색체상의 위치정보가 확인되지 않은 SNP(536개)를 제거하고 총 49,233개의 SNP를 이용하여 품질평가를 실시하였다. 품질평가에서 각 SNP별 결측률이 10% 이상, 다형성이 없는 SNP(모두 동형이거나 이형인 경우), 소수대립유전자빈도가 1% 이하인 경우와 하디-와인버그평형(Hardy-Weinberg equilibrium) 검사에서 χ2 < 23.93 이상인 SNP(7,396개)는 삭제하였다. 또한 SNP의 결측률이 10% 이상인 개체들(83두)은 분석에서 제외하였으며, 품질평가 후 결측된 SNP 유전형은 Beagle genetic analysis software를 이용하여 결측값을 대체하였으며, 실제로 분석에 이용된 개체와 SNP의 수는 각각 2,007두와 41,837개였다

표현형 자료

농협중앙회 젖소개량사업소와 한국종축개량협회로부터 2002년 1월부터 2016년 12월 사이에 분만한 홀스타인 젖소 736,402두의 유생산형질에 대한 검정자료, 총 1,754,714개를 수집하였다. 원자료에서는 305일 누적 유량의 기록이 2,500kg 미만이거나 16,000kg 초과인 경우, 305일 누적 유지방량의 기록인 70kg 미만이거나 600kg 초과인 경우, 305일 누적 유단백량기록이 80kg 미만이거나 500kg초과인 경우와 분만산차 기록이 누락되거나 3산을 초과한 경우 검정자료는 제외되었다

또한 검정단위(목장-분만년도-계절)내 기록의 수가 5개 미만인 자료와 산차별 분만월령이 1산차(17~31개월), 2산차(31~45개월), 3산차(45~59개월)의 범위를 벗어나는 자료 및 1산차의 검정기록이 있는 개체들 중에서 검정단위(목장- 분만년도-계절) 내 기록 수가 5개 이하의 자료는 제외되었다. 따라서 실제로 분석에 이용된 자료는 젖소 293,855두의 유생산기록, 총 506,481개였으며, 자료의 분포 및 특성은 Table 1에 제시하였다.

통계적 방법

분석모형은 다산차 다형질(Multiple lactation model)을 이용하였고(Jamrozik et al., 2007), 고정효과에는 검정단위(목장-분만연도-분만계절)과 분만월령을 포함하였으며, 유량, 유지방량과 유단백량의 산차별 검정기록은 각각의 형질로 간주되었다. 따라서 산차별 유량, 유지방량과 유단백량에 대한 (공)분산성분과 유전체육종가는 유량, 유지방량과 유단백량별로 추정하였으며, 분석에 이용된 통계적 모형은 다음과 같다.

Table 1. No. of records (percentage), means and standard deviations for 305-days milk, fat and protein yields (kg) by parity

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/Table_jabg_03_02_02_T1.jpg

yi = Xibi + Ziai + ei

위에서, yi = i번째 산차의 검정기록, bi =i번째 산차의 검정기록에 대한 고정효과, ai = i번째 산차의 검정기록에 대한 개체의 상가적 유전효과, ei = i번째 산차의 검정기록에 대한 임의오차효과, Xi , Zi = i번째 산차의 검정기록과 관련된 빈도행렬이며, 산차간 대응관측치가 없기 때문에 오차 분산-공분산행렬에서 공분산값은 0가 된다.

위에서, yi = i번째 산차의 검정기록, bi =i번째 산차의 검정기록에 대한 고정효과, ai = i번째 산차의 검정기록에 대한 개체의 상가적 유전효과, ei = i번째 산차의 검정기록에 대한 임의오차효과, Xi , Zi = i번째 산차의 검정기록과 관련된 빈도행렬이며, 산차간 대응관측치가 없기 때문에 오차 분산-공분산행렬에서 공분산값은 0가 된다

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/19_00501.png

따라서 혼합모형방적식 (Mixed model equation, MME)은 다음과 같다.

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/19_00502.png

위에서, g11, g22= 유전분산, g12, g21=유전공분산, r11, r22= 오차분산, r12, r21=오차공분산,http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/19_00503.png혈연계수행렬의 역행렬, G − 1= 유전체관계행렬의 역행렬, A22 − 1=유전체정보가 있는 개체들에 대한 혈연계수행렬의 역행렬이다. 각 SNP 표지인자별 효과는 아래와 같이 GEBV의 역 연산방식을 통하여 추정할 수 있다.

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/19_00504.png

위에서, a^g는 유전체 육종가 벡터, Z는 SNP의 계수행렬, û는 SNP 효과벡터이다. 이를 분산의 식으로 변환하면 아래와 같다

G* = ZDZ′λ

위에서, D는 가중치 벡터이다. 위의 두 개 수식을 이용하여 아래와 같이 SNP효과에 대한 수식으로 변환할 수 있다.

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/19_00505.png

위에서, û= SNP 효과 벡터, $\widehat{a_{g}}$= 유전체 육종가 벡터, , Z= SNP와 관련된 계수행렬, D=가중치 벡터이다 (Wang et. al., 2014).

형질별 분산-공분산성분과 유전체 육종가는 Window 7 Ultimate K 운영체계의 Intel(R) CPU E5-2609 v3 @ 1.90GHz (2 processor, 128GB RAM) 컴퓨터를 이용하여 BLUPF90 family 프로그램(Misztal et. al, 2015)으로 추정하였다.

결과 및 고찰

환경효과

1) 검정단위 (목장-분만년도-계절

총 506,481개의 분석자료 내 목장의 수는 4,479개였으며, 목장별 평균 113개의 검정자료가 생성되었다. 분만 계절효과는 봄(3~5월), 여름(6월~8월), 가을(9월~11월), 겨울(12월~2월) 등 사계절로 구분하였고 목장-분만년도-계절의 수는 총 62,287개였으며, 검정단위의 평균 크기는 8.1개였다. 유생산형질에 영향을 미치는 목장-분만년도-계절 효과의 크기를 추정하기 위하여 Nested procedure(SAS 9.3)을 수행하였다.

유생산형질에 대한 목장의 효과는 전체 변이에 대하여 유량, 유지방량과 유단백량에서 각각 19.8%, 24.9%와 22.2%로 다른 효과들에 비하여 가장 크게 나타났으며, 분만연도의 효과는 11.2~13.8%의 범위를 나타내었다. 분만계절의 효과는 가장 작았으며, 4.3~4.4%의 범위를 나타내었다(Table 1). 유생산형질에 대한 검정단위의 효과는 전체 변이의 35.3~40.3%를 설명할 수 있는 가장 중요한 환경효과이다.

2) 분만월령

유량, 유지방량, 유단백량에 대한 분만월령의 1차와 2차 회귀계수는 모두 유의차 (P < 0.01)가 인정되었으며, 결정계수의 범위는 0.97~0.98이었다(Table 2).

유전모수

1산차의 유량, 유지방량과 유단백량에 대한 유전력은 각각 0.28, 0.26과 0.23으로 추정되었으며, 산차가 증가할수록 유전력은 감소하였으며(Table 3), 이러한 경향은 외국의 보고와 일치하였다(Powell과 Norman, 1981; Montaldo 등, 2010).

산차가 증가할수록 유전력이 감소하는 원인은 산차가 증가할수록 유전요인보다는 환경적 요인이 유생산형질에 더 많이 작용하기 때문이며, 유지방량이 유량과 유단백량에 비하여 2차산 이후부터 환경의 영향을 덜 받는 것으로 나타났다. 유량, 유지방량, 유단백량에서 산차간 유전상관계수의 범위는 0.85 ~ 0.99로 매우 높게 나타났으며, 표현형상관계수의 범위는 0.42 ~ 0.52로 유전상관계수보다 항상 낮게 나타났다. 이러한 결과는 외국의 보고와 일치하였다. 인터불 (2017)자료에 따르면 스페인 (유량 0.28, 유지방량 0.28, 유단백량 0.28), 독일(유량 0.37, 유지방량 0.36, 유단백량 0.35), 캐나다(유량 0.43, 유지방량 0.34, 유단백량 0.40), 체코(유량 0.39, 유지방량 0.38, 유단백량 0.37), 스위스(유량 0.55, 유지방량 0.47, 유단백량 0.51), 남아프리카공화국 (유량 0.18, 유지방량 0.11, 유단백량 0.14)으로 보고되었다.

Table 1. Percentages of the total variance in milk production traits (kg) accounted for by herd, year, season and error

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/Table_jabg_03_02_02_T1.jpg

Table 2. Linear and quadratic regression coefficients of month of age at calving for milk production traits (kg)

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/Table_jabg_03_02_02_T2.jpg

**P < 0.01.

Table 3. Heritabilities, standard errors, genetic and phenotypic correlations among parity in each trait

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/Table_jabg_03_02_02_T3.jpg

Diagonal: heritability, upper triangle: phenotypic, lower triangle: genetic correlation

Genome-wide association study (GWAS)

1) SNP 효과의 분포

BLUPF90 family 프로그램(Misztal et. al, 2015)의 ssBLUP(Single step best linear unbiased prediction)은 유전체 정보를 가진 개체의 표현형과 혈통정보만을 가지는 개체 모두의 표현형을 이용할 수 있기 때문에 한번의 분석을 통하여 기존 육종가(EBV)와 유전체 육종가(GEBV)를 동시에 추정해 낼 수 있으며, 역 연산방법을 통하여 SNPs 효과를 추정할 수 있다(Wang et. al., 2014), 산차별 유량, 유지방량과 유단백량에 대한 SNP(41,837개) 효과의 추정치 값은 각각 –1.61~1.48kg, -0.07~0.07kg과 –0.04~0.04kg의 범위를 나타내었으며, 1산차 유량에 대하여 추정된 SNPs 효과 값의 분포를 염색체별로 구분하여 Figure 2에 나타내었다.

또한 추정된 SNP 효과 값은 절대 값으로 변환한 후 감마분포의 모수 값을 이용하여 산차별 유량, 유지방량과 유단백량에 대한 SNP 효과 값의 크기별 분포를 제시하였다(Figure 3). 대부분의 SNPs 효과 값은 유량(0~1kg), 유지방량(0~0.5kg)과 유단백량(0~0.3kg)에서 매우 작은 값들이 대부분 분포하고 있었으며, 상대적으로 크기가 큰 SNPs는 소수만 존재하는 것을 확인할 수 있었다.

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/Figure_jabg_03_02_02_F2.jpg

Figure 2. Manhattan plots of SNP effects for milk yield (kg) by parity (1~3) (from top to low)

2) SNP 효과의 표준화

유량, 유지방량과 유단백량에 대하여 추정된 SNP 효과 값의 상대적 크기를 비교하기 위하여 SNP 효과 값을 표준화시킨 후 다시 절대 값을 취하였다(Figure 4). 정규분포에서 3×표준편차의 범위 내에서 SNP 추정치의 약 99.74%가 분포한다고 가정하고, 유용 유전자로서의 선별 기준점은 4×표준편차 이상으로 하였다.

유량에 대한 4×표준편차 이상의 값을 지닌 SNP의 수는 1산, 2산과 3산에서 각각 9개, 11개와 11개였다. 모든 산차에서 공통으로 4이상의 값을 나타낸 SNP의 수는 5개로 14번 염색체 3개(Hapmap30086-BTC-002066, Hapmap30646-BTC-002054, Hapmap26621-BTC-072953), 15번 염색체 1개(BTB-00582817), 19번 염색체 1개(Hapmap60292-rs29022330)였다 (Table 4).

유지방량에 대한 4×표준편차의 값을 지닌 SNP의 수는 1산, 2산, 3산에서 각각 14개, 9개와 8개였다. 모든 산차에서 공통으로 4이상의 값을 나타낸 SNP의 수는 8개로 2번 염색체 1개(ARS-BFGL-NGS-38368), 3번 염색체 1개(ARS-BFGL-NGS-5249), 7번 염색체 1개(BTB-00305676), 8번 염색체 1개(Hapmap40707-BTA-29831), 14번 염색체 3개(ARS-BFGL-NGS-57820, ARS-BFGL-NGS-4939, ARS-BFGL-NGS-103346), 15번 염색체 1개(Hapmap40965-BTA-37194) 였다 (Table 4).

유단백량에 대한 4×표준편차의 값을 지닌 SNP의 수는 1산, 2산과 3산에서 각각 9개, 7개와 6개였다. 모든 산차에서 공통으로 4이상의 값을 나타낸 SNP의 수는 2개로 2번 염색체 1개(ARS-BFGL-NGS-118956)와 25번 염색체 1개(ARS-BFGL-NGS-94143)로 나타났다(Table 4).

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/Figure_jabg_03_02_02_F3.jpg

Figure 3. Distribution of the estimated SNP effects for milk, fat and protein yields (from top to low) (kg) by parity (1~3) (from left to right).

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/Figure_jabg_03_02_02_F4.jpg

Figure 4. Manhattan plots of standardized SNP effects for milk, fat and protein (from left to right) yields (kg) by parity (1~3) (from top to low)

Table 4. Single nucleotide polymorphism (SNP) name, chromosome number (Chr.), position, SNP effect, and absolute standardized SNP effect of more than 4.0 SD value for milk, fat and protein yields (kg) by parity

http://dam.zipot.com:8080/sites/jabg/images/N0270030202_image/Table_jabg_03_02_02_T4.jpg

References

1 Cho KH, Oh JD, Kim HB, Park KD and Lee JH. 2015. Genome wide association studies using multiplelactation breeding value in Holsteins. Asian-Australas J. Anim. Sci. 28:328–333. 

2 García-Ruiz A, Cole JB, VanRaden PM, Wiggans GR, Ruiz-López FJ and Van Tassell CP. 2016. Changes in genetic selection differentials and generation intervals in US Holstein dairy cattle as a result of genomic selection. Proc. Natl. Acad. Sci. USA. 113(28):E3995-E4004. 

3 Guo J, Jorjani H, and Carlborg Ö. 2012. A genome-wide association study using international breedingevaluation data identifies major loci affecting production traits and stature in the Brown Swiss cattle breed. BMC Genet. 13:82. 

4 Jamrozik J, Schaeffer LR, Liu Z and Jansen G. 1997. Multiple trait random regression test day model for production traits. Interbull Bulletin 16:43-47. 

5 Jattawa D, Elzo MA, Koonawootrittriron S and Suwanasopee T. 2016. Imputation accuracy from low to moderate density single nucleotide polymorphism chips in a Thai multi breed dairy cattle population. Asian-Australas J Anim Sci. 29:464–470. 

6 Jiang L, Liu J, Sun D, Ma P, Ding X, Yu Y and Zhang Q. 2010. Genome wide association studies for milk production traits in Chinese Holstein population. PLoS ONE 5(10):e13661. 

7 Liu M, Goddard ME, Reinhardt F and Reent RA. 2014. Single-step genomic model with direct estimation of marker effects. J. Dairy Sci. 97:5833-5850. 

8 Misztal I, Legarra A and Aguilar I. 2009. Computing procedures for genetic evaluation 803 including phenotypic, full pedigree, and genomic information. J. Dairy Sci. 92:4648-4655. 

9 Misztal I, Aguilar I, Legarra A and Vitezica Z. 2015. Manual for BLUPF90 family programs. University of Georgia, Athens, USA 

10 Dereeper A., Guignon V., Blanc G., Audic S., Buffet S., Chevenet F., Dufayard J.F., Guindon S., Lefort V., Lescot M., Claverie J.M., and O. Gascuel (2008). Phylogeny.fr: robust phylogenetic analysis for the nonspecialist. Nucleic Acids Res. 2008 Jul 1;36 (Web Server issue):W465-9. Epub 2008 Apr 19. (PubMed). 

11 Mai MD, Sahana G, Christiansen FB and Guldbrandtsen B. 2010. A genome-wide association study for milk production traits in Danish Jersey cattle using a 50K single nucleotide polymorphism chip. J. Anim. Sci. 88:3522-3528 

12 Nguyen TTT, Bowman PJ, Haile-Mariam M, Pryce JE and Hayes BJ. 2016. Genomic selection for tolerance to heat stress in Australian dairy cattle. J. Dairy Sci. 99:2849-2862. 

13 Pryce JE, Bolormaa S, Chamberlain AJ, Bowman PJ, Savin K, Goddard ME and Hayes BJ. 2010. A validated genome-wide association study in 2 dairy cattle breeds for milk production and fertility traits using variable length haplotypes. J. Dairy Sci. 93:3331-3345. 

14 VanRaden PM. 2008. Efficient methods to compute genomic predictions. J. Dairy Sci. 91:4414-4423. 

15 Wang H, Misztal I, Aguilar I, Legarra A, Fernando RL, Vitezica Z, Okimoto R, Wing T, Hawken R and Muir WM. 2014. Genome-wide association mapping including phenotypes from relatives without genotypes in a single-step (ssGWAS) for 6-week body weight in broiler chickens. Front Genet. 5:134. 

16 Winkelman AM, Johnson DL and Harris BL. 2015. Application of genomic evaluation to dairy cattle in New Zealand. J. Dairy Sci. 98:659-675.