1300万人组成的系谱树告诉我们什么?

这棵系谱树从新的庞大资料集搜集而来,显示包含6000人在内的七个世代,其中以红色标示婚姻。 COURTESY COLUMBIA UNIVERSITY

这棵系谱树从新的庞大资料集搜集而来,显示包含6000人在内的七个世代,其中以红色标示婚姻。 COURTESY COLUMBIA UNIVERSITY

新系谱树的这个部分显示7万人经由婚姻(红色)与共同祖先相互连结。 COURTESY COLUMBIA UNIVERSITY

新系谱树的这个部分显示7万人经由婚姻(红色)与共同祖先相互连结。 COURTESY COLUMBIA UNIVERSITY


视频:系谱之外——你是谁?你的祖先从何而来?你的遗传系谱为何?基因地理计画(Genographic Project)旨在回答比这些更多的问题。该计画正在解开我们是谁以及我们如何相关联的谜题。

(神秘的地球uux.cn报道)据美国国家地理(撰文:NICOLE WETSMAN 编译:石颐珊):这棵由1300万人组成的系谱树告诉我们什么?首先,这棵新的树质疑用来解释人类为何不再近亲通婚的主流理论。

收存在系谱树分支里的资讯可以帮助人们了解祖先如何在世界上移动、他们的体质特征,甚至包括感染疾病的风险。

现在,科学家画出了一棵涵盖1300万人、跨越11个世代的巨大系谱树,试图从中解答人口相关的大哉问,从长寿的遗传率到整个家族在过去几世纪内如何散布与通婚等问题都包含在内。

纽约基因组中心(New York Genome Center)的资料科学家与计算生物学家雅尼夫.厄利希(Yaniv Erlich)说,这组新的庞大资料集是目前根据公开资料建立且经过科学验证的第一大系谱树。他的团队于3月初在《科学》(Science)期刊上发表了他们的研究。

这些资料很难使用,因为团队无法利用任何已经存在的研究方法。 「基因组资料集有特定的工具、资料结构、研究方法,但是这些资料完全没有类似工具,」厄利希说:「我们得边做边想办法。」

就现况而言,资料中的个人档案有地理限制,其中85%来自北美洲和欧洲。大体而言,确保如此庞大的资料集(特别是从独立个体收集而来的资料集)的精确性是一项挑战。任何从中获得的结论都应该被谨慎看待,波士顿大学公共卫生学院(Boston University School of Public Health)的生物统计学教授宝拉.塞巴斯蒂亚尼(Paola Sebastiani)说。

「从科学的角度看,必须有非常干净的资料才能生产非常好又可靠的科学发现。」塞巴斯蒂亚尼表示。不过她仍赞许研究团队验证与分析复杂资料的努力。 「他们所做的令人印象深刻。」

扩增系谱树

厄利希和他的团队使用从系谱网站Geni.com取得的资料来建立系谱树(厄利希现在是Geni.com的母公司MyHeritage的首席科学长)。团队从8600万份个人档案着手,删去明显不可能的资料——例如有人看似有三名亲生父母,或有人的双亲同时是他们的孩子。

将样本过滤为有效资料以后,他们得到530万棵系谱树,其中最大的即是由1300万人组成的资料集。

手动做出完整的系谱既耗时又困难,厄利希说,这也是为何群众外包的资料这么有价值。其资料来源的范围也比过去研究广:「(以前)通常使用特定地点的教会纪录。」厄利希说。

为了确认上传自己资料的人不只来自特定社会经济阶层,团队将资料和美国弗蒙特州(Vermont)的死亡证明做比对。资料集里大约有1000人的档案和弗蒙特州的纪录重叠,而且这千人囊括全州人口的特征。对研究团队而言,这显示他们的资料至少在该州大致反应出人口分布。

团队接着挑选关于寿命和家族散布的问题,用以测试系谱树的效用,厄利希说。首先,他们比较配偶之间出生地的距离以及两人所属家族跨世代的关系。 1650至1850年间,配偶之间平均都是三从表堂兄弟姐妹。

演化研究的各种理论认为,配偶之间的出生地距离愈远,彼此间的遗传关联度愈低。然而由于1800年代早期铁路旅行兴起,让1800至1850年间出生的配偶出生地距离变远,但血缘关系却更加相近。不过配偶之间的遗传相关性却在接下来几十年内下降了。

根据这些结果,研究作者认为遏止人们和表亲通婚的原因是文化变迁而非运输变迁,虽然作者群尚未能推测这些文化因素是什么。

解码长寿

研究团队也分析了资料集里(有明确出生和死亡日期的)300万对亲戚,以寻找长寿的模式。他们发现大约16%的长寿有遗传现象——比一般长寿研究采用的25%还要低了大约十个百分点。

但是专事长寿与老化研究的塞巴斯蒂亚尼说,不要过度诠释这个结论。 「长寿的定义相当纷乱。」她说。

如果广泛定义且只看活到8、90岁的人,确实通常会得出遗传影响有限的结果。然而,考虑超过100岁的人们,基因就成为显然更加重要的变因了,塞巴斯蒂亚尼说。但是活到这把岁数的人很少。

「这就是为什么用大数据研究长寿或许不是最好的方法。」她说。

最近Geni.com和MyHeritage建立了自己的DNA检测,厄希利说未来可以将用户经由检测产品提供的遗传资讯对应到既存的系谱资料。

此外,厄利希和他的团队建立的系谱树向大众公开,他也期待看到其他研究者利用这项资源来解答更多系谱及科学问题。

「我们希望大家使用它。」他说:「你可以研究地方性疾病、个别家族、人类学问题、生育率——这些资料都派得上用场。」




上一篇 下一篇 TAG: 人类