Epona科学

Summary

Epona科学专门购买、培育和鉴定世界上最好的赛马. 每一种纯种马都需要数百万美元的投资,风险很高. 买家和育种者希望获得最好的信息,以便在挑选下一个传奇冠军时获得任何优势.

Epona科学的标志

赛马业有着悠久的传统历史. 在过去,许多买家只是购买纯种马,或从一个可信的饲养员那里购买,后者似乎凭直觉就知道最好的马. 但这些真的是成功的最佳预测吗? 在其他体育运动, 喜欢棒球, 必赢网站网址已经看到过深刻的统计分析打败了著名经理人的直觉. 棒球数据统计分析法, 在电影《必赢彩票网》中不朽, 帮助波士顿红袜队在经历了近一个世纪的冠军荒后大获全胜. 现在,每一个主要的运动队都依赖于数据和直觉. 要想成为一个成功者,有无数个因素,而人们往往倾向于把注意力集中在错误的方面.

艾波纳开始用机器学习来革新这个历史悠久的行业, 统计分析与科学. 沿着这条路, 他们从马的整个基因档案和血统中发现了一切, 动物的身高和步态, 它的心脏大小决定了它是一匹获胜的马还是一匹永远出不了门的马.

所面临的挑战

由于赌注如此之高,马饲养者是一个封闭而紧密的群体. 他们很快意识到,数据可以说明问题,并颠覆了他们传统的销售模式,所以他们会保护自己. 这意味着艾波娜必须从世界各地的资源中获取信息, 无论是x光片,基因档案还是以前的比赛记录. 收集所有的数据, 清洗它, 将其标准化,并将其转化为一致的格式,以便他们的机器学习模型能够进行训练,这是一项艰巨的工作.

人们常常没有意识到80%的数据科学都是在寻找正确的数据, 拉下来, 提取它, 转换它并加载它. 每种类型的数据都有自己的挑战. 整个基因组测序只需要一天和几百美元,但这些快速测序机通常不会出错.

“基因数据总是不完美的,”Epona数据科学主管瑞安·史密斯(Ryan Smith)说. “基因型缺失,标记错误. 你可以缓解其中的一些问题(用不同的算法来填补空白),但如果你改变你使用的方法来缓解它, 你得知道它为什么变了.“缓解解决方案的突然改变很容易让你的模型陷入混乱.

编纂所有这些数据有点像“财政建模”,史密斯说. “马的股价怎么可能涨或跌呢?但对艾波娜的团队来说,处理这一切需要数周或数月的时间. 他们有太多的手动步骤和大量的小粘接脚本来提取数据和转换数据. 他们需要更快的速度. 这就是厚皮动物出现的原因.

为什么Epona选择厚皮类动物

厚皮类动物立即在团队中脱颖而出,因为它处理了从数据沿袭的所有事情, 到数据转换和版本控制, 对集装箱化. “没有集装箱化,”史密斯说, “处理设置是困难的,如果你可以在Docker中做,你可以节省很多痛苦.

厚皮类动物平台的版本控制和起源工具提供了向后和向前滚动的关键能力. 他们可以看到什么改变了,什么时候改变了,为什么改变了. 该团队的模型非常精细和敏感,有时他们的工程师需要做详细的法医分析,找出模型哪里出了问题,以便尽快修复.

他们还发现,这个平台比像《必赢网站网址》这样的替代品简单得多, 哪个更严格,而不是首先为Kubernetes设计的. 就像所有数据科学领域的人一样, 它们在Python中做了很多工作,但它们需要在其他语言中工作的灵活性.

“很多软件工具都来自学术界,”史密斯说. “它们是由研究人员开发的.这意味着他们需要的许多工具并没有企业版的功能设置和安装程序. 这些工具很锋利,但很粗糙. 厚皮动物可以让他们轻松地将一系列独立和独立的工具串在一起,形成一个平滑的管道. 这改变了他们做生意的方式,因为过去他们不得不孤立地经营一切.

他们的模型开发吞吐量现在是有效的连续的. 每一个型号,每一个样品, 尤其是遗传学样本, 贯穿管道, 测试并在几分钟内上传到网站. 在过去,这需要几天或几周的时间,并伴随着许多手动步骤. 在厚皮动物出现之前,它们没有能力完全自动化过程的每一部分, 随着模型用新的信息被一次又一次地重建. 在小型团队中,他们需要专注于模型构建而不是手工步骤.

自动缩放也给他们带来了巨大的不同. In 2020, 他们处理10,一个月就拍了000张新照片,前年拍这么多照片花了一年. 通过自动伸缩,他们可以让集群处于站立状态,并根据需要构建集群. 过去,当他们在动物模型上运行时,他们使用了一个巨大的机器,有1tb的内存和尽可能多的内核,但成本太高. 现在kubernetes可以加速培训,并将其分发到不同的豆荚中,这样他们就不必启动一个超级实例了, 运行作业并调试它,并记住关闭它.

Epona正在改变高风险赛马业务的运作方式,但正是厚皮类动物为他们提供了所需的动力,为这项充满传统的业务带来新生命.

请求一个演示