顶级医疗保健提供商使用厚皮类动物的Scalable技术,从tb级临床数据中获得可操作的医学见解, 数据驱动的机器学习管道

美国最大的医疗服务提供商之一正在使用 人工智能(AI)收集可操作的医学见解 数以百万计的会员记录和数tb的临床资料 data. 厚皮类动物的机器学习(ML)数据基础 为团队提供自动化、规模和可复制性 需要把这些见解传递给提供者.

为复杂的交付管道寻找可扩展的替代方案

顶级的营利性管理医疗保健提供商之一,拥有附属计划 为八分之一的美国人提供医疗服务 在卫生福利方面,最具创新性、价值和包容性的伙伴. 考虑到他们 毫无疑问,他们有一个专门的人工智能团队 利用先进的人工智能来获取长期的洞察力并做出更多的贡献 从索赔和电子健康记录数据详细的健康预测.

这个数据存储非常庞大,覆盖了超过50tb的数据 该公司在美国拥有数千万的会员.S. 他们挖掘这 数据,以确定治疗效果的基础上,过去的结果给予特别 病人的特点. 最终,这将允许提供者与 病人和讨论,在许多不同的可能的治疗中, 根据病人的具体情况,最好的选择就是把它们和 类似的群.

“这是一个艰巨的挑战,因为有这么多数据,这么多不同的东西 特征和如此多的可能组合,”一位工程主管说 这家顶尖的美国医疗保健公司. “但这很令人兴奋,因为一旦你 把这些见解传递给提供者,这是革命性的. 这是一部分 数据工程的乐趣在于:解决一个真正大的问题 可伸缩性优化需要快速解决这个问题.”

将这些潜在的见解交到医疗保健提供者手中是关键所在 挑战来了. 小规模的实现是一回事 在实验室工作,大规模提供机器学习是另一回事.

当工程主管加入人工智能团队时,他们有一个非常复杂的 数据传输管道基于Apache风流. 虽然它有效,但它不会 每次扩展到单个管道或容器实例之外. 随着团队 为了解决这些规模问题,它也开始缩减生产 方法,确保数据是版本控制的,并且具有不可变的沿袭性.

但团队对这些问题研究得越多, 就越清楚他们需要一个完整的独立空间 在解决问题之前.

这时一位同事提到了厚皮动物.

必赢彩票网

厚皮类动物提供数据层,允许机器学习团队生产和扩展他们的机器学习生命周期. 凭借厚皮类动物行业领先的数据版本控制, 管道和血统, 团队获得数据驱动的自动化, pb级可伸缩性和端到端可重复性. 对RTL荷兰文, 厚皮是将各种子任务组合和协调成一种统一的方式来大规模处理视频的关键. 不仅如此,视频处理也是资源密集型的. 厚皮类动物的增量模式允许团队只在新视频到达或更改时处理它们, 而不是从头开始再加工. 这为他们的方法带来了巨大的速度,节省了时间和金钱.

“构建可重复性是非常重要的事情之一,大约5%的时间是重要的, 但在那一刻, 变得至关重要,工程主管指出. “能够获得一个有bug的组件,或者构建并倒带以确定其原因是非常有价值的, 而这正是厚皮类动物给必赢网站网址的. 如果没有它,我会完全迷失.”

人工智能团队曾研究过DVC等工具,但它们无法与厚皮类动物相比. “从概念上讲, "很好, 但当我仔细观察这个框架时, 感觉是为了更小的人, 更多以研究为导向的项目,工程主管解释道. “我不知道DVC将如何让必赢网站网址进入制作环境. 厚脸皮的人会.”

厚皮类动物提供了所需的并行性和数据处理,以有效地扩展AI团队的ML处理. 重要的是, 虽然该公司有数百万的病人记录, 在任何给定的时间,只有一小部分是相关的, 厚皮类动物的增加节省了显著的时间, 通过仅处理已更改的数据子集来获得资金和资源, 而不是整个病人的世界.

具体地说, 人工智能团队拥有关于每个成员的丰富信息, 但这些数据都被表示为一个巨大的表. AI团队必须为每个用例处理整个表, 不管这些成员记录是否相关. 显然,这减慢了管道的速度,浪费了巨大的处理能力.

“我对厚皮类动物最初的问题是,它会如何处理这张桌子?工程主管解释道. “我的顿悟是,厚皮类动物让必赢网站网址完全改变了处理数据的思维方式.”

与厚皮类动物, 该团队能够任意划分表数据,以仅捕获单个成员的事件——有效地创建单个成员对象,封装特定成员的所有事件. 厚皮类动物不仅并行处理这些记录, 它还会自动处理那些包含新信息的信息, 增加规模和速度,同时降低成本.

“当我意识到自己只关心输入信息的来源和数据的去向时,我认为我真正理解了厚皮类动物的价值. 厚皮动物神奇地完成了剩下的工作, 以一种高效和可伸缩的方式将正确的数据移动到需要的地方. 这是一个经过深思熟虑的抽象和自动化解决方案,它完美地解决了大量用例的ML问题.”

工程主管
顶级的医疗服务提供者

医疗保健洞察的效率和规模

从厚皮类动物开始, 这家顶级医疗保健提供商的处理效率有了显著提高. The AI team runs its pipelines on a weekly basis to accommodate updates to the source data; originally this meant processing the entire two terabyte table each time.

“厚脸皮的人, 必赢网站网址先运行一次, 然后每周只处理更新或更改的事件,工程主管说. “这不到总数的10%——只有7人.5GB的数据——因此,必赢网站网址在管道的增量运行中获得了90%的巨大节省, 周复一周. 这真的是令人惊异的.”

AI团队也非常欣赏厚皮类动物的数据沿袭能力. 该团队最初的方法是创建一个元数据文件,为每个insight引用, 这样他们就能在需要的时候追踪来源. “但它真的很脆弱,”工程负责人说. “如果必赢网站网址改变路线,必赢网站网址就会失去血统. 使用厚皮类动物,只需添加作业并向insight提交id即可. 它们没有绑定到任何特定的路径, 不存在安全问题, 团队可以很容易地解释它们. 我喜欢,这是一场巨大的胜利.”

而人工智能团队正在努力让供应商获得第一手信息, 它已经在积极计划如何使用基于pachyderm的系统来治疗一系列额外的医疗条件. 作为一部分, AI团队发现厚皮类动物非常乐于讨论将进一步提高其效率的新功能和集成.

其他数据科学, 医疗保健提供商内部的数据工程和DevOps团队也注意到了这一点, 工程主管发现厚皮类动物的设计有助于更广泛的拥抱.

“我对厚皮类动物的第一个观察是,在开发过程中最重要的是正确的数据会在正确的时间和地点出现,”他说. 这种抽象级别允许必赢网站网址的团队完成90%的开发工作,甚至无需将任何东西部署到厚皮类动物. 当必赢网站网址进入生产阶段时,必赢网站网址所要做的就是改变管道路径,然后一切都运行得很好. 这种在最后一刻创建容器的理念确实保护了数据科学家,使他们不必直接处理基础设施.”

最后, 最重要的是,感觉厚皮类动物清楚地思考了工程问题,并提供了一个广泛而优雅的解决方案. “当我意识到自己只关心输入信息的来源和数据的去向时,我认为我真正理解了厚皮类动物的价值. 厚皮动物神奇地完成了剩下的工作, 以一种高效和可伸缩的方式将正确的数据移动到需要的地方,”他说. “这是一个经过深思熟虑的抽象和自动化解决方案,为广泛的用例完美地解决了ML问题.”

“从概念上讲, "很好, 但当我仔细观察这个框架时, 感觉是为了更小的人, 更多的研究性项目. 我不知道DVC如何让必赢网站网址进入生产环境. 厚脸皮的人会. ”

工程主管
顶级的医疗服务提供者