yabo下载App

亚博yabo下载App|多伦多医生和数字健康顾问卡里姆凯沙吉(卡里姆凯沙吉)分析了来自500名医生的大量数据,以找出如何改善患者治疗。但是要让计算机破译所有用难以理解的医学速记写的拼写错误、缩写和笔记是一项令人沮丧的工作。卡里姆o科夏瓦杰是多伦多的一名医生和网络身体健康顾问,他要从500名医生那里对系统的海量数据中总结出有怎样才能更佳地化疗病人。

但是众所周知,医生的”书法”本来就堪比天书,要想要让电脑辨识出有其中的拼写错误和简写堪称难于登天例如,”吸烟信息很难解析,”凯沙吉说“如果你读了记录,你马上就会明白医生的意思。但是祝你好运,试着让电脑理解。

没有”从不吸烟”和”吸烟=0 .一个病人抽几根烟?那是不可能弄清楚的“比如科夏瓦杰认为:”患者否吸烟者是个很最重要的信息。如果你必要读者病历,你立刻就能明白医生是什么意思。

但是要想要让电脑去解读它,那就不能祝你好运了。虽然你也可以在电脑上设置’从来不吸烟者’或’吸烟者=0 ‘的选项。但是一个患者每天吸食多少支烟?这完全是电脑不有可能做明白的问题对海量数据(或大数据(进行分割的大肆宣传让它听起来如此简单:只需将图书馆的信息插入计算机,等待有价值的见解来阐述如何加快汽车装配线,让网上购物者购买更多运动鞋,或者与癌症作斗争。

现实要复杂得多。由于信息过时、不准确和缺失,数据不可避免地是”脏的” .清理它是一项越来越重要且被忽视的工作,它有助于防止代价高昂的错误。

由于宣传报道把大数据刮起得神乎其神,因此很多人有可能实在大数据用一起尤其非常简单:只要把相等于一整个图书馆的信息挂到电脑上,然后就可以躺在一旁,等着电脑得出独到看法,告诉他你如何提升自动生产线的生产效率,如何让网购者在网上出售更好的运动鞋,或是如何化疗癌症。但事实相比之下比想象简单得多。由于信息不会过时、不精确和缺陷,因此数据不可避免地也有”不整洁”的时候。如何把数据逆”整洁”是一个更加最重要但又常常被人忽视的工作,但它可以避免你犯有代价高昂的错误虽然技术一直在进步,但是清理数据只能完成这么多。

即使在处理一组相对整洁的信息时,获得有用的结果也可能是艰巨而耗时的。虽然科技仍然都在变革,但是人们在净化数据上能想起的法子并不多。即便是处置一些比较较”整洁”的数据,要想要取得简单的结果往往也是件费时费力的事情”我告诉我的客户,世界是混乱和肮脏的,”乔希沙利文说,他是商业咨询公司博斯艾伦的副总裁,为客户处理数据处理“没有干净的数据集。

“博思艾伦咨询公司(博斯艾伦(副总裁约什o沙利文说道:”我对我的客户说道,这是个恐慌可怕的世界,没几乎整洁的数据集数据分析师从寻找不正常的信息开始。因为数据量如此巨大,他们通常会将工作交给软件,软件会自动筛选数字和文本,以寻找任何需要进一步审查的异常情况。随着时间的推移,计算机可以提高它们识别什么是属于什么不是的准确性。他们还可以通过将相似的例子聚集在一起,然后对它们的解释进行准确性评级,来更好地理解单词和短语的含义。

数据分析师一般讨厌再行找寻非常态的信息。
由于数据量太大,他们通常会将检查数据的工作转移到软件中,以了解是否有需要进一步检查的异常情况。

久而久之,电脑检测数据的准确性也不会提高。通过对相似案例的分类,他们不会更好地理解一些单词和句子的含义,进而提高测试的准确性。沙利文说:“这种方法简单直接,但训练你的模型可能需要几周时间。

”。“这种方法很简单,也很有必要,但‘训练’你的模型可能需要几周又几周的时间。”一群公司提供清理数据的软件和服务。

它们从技术巨头如IBM IBM -0.24%和思爱普SAP 0.12%到大数据和分析专家如Cloudera和Talend Open Studio。许多初创企业也在努力站稳脚跟,包括Ing Trifacta、Tamr和Paxata。

一些公司还收购了净化数据的软件和服务,包括IBM、SAP等技术巨头,以及Cloudera、Talend Open Studio等专门从事大数据和分析的专业机构。大量的创业公司也想成为大数据的守门人,包括Trifacta、Tamr、Paxata。医疗保健行业数据肮脏,是大数据技术最棘手的行业之一。

电子健康记录使得医疗信息越来越容易被转储到计算机中,但是在研究人员、制药公司和医院业务分析师能够分割他们想要的所有信息之前,仍然有很大的改进空间。因为“不整洁”的数据太多,医疗行业被指出是大数据技术最难的行业之一。

随着电子病历的普及,将医疗信息导出到计算机的可玩性越来越低,但是研究人员、制药公司、医疗行业分析师如果想把自己必须的数据当作分析来愉快对待,在数据方面还有很多需要改进的地方。健康数据咨询公司InfoClin的医生兼首席执行官凯沙吉每天都在试图通过筛选数万份电子病历来找出改善患者治疗的方法。障碍物一直在上升。

健康数据咨询公司InfoClin的医生兼Koshavajie花费了大量时间,期望在数万份电子病历中查看简单的数据,以提高患者的医疗水平。然而,他们在检查过程中受到很大阻碍。许多医生忽略了在病历中记录患者的血压,这是任何数据清理都无法解决的问题。

对于计算机来说,简单地根据病人文件中的内容来确定病人的病痛是非常困难的。医生可能会在没有明确说明是患者还是家庭成员的情况下输入糖尿病的正确代码。或者他们可能只是输入“胰岛素”,而没有教授潜在的诊断,因为对他们来说,这是显而易见的。

很多医生在病历中没有记录病人的血压,这是任何数据净化方法都无法修复的。利用现有病历的信息来识别患者的疾病已经是一项非常困难的任务。当医生输出糖尿病号码时,他可能会忘记准确指出患者是否患有糖尿病或他的一名家庭成员是否患有糖尿病。

或者他们只是输出“胰岛素”这个词,而没有提到病人患有什么疾病,因为这对他们来说是一件了不起的事情。
医生也使用许多特殊的速记来记录药物、疾病和基本的病人细节。对人类来说,破译它需要费很大的脑筋,对计算机来说几乎是不可能的。例如,Keshavjee遇到了一个使用缩写” gpa “的医生。

只是在遇到一个变体” gma “后,他才最终解决了这个难题——它们是”爷爷”和”奶奶”的简写。医生用来临床、开药和填上病人基本信息时会大量中用一套独有的速记字体。

即使让人类来密码它也要深感头痛,而对于电脑基本上是不有可能已完成的任务。比如科夏瓦杰提及有个医生在病历中写” gpa “三个字母,让他百思不得其解。

亚博yabo下载App

好在他找到后面不远处又写出着” gma “三字,他才恍然大悟——原本它们是爷爷(爷爷(和奶奶(奶奶(的简写”花了一段时间才想明白,”他说。科夏瓦杰说道:”我花上了好半天才明白它们究竟是什么意思凯沙吉说,最终解决病历中脏数据问题的唯一方法是”数据纪律”医生需要接受正确输入信息的培训,这样之后的清理工作就不那么繁琐了。他说,结合谷歌的有用工具,该工具建议如何在用户键入单词时拼写单词,这将是电子病历的一大补充。

计算机c学会找出拼写错误,但最大限度地减少需要是朝着正确方向迈出的一步。Koshawaj指出,解决数据不整洁问题的最终方法之一是为病历制定一套“数据纪律”。要训练医生教准确加载信息的习惯,以免事后净化数据时搞得一塌糊涂。

Koshavajie回应说,谷歌有一个非常简单的工具,可以告诉用户在扩展输出时如何拼写不常见的单词。这样的工具几乎可以添加到电子病历工具中。

虽然电脑可以挑拼写错误,但让医生抛弃坏习惯是向准确迈出的一步。凯沙吉的另一个建议是创建更标准化字段的病历。计算机将知道在哪里寻找特定的信息,减少出错的机会。当然,这样做并不像听起来那么容易,因为许多病人患有多种疾病,何说。

标准格式必须足够灵活,才能将这些复杂因素考虑在内。Koshawar的另一个建议是在电子病历中设置更标准化的字段。这样,计算机就不会告诉在哪里可以找到特定的信息,从而增加了错误率。

当然实际操作没那么简单,因为很多患者同时患有几种疾病。因此,标准表单必须足够灵活,以考虑所有这些简单的情况。尽管如此,医生还是需要能够记下更多的自由形式的电子笔记,这些笔记永远也不能装进一个小盒子里。

例如,像病人为什么跌倒这样的细微差别,而不仅仅是受伤,对研究来说是至关重要的。但是软件在理解没有上下文的自由形式的写作时是被击中和错过的。人类通过关键词搜索可能会做得更好,但他们仍然想错过许多相关记录。但是,由于医疗需要,医生有时不得不在病历上写下一些正确的书写内容,这是小格子无法容纳的。

比如为什么一个病人不摔倒,如果不是因为受伤,那么原因很重要。但在没有语境的情况下,软件对权利写作的解读不能用“大运”来形容。查数据的时候,如果按关键词搜索可能会做的更好,但这样难免会漏掉很多相关记录。

当然,在某些情况下,看似肮脏的数据实际上并不是。来自博斯艾伦(Booz Allen)的沙利文(Sullivan)举了一个例子,当时他的团队正在分析一家豪华连锁酒店客户的人口统计信息,发现数据显示,来自富裕的中东国家的te Ens是常客。

当然,在某些情况下,一些看起来不整洁的数字并不被认为是不整洁的。博斯艾伦咨询公司副总裁沙利文举例说,他的团队曾经为一家豪华连锁酒店分析过客户的人口统计数据,突然发现数据显示,来自富裕的中东国家的青少年是这家酒店的常客。

“有一整群17岁的孩子住在环球酒店,”沙利文说我们想,这不可能是真的。沙利文回忆说,“一大群17岁的青少年住在世界各地的这家酒店,我们想,‘这种身份是不知道的。

“但经过一番挖掘,他们发现信息事实上是正确的。这家酒店有大批年轻顾客,但它甚至没有意识到他们的存在,也从未做过任何向他们推销的事情。所有22岁以下的客人都会自动在公司的电脑上被记录为“低收入”。酒店执行官维斯从未考虑过青少年财大气粗的可能性。

但是在做了一些挖掘工作后,他们发现这些信息只是准确的。这家酒店有大量的年轻客户,甚至酒店本身都没有意识到,酒店也没有为这些客户做任何广告和宣传。
所有22岁以下的顾客都被这家公司的电脑自动归类为“低收入”,酒店高管从来没有考虑过这些孩子的口袋。沙利文说:“我认为如果没有异常值,建立模型就更难了。

”。沙利文说,“我指出,如果没有异常值,建立模型不会更没用。”即使数据显然很脏,有时也能得到很好的利用。

再次以谷歌的拼写建议技术为例。它自动识别拼写错误的单词,并提供替代拼写。

这是唯一可能的,因为谷歌0.34%多年来已经收集了数百万甚至可能数百万条错过的查询。脏数据不是垃圾,而是一个机会。即使数据有时明显不整洁,它仍然有很大的用处。

比如谷歌的拼写缺乏上面提到的技术。它可以自动识别拼错的单词,然后获得替代拼写。

这个工具之所以有如此神秘的功能,是因为谷歌在过去几年里收集了数亿甚至数十亿个拼错的术语。所以,不整洁的数据也可以变成宝藏。

最终,人类,而不是机器,从他们处理的数据中得出结论。计算机可以整理数百万份文件,但无法解释这些发现。清理数据只是漫长的试错过程中的一步。尽管大数据大肆宣传其提升商业利润和帮助人类的能力,但它仍是一个令人头疼的问题。

最后,从大数据中得出结论的是人,而不是机器。电脑虽然能整理出几百万份文件,但却看不懂。数据净化是为了方便人们从数据中提供结论而重复试错的过程。虽然大数据被尊为可以提高商业利润、教育全人类的神器,但也是令人头疼的事情。

“失败的概念在数据科学中是完全不同的,”沙利文说。“如果你一天没有失败10到12次才能到达他们应该到达的地方,他们就没有做对。

”沙利文说:“结束的概念几乎是数据科学中的另一个问题。如果我们不试着每天犯10到12次错误,他们会得到准确的结果。:亚博yabo下载App。

本文来源:App-www.ahhuidian.com

admin

相关文章