设为首页收藏本站 关注微博 关注微信

全球新闻在线

全球新闻在线 首页 科技新闻 技术解析 查看内容

人力智能有助于资料生产 这是真的吗

2021-8-30 09:46| 发布者: wdb| 查看: 73| 评论: 0|原作者: [db:作者]|来自: [db:来源]

摘要: 人力智能有助于资料生产 这是真的吗 ,更多it技术解析新闻关注我们。

近年来,诸如资料基因组计划和资料名目等探讨事业曾经发生了大批的计算用具,用于设置可用于从燃料和电子到航空和土木工程等各式利用的新资料。

可是,开产生产这点资料的进程依然取决于经历,直觉和手工文件综述的联合。

麻省理工学院,马萨诸塞大学阿默斯特分校和加州大学伯克利分校的一组探讨人士期望经过新的人力智能体系来弥补资料 - 科学自动化的差距,该体系将经过探讨论文来推断“食谱”。制造特殊资料。

“计算资料科学家在'生产甚么'方面取得了相当大进展 - 依据所需特性设置了甚么资料,”麻省理工学院资料科学与工程系(DMSE)大西洋里奇菲尔德燃料探讨助理教授Elsa Olivetti说。 )。“可是源于这类成功,阻碍曾经转嫁到了,'好吧,此刻咱该怎样做?'”

探讨人士设想了一种数据库,此中包涵从数百万篇论文中提取的资料配方。科学家和工程师可行输入指标资料的名称和全部其它准则 - 前体资料,反映要求,生产工艺 - 并提取提议的配方。

作为实现这一愿景的一步,Olivetti和她的同事开发了一个机器学习体系,可行剖析探讨论文,推断此中哪些段落包涵资料配方,并依据其在食谱中的效用对这点段落中的单词发展分类:指标资料的名称,数字量,设施名称,操作要求,描画性形容词等。

在全新一期“ 资料化学 ”杂志上发表的一篇论文中,它们还声明机器学习体系可行剖析提取的数据,以推断资料类型的通常特征 - 比如合成所需的不同温度范畴 - 或许单个资料的特殊特征 - 比如当他们的生产要求浮动时他们将采用的不同物理方式。

Olivetti是该论文的顶级作者,她与麻省理工学院DMSE探讨生Edward Kim一起加入; Kevin Huang,DMSE博士后; 亚当桑德斯和安大略麦卡勒姆,麻省大学阿默斯特分校的计算机科学家; 和Gerbrand Ceder,伯克利资料科学与工程系的校长,教授。

探讨人士运用有监督和没有监督的机器学习技艺对它们的体系发展训练。“监督”是指供应体系的训练数据起首由人类注释; 体系尝试查找原始数据和注释之中的相干性。“没有监督”意指着训练数据未被注释,而体系则学习依据构造类似性将数据集中在一同。

源于资料配方提取是一种新的探讨范畴,Olivetti和她的同事们并未好几年来由不同探讨团队积累的大批注释数据集。相反,它们必需本人注释它们的数据 - 终归,大约100篇论文。

经过机器学习准则,这是一种十分小的数据集。为了改良它,它们运用了Google开发的一个名为Word2vec的算法。Word2vec察看单词显露的上下文 - 单词'句子中的句法角色和围绕他们的其它单词 - 并将那一些偏向于具备类似上下文的单词组合在一同。因而,比如,假如一篇论文中包涵句子“咱们将四氯化钛加热到500℃”,另一篇文章中包涵“氢氧化钠被加热到500℃”的句子,Word2vec会将“四氯化钛”和“氢氧化钠”分组。一同。

运用Word2vec,探讨人士能够极大地扩展它们的训练集,由于机器学习体系可行推断附带到全部给订单词的标签可能适用于与其集中的其它单词。因而,探讨人士可行在大约640,000篇论文上训练它们的体系,而非是100篇论文。

然则,为了测试体系的明确性,它们不得不依赖标志数据,由于它们无估价其在未标志数据上的功能的准则。在这点测试中,体系能够以99%的明确度辩别包涵配方的段落,并以86%的明确度标志这点段落中的单词。

探讨人士期望进一步的事业将提升体系的明确性,而且在正好发展的事业中,它们正好探寻一系列深度学习技艺,这点技艺可行进一步综合资料配方的构造,目的是自动设置资料配方中未考量的资料配方。现存文件。

Olivetti此前的多数探讨都聚集在寻觅更具本钱效益和环境保护能力的方法来制造有效的资料,她期望资料配方数据库可行帮助该名目。

“这是具备路程碑意义的事业,”加州大学圣塔芭芭拉分校资料科学探讨所Fred和Linda R. Wudl教授Ram Seshadri说道。“作者曾经采用了经过人力智能方法捕捉战略的艰难而雄心勃勃的挑战用于准备新资料。这项事业展现了机器学习的力量,但可行明确地说,终归成功或不成功的判断须要令人信服的从业者信任这点方法的作用可行使它们愈加本能地放弃它们挨近“。

这项探讨获得了科学基金会,海军探讨办公室,燃料部的扶持以及经过麻省理工学院燃料倡议的种子扶持。Kim获得了加拿大当然科学和工程探讨委员会的部分扶持。

更多技艺剖析关心咱们。