新智元报导
来历:MIT
修改:向学
【新智元导读】MIT和IBM的研讨人员结合了三种盛行的文本剖析东西——主题建模、词嵌入和最优传输——来每秒比较数千个文档。并且能够更快、更精确对文档分类,轻轻松松从数十亿挑选中更快找到更相关的读物。戳右边链接上新智元小程序了解更多!
在线有数以十亿计的书本、新闻故事和文档,假如你有时间阅览一切选项,现在正是阅览的最佳时机!MIT助理教授Justin Solomon说:“互联网上有很多文本,任何有助于切开这些资料的东西都是十分有用的。”
在线本文的数量比这还多得多
在MIT-IBM沃森人工智能实验室和MIT几许数据处理小组的协助下,Solomon最近在NeurIPS会议上提出了一种切开很多文本的新技能。该技能结合了三种盛行的文本剖析东西——主题建模(Topic Modeling)、词嵌入(Word Embeddings)和最优传输(Optimal Transport),这比盛行的文档分类基准的竞赛办法供给更好、更快的成果。
假如一个算法知道你曩昔喜爱什么,它能够扫描出数百万个相似的或许性。跟着天然语言处理技能的改善,那些“你或许也喜爱”的主张正渐渐的变快,也渐渐变得相关。
在NeurIPS提出的这种办法,是一种算法依据调会集的常用词将一种调集(比方平话)概括成主题。然后将每本书分红5-15个最重要的主题,并预算每个主题对整本书的奉献。
NeurIPS 现场,热闹非凡,人潮涌动
为了比较书本,研讨人员使用了别的两种东西:词嵌入(一种将词转换成数字列表的技能,以反映词在盛行用法中的相似性)与最优传输(一种计算在多个目的地之间的移动目标或数据点的最有用办法的结构)。
词嵌入使得两次使用最优传输成为或许:首先将调会集的主题作为一个全体进行比较,然后在恣意两本书中很常见主题的堆叠程度。
该技能在扫描很多书本和冗长的文档时特别有用。在这项研讨中,研讨人员供给了Frank Stockton的《战役辛迪加》(The Great War Syndicate)的比如,这本19世纪的美国小说,预言了核武器的鼓起。假如你正在寻觅一本相似的书,那么主题模型将有助于辨认与其他书同享的首要主题——在这样的一种情况下,是帆海、元素和军事。
战役辛迪加
可是仅仅是一个主题模型并不能将Thomas Huxley在1863年的讲演《有机天然曩昔的环境》(The Past Condition of Organic Nature)确定为一个很好的匹配。这位作家是Charles Darwin进化论的拥护者,他的讲演中充满着化石和沉积作用,反映了关于地质学的新观念。当Huxley讲演中的主题与Stockton的小说经过最优传输相匹配时,呈现了一些穿插主题:Huxley的地舆、动植物、常识主题 ,别离与Stockton的帆海、元素和军事主题严密相关。
有机天然曩昔的环境
依据书本的代表性主题(而不是单个词)对书本进行建模,使高层次比较成为或许。该研讨的首要作者、IBM研讨员Mikhail Yurochkin说:“假如你让或人比较两本书,他们会把每本书分解成易于了解的概念,然后比较这些概念。”
研讨标明,成果是更快、更精确。研讨人员在一秒钟内对比了Gutenberg Project数据集的1720对书本,比次佳办法快800多倍。
Gutenberg Project数据集
与其它办法比较,该技能还能够更精确地对文档进行分类:例如,按作者对Gutenberg Project数据会集的书本进行分组,按部门对亚马逊的产品谈论分类,以及按体育项目对BBC体育报导分类。在一系列的可视化中,作者展现了他们的办法能够很好地按类型对文档进行聚类。
除了快速和更精确地对文档进行分类之外,该办法还供给了一个窗口来了解模型的决议计划进程(想想就很凶猛~~)。经过呈现的主题列表,用户都能够看到模型引荐文档的原因。
您觉得这项技能厉不凶猛?欢迎来小程序里跟咱们沟通、讨论哦~
参考资料:
http://news.mit.edu/2019/finding-good-read-among-billions-of-choices-1220