MIT切开很多文本黑科技数十亿挑选中海底捞出一本好书

2019-12-31 19:46:28 阅读：8702+ 作者：责任编辑NO。蔡彩根0465

新智元报导

来历：MIT

修改：向学

【新智元导读】MIT和IBM的研讨人员结合了三种盛行的文本剖析东西——主题建模、词嵌入和最优传输——来每秒比较数千个文档。并且能够更快、更精确对文档分类，轻轻松松从数十亿挑选中更快找到更相关的读物。戳右边链接上新智元小程序了解更多！

在线有数以十亿计的书本、新闻故事和文档，假如你有时间阅览一切选项，现在正是阅览的最佳时机！MIT助理教授Justin Solomon说：“互联网上有很多文本，任何有助于切开这些资料的东西都是十分有用的。”

在线本文的数量比这还多得多

在MIT-IBM沃森人工智能实验室和MIT几许数据处理小组的协助下，Solomon最近在NeurIPS会议上提出了一种切开很多文本的新技能。该技能结合了三种盛行的文本剖析东西——主题建模（Topic Modeling）、词嵌入（Word Embeddings）和最优传输（Optimal Transport），这比盛行的文档分类基准的竞赛办法供给更好、更快的成果。

假如一个算法知道你曩昔喜爱什么，它能够扫描出数百万个相似的或许性。跟着天然语言处理技能的改善，那些“你或许也喜爱”的主张正渐渐的变快，也渐渐变得相关。

在NeurIPS提出的这种办法，是一种算法依据调会集的常用词将一种调集（比方平话）概括成主题。然后将每本书分红5-15个最重要的主题，并预算每个主题对整本书的奉献。

NeurIPS 现场，热闹非凡，人潮涌动

为了比较书本，研讨人员使用了别的两种东西：词嵌入（一种将词转换成数字列表的技能，以反映词在盛行用法中的相似性）与最优传输（一种计算在多个目的地之间的移动目标或数据点的最有用办法的结构）。

词嵌入使得两次使用最优传输成为或许：首先将调会集的主题作为一个全体进行比较，然后在恣意两本书中很常见主题的堆叠程度。

该技能在扫描很多书本和冗长的文档时特别有用。在这项研讨中，研讨人员供给了Frank Stockton的《战役辛迪加》（The Great War Syndicate）的比如，这本19世纪的美国小说，预言了核武器的鼓起。假如你正在寻觅一本相似的书，那么主题模型将有助于辨认与其他书同享的首要主题——在这样的一种情况下，是帆海、元素和军事。

战役辛迪加

可是仅仅是一个主题模型并不能将Thomas Huxley在1863年的讲演《有机天然曩昔的环境》（The Past Condition of Organic Nature）确定为一个很好的匹配。这位作家是Charles Darwin进化论的拥护者，他的讲演中充满着化石和沉积作用，反映了关于地质学的新观念。当Huxley讲演中的主题与Stockton的小说经过最优传输相匹配时，呈现了一些穿插主题：Huxley的地舆、动植物、常识主题，别离与Stockton的帆海、元素和军事主题严密相关。

有机天然曩昔的环境

依据书本的代表性主题（而不是单个词）对书本进行建模，使高层次比较成为或许。该研讨的首要作者、IBM研讨员Mikhail Yurochkin说：“假如你让或人比较两本书，他们会把每本书分解成易于了解的概念，然后比较这些概念。”

研讨标明，成果是更快、更精确。研讨人员在一秒钟内对比了Gutenberg Project数据集的1720对书本，比次佳办法快800多倍。

Gutenberg Project数据集

与其它办法比较，该技能还能够更精确地对文档进行分类：例如，按作者对Gutenberg Project数据会集的书本进行分组，按部门对亚马逊的产品谈论分类，以及按体育项目对BBC体育报导分类。在一系列的可视化中，作者展现了他们的办法能够很好地按类型对文档进行聚类。

除了快速和更精确地对文档进行分类之外，该办法还供给了一个窗口来了解模型的决议计划进程（想想就很凶猛~~）。经过呈现的主题列表，用户都能够看到模型引荐文档的原因。

您觉得这项技能厉不凶猛？欢迎来小程序里跟咱们沟通、讨论哦~

参考资料：

http://news.mit.edu/2019/finding-good-read-among-billions-of-choices-1220

上一篇：网络赌博之城西港的造富神话狗庄月入百万起

下一篇：你知道吗为了造手机电脑的电池人快把海洋挖

相关阅读

: 小生意大爆发｜巨量引擎商家双11全局抢量，生意爆发秘籍

日常单爆品模式无法实现大促爆发、爆品爆发力衰减新品无法衔接、内容力不足无法高效种草与破圈、投放跑量不稳定导致投入产出…

2024-11-21

: 成功转型成为计算平台公司，Arm 年度技术大会展现强劲实力

Arm Tech Symposia年度技术大会今日在上海举行。作为Arm一年一度的技术盛会，本届大会以“让我们携手重塑未来”为主题，吸引…

2024-11-20

: 进博会对话高通钱堃,混合AI是未来,5G-A发挥重要作用

最近,高通公司全球高级副总裁钱堃在第七届中国国际进口博览会期间接受媒体专访时介绍,高通公司做基础研发,然后把技术贡献给国…

2024-11-10

: 进博会孟樸分享,从3G到5G,高通携手中国伙伴在全球市场合作共赢

11月5日至10日,第七届中国国际进口博览会在上海举办。作为七年进博会“全勤生”,高通公司今年继续参展,展示最新技术以及与产…

2024-11-10

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

热门排行

小生意，大爆发｜八大行业双11策略划重点

专题

21年解密母乳源代码伊利金领冠开创新一代超级配方

DR钻戒应急玫瑰活动在法国巴黎迅速蹿红带火了七夕

8月22日，DR钻戒在全球化身“月老”，传递中国七夕情人节的传统文化，在法国巴黎铁…
华为智选x膳魔师强势合作，致力于联力打造智能水杯

近日，华为开发者大会2023在广东·东莞·松山湖顺利拉开序幕。本次开发者大会是华…
传谣“DR购买记录可删”者向DR和公众道歉

6月19日，造谣DR求婚钻戒“500元可删购买记录”的微博自媒体博主@毒鸡汤J先生，公…
伊利金领冠新一代超级配方获权威专家临床实证

5月20日，伊利金领冠在“解密母乳源代码[1]，开创新一代超级[2]配方”发布会上，重…