面向神经机器翻译的篇章级单语修正模型

 
本文转自雷锋网,如需转载请至雷锋网官网申请授权。
《面向神经机器翻译的篇章级单语修正模型》[1]是EMNLP2019上一篇关于篇章级神经机器翻译的工作。针对篇章级双语数据稀缺的问题,这篇文章探讨了如何利用篇章级单语数据来提升最终性能,提出了一种基于目标端单语的篇章级修正模型(DocRepair),用来修正传统的句子级翻译结果。

1、背景
近几年来,神经机器翻译迅速发展,google在20

如何使用Flask轻松部署机器学习模型?

【51CTO.com快译】数据科学家/机器学习工程师使用Scikit-Learn、TensorFlow、Keras或PyTorch等开发机器学习模型时,最终目标是将其部署到生产环境。从事机器学习项目时,我们常常过于关注探索性数据分析(EDA)、特征工程和超参数调整等,却往往忘了主要目标:从模型预测中提取实际价值。
部署机器学习模型或将模型部署到生产环境意味着将模型提供给最终用户或系统。然而,

500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译103种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。他们在250亿个的句子对上进行训练,参数量超过500亿。

在过去的几年里,由于神经机器翻译(NMT)的发展,机器翻译(MT)系统的质量得到了显著提升,打破了世界各地的语言障碍。但NMT的成功很大程度上要归功于有监督的训

谷歌发布含7种语言的全新数据集:有效提升BERT等多语言模型任务精度高达3倍!

本文转自雷锋网,如需转载请至雷锋网官网申请授权。
近日,谷歌发布了包含7种语言释义对的全新数据集,即:PAWS与PAWS-X。BERT通过该数据集的训练,在释义对问题上的精度实现了约为3倍的提升;其它先进的模型也能够利用该数据集将精度提高到85-90%。谷歌希望这些数据集将有助于推动多语言模型的进一步发展,并发布了相关文章介绍了该数据集,雷锋网AI开发者将其整理编译如下。

背景环境
词序和句

使用7S模型成功实现人工智能转型

作为与许多组织合作的客户关系管理(CRM)顾问,很难不将人工智能视为一个主要考虑的主题。那么有所帮助吗?其较大的影响在哪里?如何开始?需要什么技能?这些是人们几乎每天都会听到的一些问题。

所有这些问题都有一个共同点:它们很好操作,并且具有战术性。
在进行了很多关于实现人工智能的讨论和参与之后,人们注意到了人工智能采用的两个趋势:

在许多组织中,这个主题是由IT驱动的。
其次,该主题采用技

论机器学习模型的可解释性

在2019年2月,波兰政府增加了一项银行法修正案,该修正案赋予了客户在遇到负面信用决策时可获得解释的权利。这是GDPR在欧盟实施的直接影响之一。这意味着如果决策过程是自动的,银行需要能够解释为什么不批准贷款。
在2018年10月,“亚马逊人工智能招聘工具偏向男性”的报道登上了全球的头条新闻。亚马逊的模型是基于有偏见的数据进行训练的,这些数据偏向于男性应聘者。该模型构建了不利于含有“Women’

DL时代的代码补全利器,效果远超语言模型

 
从程序员到数据工程师,编写程序代码是一项基本功,但是编写冗长代码的过程也极大地消耗了开发者的耐心。近来,有不少关于代码补全工具的消息爆出,例如,来自美国的Kite,来自加拿大的TabNine等,一时间获得了不少程序员的关注。但其实很多人还并不知道,在这些国外产品不断被媒体推送的背后,有一款能力更为强大、更早将深度学习应用于代码补全的产品,一款源自中国的工具——aiXcoder,它的研发者们

滴滴开源自然语言理解模型训练平台DELTA

当地时间7月28日至8月2日,自然语言处理领域顶级会议ACL2019在意大利佛罗伦萨召开,会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台DELTA,以进一步帮助AI开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力NLP应用更好落地。
滴滴自然语言处理首席科学家KevinKnight在ACL2019现场
DELTA是滴滴第22个开源项目。自然语言处理模型和语音

在浏览器中使用TensorFlow.js和Python构建机器学习模型

概述

 TensorFlow.js(deeplearn.js)使我们能够在浏览器中构建机器学习和深度学习模型,而无需任何复杂的安装步骤。
 TensorFlow.js的两个组件——CoreAPI和LayerAPI。
 了解如何构建一个很棒的使用Tensorflow.js对网络摄像头中的图像进行分类的模型。

介绍
你喜欢用什么工具来编写机器学习模型?数据科学家们对这个永恒的问题会给出各种不同

技惊四座的BERT全靠数据集?大模型霸榜或许是学界的灾难

作为2018年自然语言处理领域的新秀,BERT是过去几年自然语言处理(NLP)领域的集大成者,一经出场就技惊四座,碾压所有算法,刷新了11项NLP测试的最高纪录,甚至有「超越人类」的表现,它被认为是未来NLP研究和工业应用最为主流的语言模型之一。

然而最近台湾国立成功大学的一篇论文却给人们泼了冷水。这一研究认为,BERT至少在ARCT任务上利用了不正常的统计线索。正是这些统计线索,BERT