小昇的博客

学习 生活 分享

从 Word Embedding 到 Bert 模型

自然语言处理中的预训练技术发展史

转载自《从WordEmbedding到Bert模型—自然语言处理中的预训练技术发展史》,作者:张俊林 Bert 最近很火,应该是最近最火爆的 AI 进展,网上的评价很高,那么 Bert 值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多 NLP 的任...

重磅调查:寻找中国毒枭

芬太尼是如何从中国流向美国的?

转载自《重磅调查:尋找中國毒梟》,作者:吴婧。 本文由端传媒记者和《纽约时报》(The New York Times)特约撰稿人Alex W. Palmer合作报道,材料共享,独立成文。美国当地采访皆由Alex W. Palmer完成。 瑞恩·詹森(Ryan Jensen)做“生意”有个规矩——每位顾客每次只能购买一次剂量的芬太尼(fentanyl)。这名北达科他州(Nort...

专访周永康:这场运动激活了香港,在痛苦中打开未来

对理想香港的追求、对现况的极度不满

转载自《端传媒》,作者:何欣洁。 周永康,2014 年雨伞运动期间担任学联秘书长,于 2016 年因参与重夺“公民广场”行动,被判非法集会罪成立。 五年前的 9 月 26 日,香港专上学生联会(学联)秘书长周永康与其他学生发起秘密行动,重夺被政府封锁的“公民广场”(政府总部东翼广场),行动随即遭警方清场、数十名学生遭逮捕,引燃群众前来声援。9 月 28 日,后被称为“占...

中国网民,地球上收入最高的群体

当代互联网用户画像:年薪 30 万,人均 985

转载自公众号凤凰WEEKLY,作者:夏二 闫如意,编辑 菠菜 中国最有钱的人都在哪里? 答:知乎、豆瓣、朋友圈。 据网友估算,知乎人均收入完爆卡塔尔皇室,豆瓣大概能跟美利坚高级中产一个水平。更别提朋友圈,总有那么一群人,跟不用上班似的,一天换一个国家的定位。中国人均 GDP 还不到 7 万,但混迹于互联网的网友们,似乎早已率先全国人民,实现了全面小康、全员中产。每天都有正飞往美...

Transformer 如戏,全靠 Mask

从语言模型到 Seq2Seq

转载自《从语言模型到Seq2Seq:Transformer如戏,全靠Mask》,作者:苏剑林。 相信近一年来(尤其是近半年来),大家都能很频繁地看到各种 Transformer 相关工作(比如 Bert、GPT、XLNet 等等)的报导,连同各种基础评测任务的评测指标不断被刷新。同时,也有很多相关的博客、专栏等对这些模型做科普和解读。 俗话说,“外行看热闹,内行看门道”,我们不仅...

使用 Keras 搭建模型识别验证码

通过 Web API 提供识别服务

最近因为项目上的需求,需要开发一个识别 4 位数字字母验证码的接口。想到自己虽然在科研上使用 Keras 已经有很长时间,但从来没有真正地将这些模型运用起来,或者说以 Web API 的形式对外提供过服务。因此借着这次机会,我正好完整地进行了一次从训练模型到最终包装成网络服务的开发。 准备工作 获取标注数据 无论什么类型的任务,只要希望通过机器学习方法来解决,那么必不可少的就是数据,可...

Keras 使用技巧

一个极其友好、极其灵活的高层深度学习 API 封装

本文汇总了苏剑林的《让Keras更酷一些》系列的部分文章,部分内容有删改。 Keras 伴我走来 回想起进入机器学习领域的这两三年来,Keras 是一直陪伴在笔者的身边。要不是当初刚掉进这个坑时碰到了 Keras 这个这么易用的框架,能快速实现我的想法,我也不确定我是否能有毅力坚持下来,毕竟当初是 theano、pylearn、caffe、torch 等的天下,哪怕在今天它们对我...

Seq2Seq 模型入门

NLP 与深度学习结合的经典之作

转载自《玩转Keras之seq2seq自动生成标题》和《seq2seq之双向解码》,作者:苏剑林,部分内容有修改。 所谓 seq2seq,就是指一般的序列到序列的转换任务,比如机器翻译、自动文摘等等,这种任务的特点是输入序列和输出序列是不对齐的,如果对齐的话,那么我们称之为序列标注,这就比 seq2seq 简单很多了。所以尽管序列标注任务也可以理解为序列到序列的转换,但我们在谈到 ...

基于 DGCNN 和概率图的轻量级信息抽取模型

膨胀门卷积神经网络

转载自《基于DGCNN和概率图的轻量级信息抽取模型》,作者:苏剑林,部分内容有删改。 背景:前几个月,百度举办了“2019 语言与智能技术竞赛”,其中有三个赛道,而我对其中的“信息抽取”赛道颇感兴趣,于是报名参加。经过两个多月的煎熬,比赛终于结束,并且最终结果已经公布。笔者从最初的对信息抽取的一无所知,经过这次比赛的学习和研究,最终探索出在监督学习下做信息抽取的一些经验,遂在此与大...

基于CNN的阅读理解式问答模型:DGCNN

膨胀门卷积神经网络

DGCNN 是苏剑林提出的一个基于 CNN 和简单的 Attention 的模型,由于没有用到 RNN 结构,因此速度相当快,而且是专门为 WebQA 式的任务定制的,因此也相当轻量级。 DGCNN (Dilate Gated Convolutional Neural Network) 即“膨胀门卷积神经网络”,它融合了两个比较新的卷积用法:膨胀卷积、门卷积,并增加了一些人工特征和...