小昇的博客

学习 生活 分享

BERT 浅析

快速上手使用 BERT

2018 年 10 月 11 日,Google AI Language 发布了论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,其中提出的 BERT 模型在 11 个 NLP 任务上的表现刷新了记录,在自然语言处理学界以及工业界都引起了不小的热议。BERT 的出现,彻底改变...

香港到底赢了什么?

制度维护者问反修例

林郑月娥7月9日在行政会议前会见记者,神色凝重地指出,修例的工作已经“彻底、全面地停止下来”。(路透社) “我们要赢,就一起继续赢下去。要输,我们就要输十年,我们整个公民社会十年永不翻身。”7月1日当晚,占领立法会的示威者摘下口罩的慷慨陈词,令不少市民动容,纷纷呼吁“不笃灰、不割席、不指摘”。然而,这一幕幕在制度维护者看来,却是忧心忡忡,不禁要问:“我们香港到底赢了什么?” 有人会说...

好一个孙宇晨,连巴菲特也不放过

巴菲特首个90后饭友

距离热心企业家10万元奖励见义勇为好市民的戏码上演不过3个月,孙宇晨又上热搜了。 折合成人民币,总价约 3154.03万元,孙宇晨用这些钱买了顿和股神巴菲特的西式午餐。这引起了币圈的集体高潮,并将其称为“old money与new money”的交锋。赞美者称“孙哥牛叉666”,明嘲者觉得其蹭热点的对象只剩特朗普。 除去消息宣布前“干了件大事,三天后宣布”“让子弹飞一会”的两条预热微...

八九春夏,其实发生的是“两场运动”

边缘化的六四论述

对于六四运动的深入理解,需要我们同时跳出这两种叙事:既告别“知识分子中心论”、重视工人和市民的参与,同时承认“民主”的确是工人和市民参与运动的核心诉求。最关键的是,工人与市民所理解的“民主”,和学生、知识分子所拥抱的民主观念有很大不同。 1989年5月18日,工人在北京街道以电单车游行声援天安门广场绝食的学生。摄:Catherine Henriette/AFP/Getty Im...

Vue.js 快速入门

真的很好用

该文为慕课网《3小时速成 Vue2.x 核心技术》的学习笔记,讲师 wayearn 1. 前言 Vue.js 是一个用于创建用户界面的开源 JavaScript 框架,也是一个创建单页面应用的Web应用框架。Vue 所关注的核心是 MVC 模式中的视图层,同时,它也能方便地获取数据更新,并通过组件内部特定的方法实现视图与模型的交互。 俗话说“工欲善其事,必先利其器”,我们首先配...

Keras深度学习笔记(四):机器学习基础

模型评估与正则化

1. 机器学习的四个分支 在《Keras深度学习笔记(三):神经网络入门》的例子中,我们已经介绍了三种类型的机器学习问题:二分类问题、多分类问题和标量回归问题。这三者都是监督学习 (supervised learning) 的例子,其目标是学习训练输入与训练目标之间的关系。 机器学习算法大致可分为四大类,将在接下来的四小节中依次介绍。 1.1 监督学习 监督学习是最常见的机器学习类型...

从变分编码、信息瓶颈到正态分布

论遗忘的重要性

本文转载自《从变分编码、信息瓶颈到正态分布:论遗忘的重要性》,作者:苏剑林 这是一篇“散文”,我们来谈一下有着千丝万缕联系的三个东西:变分自编码器、信息瓶颈、正态分布。 众所周知,变分自编码器是一个很经典的生成模型,但实际上它有着超越生成模型的含义;而对于信息瓶颈,大家也许相对陌生一些,然而事实上信息瓶颈在去年也热闹了一阵子;至于正态分布,那就不用说了,它几乎跟所有机器学习领域都...

Keras深度学习笔记(三):神经网络入门

层、网络、目标函数和优化器

本文将进一步介绍神经网络的核心组件,即层、网络、目标函数和优化器。并且通过三个介绍性示例深入讲解如何使用神经网络解决实际问题,这三个示例分别是: 将电影评论划分为正面或负面(二分类问题) 将新闻按主题分类(多分类问题) 根据房地产数据估算房屋价格(回归问题) 1. 神经网络剖析 训练神经网络主要围绕以下四个方面: 层,多个层组合成网络(或模型)。 输入数据和...

Keras深度学习笔记(二):神经网络的数学基础

张量运算、微分和梯度下降

要理解深度学习,需要熟悉张量、张量运算、微分、梯度下降等数学概念,本文将使用通俗的语言介绍这些概念。首先给出一个神经网络的示例,引出张量和梯度下降的概念,然后逐个详细介绍。 读完本章后,你会对神经网络的工作原理有一个直观的理解,然后就可以学习神经网络的实际应用了。 1. 初识神经网络 我们来看一个使用 Keras 库构建神经网络来学习手写数字分类的例子,将手写数字的灰度图像(28×28...

变分自编码器 VAE

Variational Auto-Encoder

转载自《变分自编码器(一):原来是这么一回事》,作者:苏剑林 通常我们会拿 VAE 跟 GAN 比较,的确,它们两个的目标基本是一致的——希望构建一个从隐变量 $Z$ 生成目标数据 $X$ 的模型,但是实现上有所不同。更准确地讲,它们是假设了 $Z$ 服从某些常见的分布(比如正态分布或均匀分布),然后希望训练一个模型 $X=g(Z)$,这个模型能够将原来的概率分布映射到训练集的概率...