自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

CSer

Ard的笔记

  • 博客(480)
  • 资源 (1)
  • 收藏
  • 关注

原创 中文查不到然后自己总结的NLP知识

注:用作个人笔记,不保证正确性。有心让中文有更多的博客,但没太有时间整理,希望氛围能越来越好吧!SARI : 一种文本生成的评价方法,主要从词共现的角度衡量操作,来源于论文:Automatic annotation and evaluation of error types for grammatical error correction.中心思想如图:re-rank 或者 re-score:一种优化生成结果的方法:主要是由于单方向容易受分布偏差的影响,于是训练两个模型:left2right 和

2020-12-14 18:08:23 57

原创 博客链接记录

关于LSTM的原理:http://colah.github.io/posts/2015-08-Understanding-LSTMs/

2020-12-10 11:52:12 29

原创 一些小bug记录

matplotlab 绘图时:f8,=plt.plot(x, result[‘f8’][ff])plt.legend(handles=[f5, f7, f8],labels=[‘f5’, ‘f7’, ‘f8’],loc=‘best’)一开始图例没有显示:需要在f8后面加逗号一开始y坐标没有按顺序排列:需要将y转化为float(之前是字符)...

2020-11-17 19:25:11 76

原创 linux 常用命令备忘(持续更新)

命令描述ps -u列出当前进程kill -9 进程号杀死进程nvidia -smi列出GPU使用情况top列出CPU使用情况screen -ls / -r 窗口号 / ctrl A + d/k分别是列出、恢复、挂起、杀死mv/cp a b移动/复制文件,可重命名scp -P 端口号 用户名@地址 用户名@地址传输文件watch -n 秒数 命令重复执行刷新命令find | grep 字符串递归寻找目录下含有字符串的文件名...

2020-11-05 11:16:29 129

原创 python 基本语法备忘笔记(持续更新)

行列转置:numpy.transpose(list/array)

2020-09-06 13:34:46 68

转载 numpy不同阶数张量相加问题(broadcast)

设有 阶张量 , 阶张量 。如果 和 的最后 个维度相等。且其中一个张量,不妨设为 ,的前 个都等于1或者 。则这两个张量可以进行有效的相加。就好比一个低阶的张量加到高阶的张量的每个元素上去。最典型的有样本数据的去中心化操作, 。 是数据向量(1阶张量),而 则是标量(0阶张量),是一个更高阶张量的每个元素减去低阶张量的操作,而每个元素需要与低阶张量有相同的形状(shape)。而最终相加后的到的张量的阶数是相对高阶张量的阶数。例子:import numpy as np2阶张量+3阶

2021-01-21 22:31:11 12

转载 使用Bert模型的run_classifier进行Fine-Tuning

首先我们需要下载中文模型文件,直接给出链接下载即可https://pan.baidu.com/s/1-c068UOgfhrMyIIhR5fHXg,提取码是: 2z2r,解压完成后会出现五个文件,其中一个词汇表文件vocab.txt,还有三个Bert tensorflow的模型文件,这里就不一一列举了,还有一个参数设置文件bert_config.json。接下来再去github上down下来模型就可以开始搞了! 开搞! 首先在main()下面的processors里面创建一个自己的项目,例如我自己的创建.

2021-01-21 12:16:20 31

原创 用软链接建立循环目录(fun

mkdir tcd tvim tt……ln -s ../t t成果!:

2021-01-19 21:33:16 13

转载 硬链接(hard link)和符号连接(symbolic link)的区别

硬链接(hard link)和符号连接(symbolic link)的区别:通俗一点理解,可以把硬链接当成源文件的副本,他和源文件一样的大小但是事实上却不占任何空间。符号链接可以理解为类似windows一样的快捷方式。一、链接文件链接文件有两种方式,符号链接和硬链接。1、符号链接文件符号链接,这个文件包含了另一个文件的路径名。可以是任意文件或目录,也可以链接不同文件系统的文件。甚至可以链接不存在的文件,这就产生一般称为“断裂”的问题(现象),还可以不断的循环链接自己。用ln -s 命令可以生成

2021-01-19 21:09:43 15

原创 给python初学者的一些建议

环境方面安装anaconda、python并配好路径安装vscode,安装python插件、plance插件、jupyter插件等尝试conda 建立虚拟环境,一般在虚拟环境中操作在学习语法/做实验的时候,建议先通过notebook来尝试python教程方面可以先看廖雪峰的教程 https://www.liaoxuefeng.com/wiki/1016959663602400一开始先看到面向对象就行,感觉一些特别难的可以以后用到再学再选择看一些视频即可要自己敲完示例代码,并尝试改变,

2021-01-19 18:25:12 47

转载 Tmux 快捷键 & 速查表 & 简明教程

注意:本文内容适用于 Tmux 2.3 及以上的版本,但是绝大部分的特性低版本也都适用,鼠标支持、VI 模式、插件管理在低版本可能会与本文不兼容。Tmux 快捷键 & 速查表 & 简明教程启动新会话:tmux [new -s 会话名 -n 窗口名]恢复会话:tmux at [-t 会话名]列出所有会话:tmux ls关闭会话:tmux kill-session -t 会话名关闭所有会话:tmux ls | grep : | cut -d. -f1 | awk '

2021-01-17 18:45:09 19

转载 linux 下shell中if的“-e,-d,-f”的含义

文件表达式-e filename 如果 filename存在,则为真-d filename 如果 filename为目录,则为真-f filename 如果 filename为常规文件,则为真-L filename 如果 filename为符号链接,则为真-r filename 如果 filename可读,则为真-w filename 如果 filename可写,则为真-x filename 如果 filename可执行,则为真-s filename 如果文件长度不为0,则为真-h fil

2021-01-17 17:54:53 79

原创 vscode 使用 git 和 github

记录一下自己开始使用的步骤备忘首先在本地建一个仓库:使用命令行或者直接点击vscode git 初始化都行然后可以点击按钮,进行commit之类的注:ctrl+shift+P,输入git,会看到VS CODE支持的所有git命令。其他就是一些:分支、冲突、合并之类的,可以再学习下面是push到github:首先在github上建立仓库然后复制链接,输入:git remote add origin https://github.com/xuanhun/vscode.gitgit pull

2021-01-17 11:06:27 37

原创 vscode 显示/设置隐藏文件夹

进入设置搜索exclude然后可以修改pattern,根据你想显示的文件模式

2021-01-17 09:33:07 32

原创 计算机网络:IPV4协议收发实验

IPV4协议收发实验实验目的​ 根据计算机网络实验系统所提供的上下层接口函数和协议中分组收发 的主要流程,设计实现一个简单的 IPv4 分组收发模块。​ 要求实现的主 要功能包括:​ 1) IPv4 分组的基本接收处理;包括:检查目的地址是否为本地地址,并检查 IPv4 分组头部中其它字段的合法性。提交正确的分组给上层协议继续处理,丢弃错误的分组并说明错误类型​ 2) IPv4 分组的封装发送;包括:根据上层协议所提供的参数(存活时间、源地址、目标地址等)来填充,并计算校验和,封装 IPv4

2021-01-07 13:54:19 48

原创 乐理知识学习

从一开始对音乐觉得无聊,到后来的喜欢,人确实是慢慢成长的。新年开个坑,开始学音乐。还没决定要不要学小提琴,觉得很多伟大的灵魂都在小提琴上寄托了沉思。一直也很喜欢小提琴。现在不学,以后也会学,不为拉的多好,会成为一生的兴趣吧。眼下先记录一下一些乐理知识:五线谱知识...

2021-01-01 23:28:47 34

转载 LSTM调参经验(细读)

0、开始训练之前先要做些什么?在开始调参之前,需要确定方向,所谓方向就是确定了之后,在调参过程中不再更改1、根据任务需求,结合数据,确定网络结构。例如对于RNN而言,你的数据是变长还是非变长;输入输出对应关系是many2one还是many2many等等,更多结构参考如下 非RNN的普通过程,从固定尺寸的输入到固定尺寸的输出(比如图像分类)输出是序列(例如图像标注:输入是一张图像,输出是单词的序列)输入是序列(例如情绪分析:输入是一个句子,输出是对句子属于正面还是负面情绪的分类)...

2020-12-30 12:26:55 124

转载 Tensorflow: Cannot dlopen some GPU libraries. Skipping registering GPU devices...

Cannot dlopen some GPU libraries. Skipping registering GPU devices… 很久没搞Tensorflow了,又出了一些问题,这里作个备份 可能的问题为: 1,cuda和安装的tensorflow版本不对应 可参考:Tensorflow与cuda版本对应关系 2, 未...

2020-12-01 21:40:19 160

原创 2min 把公钥添加到服务器 ssh免密码登录(亲测有效)

很简单,大致步骤:本机生成ssh公钥服务器生成ssh公钥本机公钥复制到服务器authorized_key命名等后续操作实现效果:ssh wlab(例子) 迅速登录 每次ssh连接服务器都要 ssh root@10.66.66.66 然后输入密码。很麻烦!把公钥放到服务器上再起个别名,直接ssh test 就好啦。。 1、生成 SSH 公钥 大多数 Git 服务器都会选择使用 SSH 公钥来进行授权。系统中的每个用户都必须提供一个公钥用于授权,没有

2020-11-25 12:22:00 164 1

原创 AAAI 2020 NLP 语法纠错相关论文笔记

MaskGEC: Improving Neural Grammatical Error Correction via Dynamic MaskingMotivationNMT methods need a fairly large parallel corpus of error-annotated sentence pairsOur methodsadding random masks to the original source sentences dynamicallyin the trai

2020-11-24 22:59:52 203

原创 句法分析 syntactic parsing 课堂笔记

2020-11-24 17:47:19 48

转载 如何解决神经网络训练时loss不下降的问题

<p>点击量:64465</p>(在苹果系统下,如果文章中的图片不能正常显示,请升级Safari浏览器到最新版本,或者使用Chrome、Firefox浏览器打开。)当我们训练一个神经网络模型的时候,我们经常会遇到这样的一个头疼的问题,那就是,神经网络模型的loss值不下降,以致我们无法训练,或者无法得到一个效果较好的模型。导致训练时loss不下降的原因有很多,而且,更普遍的来说,loss不下降一般分为三种,即:训练集上loss不下降,验证集上loss不下降,和测试集...

2020-11-20 15:04:13 555

转载 Linux中的重定向,大于号>,小于号<

我们在处理脚本的运行结果时,有时候会看到类似这样的命令:node server.js > stdout.txt 2> stderr.txt < /dev/null &复制代码要理解上边这句话的含义,我们需要了解的重点就在于大于号,小于号,以及数字的作用。数字linux 中的 IO 共有三种形式0: 标准输入,stdin1: 标准输出,stdout2: 标准错误输出,stderr方向符号大于号>: 将产生的内容(比如日志)输出到某个文件小于号<:

2020-11-18 12:30:21 331

转载 screen使用教程

原文地址:使用 screen 代替 nohup​www.dreamwings.cn文章发表时间 2020 年 02 月 01 号,忘记同步了 QAQUPD 2020.02.22:Tmux 真香,博主已叛逃~~~序言最近赶 ddl 每天都要做好多好多的实验得出结果,然鹅深度学习的任务每次一般都要跑很久,在这个期间如果 VPN 断开或者其他不可抗拒的因素都会让前面的训练白跑了 QAQ没错,千千用的就是组里申请到的服务器,所以得连接 VPN 才能访问到,没钱自己买嘤嘤嘤 +--------------------

2020-11-18 11:47:54 199

原创 使用shell脚本提高效率

python mysp.py -f 5 -t train.txt -i 30python mysp.py -f 5 -p dev.txtpython mysp.py -f 7 -t train.txt -i 30python mysp.py -f 7 -p dev.txtpython mysp.py -f 8 -t train.txt -i 30python mysp.py -f 8 -p dev.txtpython mysp.py -f 10 -t train.txt -i 30python

2020-11-17 19:22:04 119

转载 寻找机器学习数据集的方法 | 附数据集资源(转载)

乾明 发自 凹非寺量子位 出品 | 公众号 QbitAI在训练机器学习模型时,找到合适的数据集一直是个棘手的问题。近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法。通过这些方法,不仅能够找到大量的实验数据集及相关的描述和使用示例。在某些情况下,还会有用于训练数据集的算法代码。以下,就是他介绍的8种方法:1、Kaggle数据集Kaggle的数据集中,包含了用于各种任务,不同规模的真实数据集,而且有许多不同的格式。此外,你还可以在这里找到与每个数据集相关联的交互式笔记本Kern

2020-11-12 11:48:50 143

转载 神经机器翻译中有用的技巧

本篇总结神经机器翻译的实践中,较为基础的最佳实践。应该使用哪个模型作为基线Transformer是2017年发布的模型,即使到2020年仍然是比较好的基线模型,大热的BERT就是其升级版。代码地址Fairseq这里实际推荐比较使用Fairseq指定arch为Transformer,按照官方教程直接就可以跑起来。为了便于理解和快速使用Fairseq,也可以浏览一些中文博客:利用Fairseq训练新的机器翻译模型 - 冬色 - 博客园,Fairseq-快速可扩展的序列建模工具包 - 冬色...

2020-11-05 20:15:21 103

转载 深入理解NLP Subword算法:BPE、WordPiece、ULM

CHANGLOG4/18/2020,规范化引用3/27/2020,新增目录。前言Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后,各路预训练语言模型如同雨后春笋般涌现,其中Subword算法在其中已经成为标配。所以作为NLP界从业者,有必要了解下Subword算法的原理。目录与传统空格分隔tokenization技术的对比Byte Pair EncodingWordPieceUnigram Language Model总结1. 与传统

2020-11-04 23:24:39 223

原创 Text Summarization with Pretrained Encoders 论文笔记

Text Summarization with Pretrained Encoders大致介绍我们的工作是将bert用于文本摘要,并提出了生成式和抽取式文本摘要模型的框架我们提出了基于bert的文档级的编码器抽取式模型在这个编码器后面加了几个transformer层生成式模型:我们提出新的微调方法(对encoder和decoder不一样)来缓解两者的不匹配(encoder被pretrain过)综合两种方式的方法:微调两次,都微调我们的贡献:突出了文档编码的重要性(相对于近年来的复制

2020-10-24 15:29:39 211

原创 Encode, Tag, Realize High-Precision Text Editing 论文笔记

Encode, Tag, Realize High-Precision Text Editing大致介绍把文本生成任务看做文本编辑。有:keep,delete,add(before)。novel model:combines a BERT encoder with an autoregressive Transformer decoder四个任务:sentence fusion, sentence splitting, ab-stractive summarization, and grammar

2020-10-24 15:24:00 150

原创 An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction 论文笔记

An Empirical Study of Incorporating Pseudo Data into Grammatical Error CorrectionMotivationWe tackle GEC as MT, but EncDec requires a large amount of training data. So the method of augmenting the data by incorporating pseudo training data has been studi

2020-10-15 22:36:37 90

原创 查看gpu使用情况及用户

分屏指令:tmuxgpu使用情况:gpustat

2020-09-13 11:52:10 426

转载 Linux查看GPU信息和使用情况

Linux查看显卡信息:lspci | grep -i vga使用nvidia GPU可以:lspci | grep -i nvidia前边的序号 "00:0f.0"是显卡的代号(这里是用的虚拟机);查看指定显卡的详细信息用以下指令:lspci -v -s 00:0f.0Linux查看Nvidia显卡信息及使用情况Nvidia自带一个命令行工具可以查看显存的使用情况:nvidia-smi表头释义: Fan:显...

2020-09-13 11:35:29 168

转载 训练神经网络中最基本的三个概念:Epoch, Batch, Iteration

今天让我们来总结下训练神经网络中最最基础的三个概念:Epoch, Batch, Iteration。1. 名词解释2. 换算关系 实际上,梯度下降的几种方式的根本区别就在于上面公式中的 Batch Size不同。*注:上表中 Mini-Batch 的 Batch 个数为 N / B + 1 是针对未整除的情况。整除则是 N / B。3. 示例CIFAR10 数据集有 50000 张训练图片,10000 张测试图片。现在选择 Batch Size = 256 对模型进行训练。每个 Epoch 要训练的图片数量

2020-09-13 11:10:07 155

转载 BLEU 评价 NLP 文本输出质量

  登录/注册 首页  直播  专题  电子书  话题  免费视频  技术博客  技术大会极客时间极客大学团队学习高端会员 研究报告

2020-09-06 12:04:18 106

转载 Neural Machine Translation With PyTorch

一份自我感觉很好的入门教程,只是看了一遍,不知道日后会不会翻译一下直接复制粘贴来的,建议去看原文,见转载链接 Neural Machine Translation With PyTorch Tutorial 1: Encoder-Decoder Jul 8, 2018 Recently I did a workshop about Deep Learning for Natural Langua

2020-09-03 09:43:45 51

转载 seq2seq中的beam search算法过程

在sequence2sequence模型中,beam search的方法只用在测试的情况,因为在训练过程中,每一个decoder的输出是有正确答案的,也就不需要beam search去加大输出的准确率。假设现在我们用机器翻译作为例子来说明,我们需要翻译中文“我是中国人”--->英文“I am Chinese”假设我们的词表大小只有三个单词就是I am Chinese。那么如果我们的beam size为2的话,我们现在来解释,如下图所示,我们在decoder的过程中,有了beam search方法后,在

2020-09-01 19:28:55 93

原创 Python中 list, numpy.array, torch.Tensor 格式相互转化

Python中 list, numpy.array, torch.Tensor 格式相互转化1.1 list 转 numpyndarray = np.array(list)1.2 numpy 转 listlist = ndarray.tolist()2.1 list 转 torch.Tensortensor=torch.Tensor(list)2.2 torch.Tensor 转 list先转numpy,后转listlist = tensor.numpy().tolist()3.1 to

2020-08-25 08:08:30 384

转载 python 列表生成式 语法

列表生成式 简单的说,列表生成式就是快速,有B格的生成一个列表,生成列表之后,可以进行相应操作,转换为别的数据形式。 列表生成式 是写在 [] 中的式子,结果会输出一个列表。 将要生成的数据形式的表达式放在前面,后面跟上 for 循环,如果有其他条件进行筛选,还可以跟上 if else 进行操作。 ...

2020-08-23 08:53:19 154

原创 conda强制升级后无法安装包

本来只想安装个graphviz用一下,结果大厦崩塌了具体经过:(当事人焦头烂额事后回忆)conda install graphviz,显示版本不一致无脑 pip install,成功了,但是不能用conda install anaconda,显示setuptools不能removeconda update conda ,依旧这个问题conda update --force conda,很快结束了噩梦开始了。。conda install再也不能安装任何包了,install等命令显示OSerro

2020-08-04 16:47:36 177 4

Tetris.java

北京大学java作业俄罗斯方块代码实现的主要模块 包括下降,消行,积分,生成模块,bot接口等等等等的功能 设计良好 欢迎下载

2020-04-03

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除