Outing2023:普陀山&宁波
总算是赶在2023年的尾巴,和杭州以及上海的几个同事去普陀山、宁波旅游了一波,用掉了公司一年一度的outing经费和假期。很巧的是在定好outing目的地以后不久,少数派上也发了一篇关于宁波的文章:《城市漫步指南:宁波,用桂花香开启一整个秋天》,更加深了对宁波的期待。
基于自适应损失函数的句子级远程监督关系抽取
摘要:远程监督关系抽取是一种关系抽取方法,现有方法主要采用多实例学习,在具有相同实体对的样例包上进行关系抽取。但是,包级方法只能缓解却并不能完全解决错误标签问题。基于此,文中首先分析了干净数据和噪声数据的分布,提出了一种新的自适应损失函数;在此基础上,提出了一种基于自适应损失函数的句子级远程监督关系抽取方法。在公开数据集NYT-10以及基于TACRED的合成数据集上的实验结果表明:文中提出的方法优于文献中的方法,能够更有效的区分错误标签噪声样例和干净样例,提高了句子级远程监督关系抽取的准确率。
关键词:自然语言处理;信息抽取;关系抽取;远程监督;噪声分离;噪声标注;负训练;自适应损失函数
SiriBlog四周年总结
第四周年博客最大的变化就是使用了自己开发的个人数据中心系统进行博客后台数据管理,因此也将侧栏中使用多年的clustrmaps下线,使页面加载速度有了大幅提升。 在过去一年中一共发布了23篇文章。主要集中于22年十一月份到十二月份发布的个人数据中心系列文章。该文同步发布于少数派,并被编辑推荐至首页。 ...
个人数据中心:使用腾讯云函数进行任务调度
由于一些数据采集任务需要访问外网API接口,在服务器没有配置代理的情况下无法正常采集。同时,由于我买的服务器内存只有2G,服务部署多了以后服务器资源压力比较大。所以将一部分数据采集和Web接口服务迁移到腾讯云函数进行部署,使用了半年多以后感觉还是挺不错的。