总算是赶在2023年的尾巴,和杭州以及上海的几个同事去普陀山、宁波旅游了一波,用掉了公司一年一度的outing经费和假期。很巧的是在定好outing目的地以后不久,少数派上也发了一篇关于宁波的文章:《城市漫步指南:宁波,用桂花香开启一整个秋天》,更加深了对宁波的期待。
基于自适应损失函数的句子级远程监督关系抽取
摘要:远程监督关系抽取是一种关系抽取方法,现有方法主要采用多实例学习,在具有相同实体对的样例包上进行关系抽取。但是,包级方法只能缓解却并不能完全解决错误标签问题。基于此,文中首先分析了干净数据和噪声数据的分布,提出了一种新的自适应损失函数;在此基础上,提出了一种基于自适应损失函数的句子级远程监督关系抽取方法。在公开数据集NYT-10以及基于TACRED的合成数据集上的实验结果表明:文中提出的方法优于文献中的方法,能够更有效的区分错误标签噪声样例和干净样例,提高了句子级远程监督关系抽取的准确率。
关键词:自然语言处理;信息抽取;关系抽取;远程监督;噪声分离;噪声标注;负训练;自适应损失函数
SiriBlog四周年总结
第四周年博客最大的变化就是使用了自己开发的个人数据中心系统进行博客后台数据管理,因此也将侧栏中使用多年的clustrmaps下线,使页面加载速度有了大幅提升。 在过去一年中一共发布了23篇文章。主要集中于22年十一月份到十二月份发布的个人数据中心系列文章。该文同步发布于少数派,并被编辑推荐至首页。 ...
个人数据中心:使用腾讯云函数进行任务调度
由于一些数据采集任务需要访问外网API接口,在服务器没有配置代理的情况下无法正常采集。同时,由于我买的服务器内存只有2G,服务部署多了以后服务器资源压力比较大。所以将一部分数据采集和Web接口服务迁移到腾讯云函数进行部署,使用了半年多以后感觉还是挺不错的。
个人数据中心:获取Switch游戏记录
Switch是我目前的主力游戏平台,在实现了Steam游戏数据采集以后,一直有实现Switch数据采集的执念。相较于可以使用Steam官方的API接口,任天堂官方并没有向普通用户开放接口,使得Switch游戏数据的获取极为困难。但因为Jump等一些应用平台上都上线了Switch账户绑定与游戏时长统计的功能,使我相信一定是有办法可以实现Switch数据采集的。
起初想在任天堂官网找到相关的开发文档,但是并没有收获,反倒是发现目前网上的一些可行方案都是社区通过逆向工程解析出的Web API,不过流程相当复杂。好在最终找到了一篇基于python实现的文章,得以将流程跑通。
因为我都是使用日服账号进行游戏,并开通了任天堂会员以同步游戏数据到云服务器,所以我的所有游玩记录都集中在日服账号上。本文计划获取自己Switch日服账户中所有游戏的信息以及各时段的游玩时长记录,并存储到个人数据中心当中。
个人数据中心:获取Steam游戏记录
由于Steam官方提供了Web API接口和文档,因此我们可以很方便的获取自己的游戏记录,并存储到个人数据中心当中。
本文计划获取自己Steam游戏库中所有游戏的信息以及各时段的游玩时长记录。