1. 吴信东,白盛兴,卜晨阳. “一种匿名信息源网络实体消岐方法、设备及存储介质“. 发明专利, 专利号: ZL 2024 1 0804242.X.
2. 张赞,张哲,盛绍静,吴信东. “基于坐标信息的家谱树展示方法及装置、电子设备“. 发明专利, 专利号: ZL 2022 1 0826051.4.
3. 吴信东,盛绍静,刘古刘,张赞. “家谱知识图谱的噪音检测方法及其装置、电子设备”. 发明专利, 专利号:ZL 2022 1 0082551.1.
4. 吴信东,洪炎,卜晨阳. “基于规则信息的高质量噪音检测方法与装置“. 发明专利, 专利号: ZL 2022 1 0135548.1.
5. 吴信东,盛绍静,卜晨阳. “家谱分卷方法及装置、电子设备“. 发明专利, 专利号: ZL 2021 1 1095570.X.
6. 吴信东,陈浩,卜晨阳. “家谱登记表的信息抽取方法及其装置、电子设备“. 发明专利, 专利号: ZL 2021 1 0888402.X.
7. 吴信东, 盛绍静,周鹏,卜晨阳. “文本处理方法、装置、非易失性存储介质及处理器“, 发明专利, 专利号:ZL 2021 1 0456229.6.
8. 吴信东, 赵海霞,李磊,卜晨阳. “转换字符的方法及装置“, 发明专利, 专利号:ZL 2021 1 0378904.8.
9. 吴信东, 盛绍静,周鹏,卜晨阳. “家谱数据的处理方法及装置“, 发明专利, 专利号:ZL 2021 1 0251319.1.
10. 吴信东, 刘古刘, 李磊. “同名人物的识别处理方法及处理装置“, 发明专利, 专利号:ZL 2020 1 0167476.X.
11. 吴信东,蒋婷婷,卜晨阳. “权限控制方法及装置“, 发明专利, 专利号:ZL 2020 1 1027179.1.
12. 吴信东,盛绍静,卜晨阳,周鹏. “家谱打印方法及装置“, 发明专利, 专利号:ZL 2019 1 1167599.7.
13. 吴信东,钟凌峰,朱毅. “家谱的识别方法及装置、存储介质、处理器“, 发明专利, 专利号:ZL 2019 1 1067405.6.
14. 吴信东,李娇,周鹏. “家谱数据的处理方法及装置,处理器“, 发明专利, 专利号:ZL 2019 1 0640336.7.
15. 吴信东,董丙冰,朱毅. “数据集成方法及装置”, 发明专利, 专利号:ZL 2019 1 0528294.8.
16. 吴信东,蒋婷婷,卜晨阳,李磊,刘啸剑. “一种针对家谱人物属性名称的融合方法”, 发明专利, 专利号:ZL 2018 1 0990234.3.
17. 李磊,刘古刘,吴共庆,吴信东. “一种基于区块链的智能合约的众包构建方法“, 发明专利, 专利号:ZL 2017 1 0104393.4.
家谱数据集:Genealogy-MBW
2. 文档下载
下载链接 | 描述 |
---|---|
Genealogy-MBW-数据集描述(中文版) |
Genealogy-MBW中文版数据集描述 |
Genealogy-MBW-Introduction(English) |
Genealogy-MBW英文版数据集描述 |
Genealogy-MBW-readme.txt |
Genealogy-MBW使用简介 |
Genealogy-MBW-nodes.txt |
Genealogy-MBW节点文件 |
Genealogy-MBW-edges.txt |
Genealogy-MBW边文件 |
3. Genealogy-MBW中文版数据集描述
3.1 简介
Genealogy-MBW来源于华谱系统(https://www.zhonghuapu.com/),是一份真实的家谱数据集,这份家谱以元代大德七年(1303年)徽州府婺源县出生、明朝搬迁到安庆府桐城县(现枞阳县)的一位吴姓祖宗开始(数据集里编号为0),记录了至2020年12月最近一次修谱竣工时他的所有后代数据,包括23646位有具体名字且属于这位吴姓的直系后代。为便于同家谱文化和图数据研究者共享,华谱系统提供此份仅包含单独立世人物的家谱数据,隐私信息已匿名处理。
华谱系统的家谱图数据库中,节点表示家谱人物,边表示人物之间的关系,节点的属性提供人物的描述信息。如图1所示,0、1、7323为三个节点,1、7323分别是0的儿子和隔16代的男性后代。至2022年7月,华谱系统已存储超过1855万人物节点和1130份家谱。
3.2 详细信息
表1是Genealogy-MBW数据集的详细信息,该数据集包含两个文件:Genealogy-MBW-nodes.txt文件提供关于节点全部描述信息,Genealogy-MBW-edges.txt提供关于边的信息,详细描述见图2、图3。
表2 是节点属性、属性值和特性的介绍,图2是Genealogy-MBW-nodes.txt文件中节点的介绍,其中属性值为空时表示该属性不适用。例如,“0,male,2,,1,,”表示id为0的男性人物,其家庭排行为2,世辈为1,过继家庭排行和隔代相连值不适用此人物;“8477,male,3,1,18,,”表示id为8477的男性人物,其家庭排行为3,过继家庭排行为1,世辈为18,隔代相连值不适用此人物。
图3是Genealogy-MBW-edges.txt 文件的介绍,其中的关系类型中英文对照表给在了表3中。表中隔代后代是一种特殊关系,它表示家谱中仅记录有某一人物的辈分和已知的最近直系先祖,而从这位直系先祖至该人物的中间人物均无法考证。为最大化保存家谱完整性,华谱系统中设计了这个新型关系来连接此人物和其直系先祖,在节点隔代相连值属性中保存其与直系先祖隔代值。
1. 家谱分卷源码下载
为促进家谱分卷算法研究,华谱系统现提供家谱算法TPA源码,下载链接如下:TPA_CODE。
2. 运行
2.1 在华谱系统【家谱数据集】模块下载家谱数据集:Genealogy-MBW;
2.2 修改main.py文件中文件路径,运行main.py文件即可完成分卷工作。