1. 吴信东,白盛兴,卜晨阳. “一种匿名信息源网络实体消岐方法、设备及存储介质“. 发明专利, 专利号: ZL 2024 1 0804242.X.
2. 吴信东,王茹,卜晨阳,李天阳,吴萌. ”信息处理方法、装置、存储介质及电子设备“,发明专利,专利号:ZL 2023 1 0240315.2.
3. 吴信东,陈茹,刘古刘,朱毅,刘盼,薛明鹤,燕梦娇. “信息补全方法、装置、计算机可读存储介质及电子设备”. 发明专利, 专利号:ZL 2022 1 0682682.3.
4. 吴信东,赵海霞,张赞,卜晨阳,盛绍静. “家谱人物关联方法及装置、电子设备“. 国家发明专利, 专利号:ZL 2022 1 0700239.4.
5. 张赞,张哲,盛绍静,吴信东. “基于坐标信息的家谱树展示方法及装置、电子设备“. 发明专利, 专利号: ZL 2022 1 0826051.4.
6. 吴信东,盛绍静,刘古刘,张赞. “家谱知识图谱的噪音检测方法及其装置、电子设备”. 发明专利, 专利号:ZL 2022 1 0082551.1.
7. 吴信东,洪炎,卜晨阳. “基于规则信息的高质量噪音检测方法与装置“. 发明专利, 专利号: ZL 2022 1 0135548.1.
8. 吴信东,盛绍静,卜晨阳. “家谱分卷方法及装置、电子设备“. 发明专利, 专利号: ZL 2021 1 1095570.X.
9. 吴信东,陈浩,卜晨阳. “家谱登记表的信息抽取方法及其装置、电子设备“. 发明专利, 专利号: ZL 2021 1 0888402.X.
10. 吴信东, 盛绍静,周鹏,卜晨阳. “文本处理方法、装置、非易失性存储介质及处理器“, 发明专利, 专利号:ZL 2021 1 0456229.6.
11. 吴信东, 赵海霞,李磊,卜晨阳. “转换字符的方法及装置“, 发明专利, 专利号:ZL 2021 1 0378904.8.
12. 吴信东, 盛绍静,周鹏,卜晨阳. “家谱数据的处理方法及装置“, 发明专利, 专利号:ZL 2021 1 0251319.1.
13. 吴信东, 刘古刘, 李磊. “同名人物的识别处理方法及处理装置“, 发明专利, 专利号:ZL 2020 1 0167476.X.
14. 吴信东,蒋婷婷,卜晨阳. “权限控制方法及装置“, 发明专利, 专利号:ZL 2020 1 1027179.1.
15. 吴信东,盛绍静,卜晨阳,周鹏. “家谱打印方法及装置“, 发明专利, 专利号:ZL 2019 1 1167599.7.
16. 吴信东,钟凌峰,朱毅. “家谱的识别方法及装置、存储介质、处理器“, 发明专利, 专利号:ZL 2019 1 1067405.6.
17. 吴信东,李娇,周鹏. “家谱数据的处理方法及装置,处理器“, 发明专利, 专利号:ZL 2019 1 0640336.7.
18. 吴信东,董丙冰,朱毅. “数据集成方法及装置”, 发明专利, 专利号:ZL 2019 1 0528294.8.
19. 吴信东,蒋婷婷,卜晨阳,李磊,刘啸剑. “一种针对家谱人物属性名称的融合方法”, 发明专利, 专利号:ZL 2018 1 0990234.3.
20. 李磊,刘古刘,吴共庆,吴信东. “一种基于区块链的智能合约的众包构建方法“, 发明专利, 专利号:ZL 2017 1 0104393.4.
家谱数据集:Genealogy-MBW
2. 文档下载
| 下载链接 | 描述 |
|---|---|
|
Genealogy-MBW-数据集描述(中文版) |
Genealogy-MBW中文版数据集描述 |
|
Genealogy-MBW-Introduction(English) |
Genealogy-MBW英文版数据集描述 |
|
Genealogy-MBW-readme.txt |
Genealogy-MBW使用简介 |
|
Genealogy-MBW-nodes.txt |
Genealogy-MBW节点文件 |
|
Genealogy-MBW-edges.txt |
Genealogy-MBW边文件 |
3. Genealogy-MBW中文版数据集描述
3.1 简介
Genealogy-MBW来源于华谱系统(https://www.zhonghuapu.com/),是一份真实的家谱数据集,这份家谱以元代大德七年(1303年)徽州府婺源县出生、明朝搬迁到安庆府桐城县(现枞阳县)的一位吴姓祖宗开始(数据集里编号为0),记录了至2020年12月最近一次修谱竣工时他的所有后代数据,包括23646位有具体名字且属于这位吴姓的直系后代。为便于同家谱文化和图数据研究者共享,华谱系统提供此份仅包含单独立世人物的家谱数据,隐私信息已匿名处理。
该数据集采用统一的图数据模型组织:节点表示家谱人物,边表示人物之间的亲属关系,节点属性存储人物描述信息。数据构建依托真实历史文献与族谱资料,经过系统采集、加工、清洗、脱敏、结构化建模和持续治理。如图1所示,0、1、7323为三个节点,1、7323分别是0的儿子和隔16代的男性后代。截至 2026 年 5 月,华谱系统已累计存储超过 1869 万人物节点和 2380 份家谱。
与大规模通用数据集不同,Genealogy-MBW 虽总量适中,但在高技术含量、高知识密度、高数据质量、高应用价值等四个方面具有显著特色。其人物关系、代际逻辑和谱系结构整体自洽,数据内容与真实修谱记录相对应,并以可下载、可解析的标准化文件形式共享、流通。
Genealogy-MBW 主要体现出以下方面的“四高”特色与稀缺价值:
1. 高技术含量:数据获取应用了高技术手段。原始家谱资料多散存于民间、宗祠及地方档案中,部分为孤本、手抄本或年代久远的纸质文献,存在保存条件复杂、文字辨识困难、内容残缺、多源信息相互不一致等问题。本数据集的原始资料采集经历了实地寻访、多方核对与数字化整理过程,属于不可多得的真实谱系记录。该数据集的形成整合了多项关键技术,包括多源异构家谱资料采集、OCR 识别与版式理解、人物关系抽取与消歧、谱系结构建模、图数据库设计、数据清洗校核、一致性校验和隐私脱敏处理等。整个流程对数据采集、治理、标注、建模和管理能力均有较高要求,体现出较强的技术含量和工程治理能力。
2. 高知识密度:深度依赖家谱文化的领域知识。家谱数据的理解与整理需要谱牒学、历史地理、宗族制度、避讳制度、过继和兼祧规则等多方面专业知识。例如,区分血亲与过继关系、判定同名异人或异名同人、还原缺失世系链接、识别历史地名变迁等,均需要领域知识和人工校核支撑。该数据集中蕴含人物世系、代际演化、迁徙关联、血缘关系、过继关系及隔代后代等丰富知识,关系链条长、语义层次丰富、谱系逻辑完整,能够为模型训练和领域研究提供高密度专业知识。
3. 高数据质量: 数据集具备准确性、完整性、一致性、时效性和可信性。数据集所涉人物跨度超过700年,仅围绕一支连续血缘脉络展开。它集成了138年前上一版宗谱的所有数据,以及其后通过各种途径采集的新数据,并经由宗谱中在世人物的多轮确认,从而保证了数据的质量。
4. 高应用价值:在理工科与人文社科的交叉研究中前景广阔。本数据集既可用于理工科领域的图神经网络、知识图谱推理、大规模图分区算法、人物关系推理和谱系演化建模等任务,也可用于人文社科领域的历史人口学、家族社会网络分析、移民史重构和宗族文化传承研究。其真实、长时序、带血缘关系的结构化数据,为人工智能、图计算、数字人文和历史社会研究的交叉融合提供了独特实验平台。
综上,Genealogy-MBW 是一份 “四高” 特色家谱数据集。该数据集可为家谱智能检索、人物关系推理、知识图谱构建、图计算算法、历史人口学及数字人文研究提供真实、自洽且可复用的基础数据资源。
3.2 详细信息
表1是Genealogy-MBW数据集的详细信息,该数据集包含两个文件:Genealogy-MBW-nodes.txt文件提供关于节点全部描述信息,Genealogy-MBW-edges.txt提供关于边的信息,详细描述见图2、图3。
表2 是节点属性、属性值和特性的介绍,图2是Genealogy-MBW-nodes.txt文件中节点的介绍,其中属性值为空时表示该属性不适用。例如,“0,male,2,,1,,”表示id为0的男性人物,其家庭排行为2,世辈为1,过继家庭排行和隔代相连值不适用此人物;“8477,male,3,1,18,,”表示id为8477的男性人物,其家庭排行为3,过继家庭排行为1,世辈为18,隔代相连值不适用此人物。
图3是Genealogy-MBW-edges.txt 文件的介绍,其中的关系类型中英文对照表给在了表3中。表中隔代后代是一种特殊关系,它表示家谱中仅记录有某一人物的辈分和已知的最近直系先祖,而从这位直系先祖至该人物的中间人物均无法考证。为最大化保存家谱完整性,华谱系统中设计了这个新型关系来连接此人物和其直系先祖,在节点隔代相连值属性中保存其与直系先祖隔代值。
3.3 相关研究
作为特色数据资源,Genealogy-MBW 已在家谱知识图谱建设、谱系关系分析、家谱数据治理和大规模家谱图处理等研究中得到应用。相关研究表明,此类数据不仅具有文化保存价值,还能够有效支撑知识图谱、数据治理、图计算和人工智能研究。
[1] 吴信东、盛绍静、蒋婷婷、卜晨阳、吴明辉. 从知识图谱到数据中台:华谱系统. 自动化学报, 46(10): 2045-2059, 2020.
该研究依托家谱数据开展知识组织、关系建模与系统化治理,表明家谱数据集可作为知识图谱构建、数据治理和智能应用的重要基础资源。
[2] Shaojing Sheng, Zan Zhang, Peng Zhou, Xindong Wu. An effective algorithm for genealogical graph partitioning. Applied Intelligence, 54(2): 1798-1817, 2024.
该研究利用家谱图数据验证图划分算法的有效性,表明本数据集能够为大规模家谱图组织、结构计算及相关算法研究提供真实数据支撑。
1. 家谱分卷源码下载
为促进家谱分卷算法研究,华谱系统现提供家谱算法TPA源码,下载链接如下:TPA_CODE。
2. 运行
2.1 在华谱系统【家谱数据集】模块下载家谱数据集:Genealogy-MBW;
2.2 修改main.py文件中文件路径,运行main.py文件即可完成分卷工作。