全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211119078.6 (22)申请日 2022.09.13 (71)申请人 国政通科技有限公司 地址 100029 北京市西城区北三环中路23 号燕莎盛世大厦三层 (72)发明人 郑明芳 任艳  (74)专利代理 机构 北京辰权知识产权代理有限 公司 11619 专利代理师 付婧 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/22(2019.01) G06F 16/2458(2019.01) G06F 16/248(2019.01) G06F 40/242(2020.01)G06F 40/284(2020.01) G06N 20/00(2019.01) (54)发明名称 一种用于企业技术优化的专利大数据分析 方法及系统 (57)摘要 本发明涉及企业技术优化技术领域, 具体涉 及一种用于企业技术优化的专利大数据分析方 法及系统, 本发明方法包括获取企业技术方向, 采集企业技术方向领域相关的专利数据信息, 建 立专利数据库, 筛选技术热词, 基于每个技术热 词下的申请人数量和每个申请人的重要度得出 申请人加权, 得到每个技术热词数量以及专利分 类号, 基于分类号, 将每个分类号下的技术热词 进行排序, 引入申请人加权, 在每个分类号下的 技术热词排序下进行再排序, 得出技术热词排名 库; 将技术热词与申请日进行关联, 建立企业技 术优化模型, 利用技术热词排名库、 时间技术热 词和技术热词增长率对企业技术进行优化; 本发 明便于企业优化技术, 节约时间和人力成本, 还 能避免资金浪费。 权利要求书3页 说明书7页 附图2页 CN 115454965 A 2022.12.09 CN 115454965 A 1.一种用于企业 技术优化的专利大 数据分析 方法, 其特 征在于, 包括: S1.获取企业技术方向, 采集企业技术方向领域相关的专利数据信息, 建立专利数据 库; S2.基于专利数据库, 筛选技术热词, 基于每个技术热词下的申请人数量和每个申请人 的重要度得 出申请人加权; S3.基于专利数据库, 得到每个技术热词数量以及专利分类号, 基于分类号, 将每个分 类号下的技术热词进行排序, 引入 申请人加权, 在每个分类号下 的技术热词排序下进行再 排序, 得出技术热词排名库; S4.基于技术热词排名库, 将技术热词与申请日进行关联, 并根据申请日期将技术热词 进行排序, 得出时间技术热词, 基于申请日以及每个技术热词数量, 得出基于申请日 的技术 热词增长率, 并基于技 术热词增长率对技 术热词进行排序, 建立企业 技术优化模型; S5.基于企业技术优化模型, 利用技术热词排名库、 时间技术热词和技术热词增长率对 企业技术进行优化。 2.根据权利要求1用于企业技术优化的专利大数据分析方法, 其特征在于, 获取企业技 术方向包括 获取企业专利文件、 技术资料、 产品信息、 和公司研发方向信息或直接输入具体 技术领域或技 术方向。 3.根据权利要求1用于企业技术优化的专利大数据分析方法, 其特征在于, 申请人加权 为申请人 数量*申请人 数量权重*综合申请人比重; 综合申请人比重的计算包括: 基于专利数据库, 分析数据库内专利文件的著录信息以及申请人情况; 著录信息包括 申请人名称、 发明人数量、 有效专利数量、 发明专利数量、 发明专利授权数量、 实用新型专利 数量和外观专利数量; 申请人情况包括公司规模、 产品种类、 第一件专利申请日期和最后一 件专利申请日期; 基于公司规模、 产品种类、 第一件专利申请日期、 最后一件专利申请日期、 发明人数量、 有效专利数量、 发明专利数量、 发明专利授权数量、 实用新型专利数量和外观 专利数量, 并分别设置 权重, 计算得 出申请人比重; 综合申请人比重为每 个申请人比重相加再除以申请人 数量。 4.根据权利要求1用于企业技术优化的专利大数据分析方法, 其特征在于, 步骤S2中筛 选技术热词包括: 对基于CRF的技术术语抽取模型进行训练, 以相关领域的技术词表为种子术语, 以种子 术语为检索词在相关领域专利库检索得到包含种子术语的句子, 通过这些语句构建技术热 词语料库, 导入相关领域的用户字典, 用户字典包括 技术词表、 维基词条和文献关键词, 使用ICTCLAS工具进行分词及词性标注; 分词时基于用户字典将专有名词或名词短语 当作一个词语, 进行分词处 理; 其余词语按照ICTCLAS的默认规则, 进行通用的分词处 理; 对技术热词语料库中的句子中按照BIO标记法进行序列标注, 形成技术热词抽取模型 的训练样本; 其中, B表示一个热词的开始词, I表示热词除开始词以外的其他词汇, O表 示其 余的非热词词; B和I标注的是属于已有的技术词表的词, O表示不属于已有的技术词表的 词, 提取每个训练样本的技术热词的特征, 作为基于CRF的技术热词抽取模型的输入, 以序 列标注为期望的模型输出, 训练基于 CRF的技术热词抽取模型,权 利 要 求 书 1/3 页 2 CN 115454965 A 2技术热词的特征包括: 当前词本身、 当前词与前一个词的组合、 当前词与后一词的组 合、 当前词词性、 当前词和前一个词的词性组合、 当前词和后一个词的词性组合、 当前词的 长度、 当前词前后窗口内是否出现特殊符号和当前词是否在技 术词表中出现; 将专利数据库中的专利文件, 输入基于CRF的技术热词抽取模型, 输出技术热词候选集 合, 通过牛顿冷切法对技术热词候选集合中的技术热词进行热度排序, 输出技术热词集 合, 将技术热词集 合输入预 先建立的技 术热词分类模型, 输出技 术热词类别 信息。 5.根据权利要求4用于企业技术优化的专利大数据分析方法, 其特征在于, 通过牛顿冷 切法对技 术热词候选集 合中的技 术热词进行 热度排序, 输出技 术热词集 合, 包括: 构建一个指数式衰减的过程, 即: 冷却系数 ε(a)为: 其中, a为某个技 术热词; 计算技术热词候选集合中的每个技术热词的冷却系数, 按照降序排列根据冷却系数对 技术热词候选集 合中的技 术热词进行 热度排序; 取排序后的前N个技术热词或者冷切系数大于某个阈值的所有技术热词, 组成技术热 词集合。 6.一种用于企业 技术优化的专利大 数据分析系统, 其特 征在于, 包括: 专利数据库建立模块, 用于获取企业技术方向, 采集企业技术方向领域相关的专利数 据信息, 建立专利数据库; 技术热词筛选计算模块, 用于基于专利数据库, 筛选技术热词, 基于每个技术热词下的 申请人数量和每 个申请人的重要度得 出申请人加权; 技术热词排名库构建模块, 基于专利数据库, 得到每个技术热词数量以及专利分类号, 基于分类号, 将 每个分类号下的技术热词进 行排序, 引入申请人加权, 在每个分类号下的技 术热词排序下进行 再排序, 得 出技术热词排名库; 企业技术优化模型建立模块, 基于技术热词排名库, 将技术热词与申请日进行关联, 并 根据申请日期将技术热词进行排序, 得出时间技术热词, 基于申请日以及每个技术热词数 量, 得出基于申请日 的技术热词增长率, 并基于技术热词增长率对技术热词进 行排序, 建立 企业技术优化模型; 优化分析模块, 基于企业技术优化模型, 利用技术热词排名库、 时间技术热词和技术热 词增长率对企业 技术进行优化。 7.根据权利要求6用于企业技术优化的专利大数据分析系统, 其特征在于, 专利数据库 建立模块包括企业技术方向获取单元, 用于获取企业专利文件、 技术资料、 产品信息、 和公 司研发方向信息或直接 输入具体技 术领域或技 术方向。 8.根据权利要求6用于企业技术优化的专利大数据分析系统, 其特征在于, 技术热词筛 选计算模块包括申请人加权计算单元, 用于计算申请人加权, 申请人加权为申请人数量*申 请人数量权重*综合申请人比重; 综合申请人比重的计算包括: 基于专利数据库, 分析数据库内专利文件的著录信息以及申请人情况; 著录信息包括 申请人名称、 发明人数量、 有效专利数量、 发明专利数量、 发明专利授权数量、 实用新型专利权 利 要 求 书 2/3 页 3 CN 115454965 A 3

PDF文档 专利 一种用于企业技术优化的专利大数据分析方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于企业技术优化的专利大数据分析方法及系统 第 1 页 专利 一种用于企业技术优化的专利大数据分析方法及系统 第 2 页 专利 一种用于企业技术优化的专利大数据分析方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:30:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。