一种文本生成方法、装置、设备及介质与流程

文档序号:36250013发布日期:2023-12-02 19:59阅读:29来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种文本生成方法与流程

本发明涉及人工智能,特别是涉及一种文本生成方法、装置、设备及介质。


背景技术:

1、格式化文本是指针对文本进行各种样式的设置,使文本更加突出和易于阅读。随着技术的不断发展,越来越多的文本格式化方式被提出,并根据不同需求广泛应用在不同文件的文本格式化场景中。同时,人工智能的出现也为文本格式化效率的大幅提升带来了可能。

2、然而,在当前的格式化文本的方式中,将原始文本文件转换为其他预设格式的文本文件时,需要确保原始文本文件中包含图像信息;通过对图像信息进行解析才能进一步生成预设格式的文本文件。这种方式无法适用于不包含图像信息的原始文件的文本格式化,同时大大降低了文本格式化的效率。

3、鉴于上述问题,如何实现不包含图像信息的文件的文本格式化,是该领域技术人员亟待解决的问题。


技术实现思路

1、本发明的目的是提供一种文本生成方法、装置、设备及介质,以解决不包含图像信息的原始文件无法实现文本格式化的问题。

2、为解决上述技术问题,本发明提供一种文本生成方法,包括:

3、获取原始文件,并提取所述原始文件中的关键词和图片;

4、将所述图片输入至附图生成模型中,以通过所述附图生成模型输出预设附图;

5、将所述原始文件的文本内容和所述关键词输入至文档信息解析模型中,以通过所述文档信息解析模型输出所述原始文件的结构内容信息;

6、将所述结构内容信息输入至文档结构生成模型中,以通过所述文档结构生成模型生成所述原始文件对应的预设文本;

7、调整所述预设文本的文档格式,并结合所述预设附图生成所述原始文件对应的目标文件;

8、其中,所述文档信息解析模型是预先通过不同原始文件训练的输出对应的结构内容信息的语言表征模型;所述文档结构生成模型是预先通过不同结构内容信息训练的输出对应预设文本的转换模型;所述附图生成模型是预先利用不同原始文件的图片和所述预设附图通过差异学习训练的模型。

9、一方面,提取所述原始文件中的所述关键词包括:

10、对所述原始文件的文本进行分词处理,以得到多个词语;

11、获取各所述词语对应的出现频率,并根据各所述出现频率构建词频矩阵;

12、根据所述词频矩阵获取各所述词语对应的词频逆文本频率指数值;

13、分别判断各所述词频逆文本频率指数值是否大于第一阈值;

14、若是,将所述词频逆文本频率指数值对应的所述词语设置为候选关键词;

15、将满足预设条件的所述候选关键词选为所述关键词。

16、另一方面,所述将满足预设条件的所述候选关键词选为所述关键词包括:

17、根据各所述候选关键词之间的共现关系构建候选关键词网络;

18、根据文本排序算法在所述候选关键词网络中分别获取各所述候选关键词的重要性分数,并生成重要性分数序列;

19、将所述重要性分数序列中预设数量个所述重要性分数最高的所述候选关键词作为所述关键词。

20、另一方面,所述文档信息解析模型的训练过程包括:

21、获取初始文档信息解析模型,并构建数据集;其中,所述数据集中包含多个所述原始文件对应的所述文本内容和人工标注出的所述结构内容信息;所述结构内容信息包括主题分类结果、内容结构、段落关系、专业术语和句法依存关系;

22、将所述数据集中的所述文本内容和所述结构内容信息进行编码;

23、根据编码后的所述文本内容和所述结构内容信息对所述初始文档信息解析模型进行训练,并微调模型参数,以得到所述文档信息解析模型。

24、另一方面,所述文档结构生成模型的训练过程包括:

25、获取多个所述原始文件对应的所述结构内容信息和对应的所述目标文件;

26、将各所述结构内容信息作为输入序列,并分别将各所述目标文件的所述预设文本进行标记,以作为输出序列;

27、将所述输入序列和所述输出序列进行匹配,以生成训练样本;

28、定义所述文档结构生成模型的编码器和解码器;

29、通过所述编码器获取所述训练样本中所述输入序列的特征表达,并将所述特征表达输入至所述解码器中,以得到预测结果;

30、计算所述预测结果与所述输出序列的交叉熵损失值,并根据反向传播算法更新所述解码器的参数;

31、返回至所述通过所述编码器获取所述训练样本中所述输入序列的特征表达的步骤,以对所述文档结构生成模型进行迭代训练;

32、当所述交叉熵损失值低于第二阈值时,结束迭代并生成所述文档结构生成模型。

33、另一方面,所述附图生成模型的训练过程包括:

34、获取多个所述原始文件的所述图片和对应的所述目标文件的所述预设附图;

35、分别标注各所述图片与对应的所述预设附图的区别,并生成标注数据;

36、获取初始附图生成模型,并在所述初始附图生成模型的输出层设置分类器;其中,所述分类器用于区分所述图片和所述预设附图;

37、根据所述标注数据训练所述初始附图生成模型,以生成所述附图生成模型。

38、另一方面,所述调整所述预设文本的文档格式包括:

39、定义预设格式调整规则;其中,所述预设格式调整规则中至少定义字体、字体大小、字体粗细、首行缩进、段间隔距、页眉页脚内容、对齐方式以及数字编号添加方式;

40、根据所述预设格式调整规则调整所述预设文本的文档格式。

41、另一方面,在生成所述目标文件之后,还包括:

42、对所述目标文件中的各专业术语进行一致性分析;

43、对所述目标文件中的各要素编号进行一致性分析;

44、对所述目标文件中的关键技术概念进行一致性分析;

45、对所述目标文件中的各所述专业术语与其他词语的依存关系进行一致性分析;

46、对所述目标文件中的各组成部分的句子及段落的逻辑性进行一致性分析。

47、另一方面,所述对所述目标文件中的各专业术语进行一致性分析包括:

48、分别提取所述目标文件中各组成部分的各所述专业术语;

49、根据各所述专业术语分别生成各所述组成部分对应专业术语列表,并分别获取各所述专业术语的词向量;

50、分别计算各所述专业术语列表中同一所述专业术语的所述词向量的相似度;

51、分别获取各所述专业术语在各所述组成部分中的共现词,并分别根据各所述共现词构建各所述组成部分对应的共现矩阵;

52、分别判断各所述专业术语是否对应的所述词向量的所述相似度大于第三阈值,且对应的所述共现矩阵的差异值小于第四阈值;

53、若是,确认所述目标文件中的所述专业术语具有一致性。

54、另一方面,所述对所述目标文件中的各要素编号进行一致性分析包括:

55、解析所述目标文件中各所述组成部分的要素编号;

56、分别判断同一所述要素编号在各所述组成部分中是否一致;

57、若是,则确认所述目标文件中的所述要素编号具有一致性。

58、另一方面,所述对所述目标文件中的关键技术概念进行一致性分析包括:

59、获取与所述目标文件的技术领域相关的概念词表;

60、对所述目标文件进行分词,以得到包含全文词语的词列表;

61、将所述词列表与所述概念词表进行匹配,以获取所述目标文件中的概念词;

62、分别统计各所述概念词在各所述组成部分中的出现频次;

63、获取所述出现频次最高的所述概念词作为关键技术概念;

64、根据所述关键技术概念利用句法分析工具对各所述组成部分进行句法分析,以获取句法分析值;

65、判断所述句法分析值是否大于第五阈值;

66、若是,则确认所述目标文件中的所述关键技术概念的描述具有一致性。

67、另一方面,所述对所述目标文件中的各所述专业术语与其他词语的依存关系进行一致性分析包括:

68、分别获取各所述组成部分中各所述专业术语所在句子内的其他词语;

69、通过句法分析工具分别获取各所述专业术语与对应所述其他词语的依存关系值;

70、分别判断各所述专业术语对应的所述依存关系值是否大于第六阈值;

71、若是,则确认所述目标文件中各所述专业术语与所述其他词语的依存关系具有一致性。

72、另一方面,所述对所述目标文件中的各组成部分的句子及段落的逻辑性进行一致性分析包括:

73、分别获取所述目标文件中各所述组成部分的各词语的词向量、各句子的句向量以及所述组成部分的序列向量;

74、分别判断各所述组成部分对应所述句向量和所述序列向量的余弦相似度是否大于第七阈值;

75、若大于所述第七阈值,则认为所述目标文件中各所述组成部分的句子及段落的逻辑性具有一致性;

76、若不大于所述第七阈值,则分别判断各所述组成部分对应的各所述句向量间的余弦相似度是否大于第八阈值;

77、若不大于所述第八阈值,则认为所述目标文件中存在所述句子与段落的逻辑性不一致。

78、另一方面,在提取所述原始文件中的所述关键词之后,还包括:

79、将所述关键词输入至目标网站中,以获取所述关键词对应的相关信息。

80、为解决上述技术问题,本发明还提供一种文本生成装置,包括:

81、获取模块,用于获取原始文件,并提取所述原始文件中的关键词和图片;

82、第一输入模块,用于将所述图片输入至附图生成模型中,以通过所述附图生成模型输出预设附图;

83、第二输入模块,用于将所述原始文件的文本内容和所述关键词输入至文档信息解析模型中,以通过所述文档信息解析模型输出所述原始文件的结构内容信息;

84、第三输入模块,用于将所述结构内容信息输入至文档结构生成模型中,以通过所述文档结构生成模型生成所述原始文件对应的预设文本;

85、调整生成模块,用于调整所述预设文本的文档格式,并结合所述预设附图生成所述原始文件对应的目标文件;

86、其中,所述文档信息解析模型是预先通过不同原始文件训练的输出对应的结构内容信息的语言表征模型;所述文档结构生成模型是预先通过不同结构内容信息训练的输出对应预设文本的转换模型;所述附图生成模型是预先利用不同原始文件的图片和所述预设附图通过差异学习训练的模型。

87、为解决上述技术问题,本发明还提供一种文本生成设备,包括:

88、存储器,用于存储计算机程序;

89、处理器,用于执行所述计算机程序时实现上述的文本生成方法的步骤。

90、为解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本生成方法的步骤。

91、本发明所提供的文本生成方法,通过获取原始文件,并提取原始文件中的关键词和图片;将图片输入至附图生成模型中,以通过附图生成模型输出预设附图;将原始文件的文本内容和关键词输入至文档信息解析模型中,以通过文档信息解析模型输出原始文件的结构内容信息;将结构内容信息输入至文档结构生成模型中,以通过文档结构生成模型生成原始文件对应的预设文本;调整预设文本的文档格式,并结合预设附图生成原始文件对应的目标文件;其中,文档信息解析模型是预先通过不同原始文件训练的输出对应的结构内容信息的语言表征模型;文档结构生成模型是预先通过不同结构内容信息训练的输出对应预设文本的转换模型;附图生成模型是预先利用不同原始文件的图片和预设附图通过差异学习训练的模型。由此可知,上述方案通过提取原始文件中的关键词和图片,利用文档信息解析模型、文档结构生成模型和附图生成模型分别生成预设文本和预设附图,进而得到符合预设格式化规范的目标文件。因此,上述方案不受原始文件中是否存在图像信息的限制,能够将原始文件中的语义进行提取并重新进行格式化改写为预设文本,进而能够得到符合预设格式化规范的目标文件,能够广泛适应文本格式化需求,大大提高了文本格式化效率。

92、此外,本发明还提供了一种文本生成装置、设备及介质,效果同上。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种的制作方法
  • 一种汽车数据流图生成方法与流...
  • 一种岗位智能推荐方法与流程
  • 一种模型的训练方法与流程
  • 一种面向数据包分类的元组选择...
  • 一种动态流程模型操作方法及系...
  • 一种基于
  • 场景渲染方法及装置与流程
  • 基于的制作方法
  • 一种实现云原生存储自动化扩容...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

PHP网站源码宝安百度网站优化排名双龙网站定制福永外贸网站建设西乡网站优化按天扣费横岗seo排名沙井百度网站优化排名大芬外贸网站设计坪地网站优化排名松岗外贸网站设计塘坑百度标王福永百搜词包南山网站关键词优化东莞优秀网站设计石岩百度网站优化西乡百搜标王龙华网站制作设计东莞外贸网站设计大鹏网站优化按天扣费西乡营销网站大浪至尊标王光明SEO按天扣费大运seo网站推广光明百度爱采购大运SEO按效果付费龙岗seo网站优化东莞网站开发塘坑网站seo优化石岩建设网站龙岗网站改版木棉湾企业网站设计歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化