asysbang

 找回密码
 立即注册
查看: 3030|回复: 2
打印 上一主题 下一主题

中文训练待解决问题

[复制链接]

520

主题

2

好友

6551

积分

管理员

Rank: 80Rank: 80Rank: 80Rank: 80Rank: 80

最佳新人 活跃会员 热心会员 推广达人 宣传达人 灌水之王 突出贡献 优秀版主 荣誉管理 论坛元老

跳转到指定楼层
楼主
发表于 2019-12-24 14:49:23 |只看该作者 |倒序浏览
1.只针对一种手写字体,从0开始训练

2.增量训练比较chi_sim 和HanS的区别,在基础上实现个别不识别的汉字

3.什么情况下需要评估数据,是否是必须的

4.Phase E: Generating lstmf files  这个怎么变成多线程并发的

         尝试拆分多个训练文本?
         尝试python版本的训练,是否存在同样的问题

5.如何防止过拟合

https://github.com/tesseract-ocr/tesseract/issues/1572


Fine-tuning是很重要的,但是应该避免针对某一小的数据集进行过度训练,否则可能会降低对整体数据集的识别率。
https://ivanzz1001.github.io/rec ... /tesseract-training
回复

使用道具 举报

520

主题

2

好友

6551

积分

管理员

Rank: 80Rank: 80Rank: 80Rank: 80Rank: 80

最佳新人 活跃会员 热心会员 推广达人 宣传达人 灌水之王 突出贡献 优秀版主 荣誉管理 论坛元老

沙发
发表于 2020-2-17 14:44:41 |只看该作者
–target_error_rate 0.01 训练至错误率低于0.01


android  笔画要粗一些 不能太细

lstmtraining  命令各种参数研究
回复

使用道具 举报

520

主题

2

好友

6551

积分

管理员

Rank: 80Rank: 80Rank: 80Rank: 80Rank: 80

最佳新人 活跃会员 热心会员 推广达人 宣传达人 灌水之王 突出贡献 优秀版主 荣誉管理 论坛元老

板凳
发表于 2020-2-17 14:45:49 |只看该作者
https://blog.csdn.net/Hu_helloworld/article/details/100923215

如何合并lstm训练数据

tesseract nml.num.exp0.tif nml.num.exp0 -l eng --psm 6 lstm.train


针对少量不容易是别的汉字做定制训练,快速提高特定字的识别率
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|aSys-帮 ( 京ICP备13033689号 )

GMT+8, 2026-1-28 19:22 , Processed in 0.039995 second(s), 19 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部