查看: 3342|回复: 2

中文训练待解决问题

520 主题	2 好友	6551 积分

管理员

Rank: 80

发消息

电梯直达

楼主

发表于 2019-12-24 14:49:23 |只看该作者 |倒序浏览

1.只针对一种手写字体，从0开始训练

2.增量训练比较chi_sim 和HanS的区别，在基础上实现个别不识别的汉字

3.什么情况下需要评估数据，是否是必须的

4.Phase E: Generating lstmf files  这个怎么变成多线程并发的

      尝试拆分多个训练文本？
      尝试python版本的训练，是否存在同样的问题

5.如何防止过拟合

https://github.com/tesseract-ocr/tesseract/issues/1572

Fine-tuning是很重要的，但是应该避免针对某一小的数据集进行过度训练，否则可能会降低对整体数据集的识别率。
https://ivanzz1001.github.io/rec ... /tesseract-training

收藏0

使用道具举报

admin

520 主题	2 好友	6551 积分

管理员

Rank: 80

发消息

沙发

发表于 2020-2-17 14:44:41 |只看该作者

–target_error_rate 0.01 训练至错误率低于0.01

android 笔画要粗一些不能太细

lstmtraining 命令各种参数研究

使用道具举报

admin

520 主题	2 好友	6551 积分

管理员

Rank: 80

发消息

板凳

发表于 2020-2-17 14:45:49 |只看该作者

https://blog.csdn.net/Hu_helloworld/article/details/100923215

如何合并lstm训练数据

tesseract nml.num.exp0.tif nml.num.exp0 -l eng --psm 6 lstm.train

针对少量不容易是别的汉字做定制训练，快速提高特定字的识别率

使用道具举报

返回列表

		自动登录	找回密码
密码			立即注册

中文训练待解决问题

最佳新人

活跃会员

热心会员

推广达人

宣传达人

灌水之王

突出贡献

优秀版主

荣誉管理

论坛元老