Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[BUG]求助解决建立WEB站点知识库时,遇到URL错误,无法解析网址的情况 #345

Closed
gundamwing01 opened this issue May 1, 2024 · 3 comments
Assignees

Comments

@gundamwing01
Copy link

联系方式

No response

MaxKB 版本

1.10

问题描述

在建立WEB站点知识库时,遇到URL错误,无法解析网址的情况。
但在浏览器中缺是能够打开网页。想请问,遇到这类问题,是应该从哪里来排除?首先确认,网页是能够正常打开。

重现步骤

另外还有一种情况,已经建立的web站点知识库,之前建立时url直接通过并保存,而且已经爬虫了不少文档。但后续仅修改知识库描述,没有改动其他内容后再点击保存,同样也出现url错误,无法解析错误。

期待的正确结果

想看下其他同仁有没有遇到过类似情况,并且是否有解决方案。

相关日志输出

No response

附加信息

image

@baixin513
Copy link
Contributor

感谢反馈,可以提供一下 web站点的根地址,我们后续排查一下。

@gundamwing01
Copy link
Author

谢谢,遇到了2个网站出现问题:

第一个: https://typeset.io/ 这个URL可以在web知识库的第一次搭建中进行解析,并且可以向下爬行8000多个文档。但是,在后续我修改描述后,再一次按保存后,就提示无法解析。

第二个: https://www.tandfonline.com/topic/allsubjects/me 这个网页正常浏览能够打开,但无论如何也无法成功加入web知识库。与此类型相同的其他网页,却反而能添加。

所以还请协助看下问题出在哪里,谢谢。

@baixin513
Copy link
Contributor

第一个: https://typeset.io/ 是国外的网站,保存不了是网络问题,需要确保在MaxKB 的服务器能正常访问这个网站。
第二个:根地址 https://www.tandfonline.com/topic/allsubjects/me
子地址(如:https://www.tandfonline.com/doi/abs/10.1002/146701010x486444)并未包含根地址( https://www.tandfonline.com/topic/allsubjects/me)。

MaxKB 中web站点爬取的规则是:子地址前缀地址需要与根地址相同。

正常可获取的
根地址:https://dataease.io/docs/v1/
子地址:https://dataease.io/docs/v1/quick_start/,它包含了根地址(https://dataease.io/docs/v1/)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants