Appearance
公众号文章的原始下载格式为HTML,该格式的优点是可以高保真的还原文章样式,但缺点是不适合当前大模型的语料输入,因此后续会考虑出一个格式转换工具,将原始的HTML格式转换成PDF / Image / Markdown 等格式。
HTML
PDF
Image
Markdown
目前 PDF 格式可参考: https://github.com/colin4k/wechat-article-dl (非官方工具)