去年国庆的时候,七牛官方开始回收测试域名,这直接导致博客中大量图片出现无法访问的情况,虽然博主第一时间启用了新的域名:https://blog.yuanpei.me,可是因为七牛官方要求域名必须备案,所以,这件事情一直耽搁着没有往下进行。至于为什么会一直拖到 2019 年,我想大家都能猜到一二,没错,我就是懒得去弄域名备案这些事情😂。最近花了点时间,把博客里的图片从七牛和 CSDN 迁移了出来,所以,今天这篇博客,主要想和大家分享下这个折腾的过程,如果能帮助到和我一样,因为七牛官方回收了域名而无法导出图片的朋友,在下开心之至。虽然今天没有回望过去,没有给新的一年立 flag,就如此平淡地过渡到了 2019 年,可或许这才是生活本来的样子吧!
七牛的测试域名被官方回收了以后,我们有两种思路去导出这些图片,其一,是临时像官方提工单申请一个测试域名,这样在测试域名被回收前,我们可以直接使用官方提供的qrsctl或者qshell工具进行批量导出,因为此时我们可以直接在配置文件里配置测试域名,具体可以参考这篇文章:跑路之后七牛图片如何导出备份至本地,甚至你可以直接到七牛的管理控制台手动下载,可这样就一点都不极客了对吗?我们是一生追求做极客的人好伐。其二,同样是借助官方提供的qshell工具,因为没有域名,我们没有办法批量导出,可是工具中提供了两个非常有用的命令,它们分别是:qshell listbucket、qshell get。通过这两个命令,我们就可以列举出指定 bucket 中的文件以及下载指定文件,所以,这就是我们的第一步,首先把图片从七牛那里导出到本地。以博主的blogspace为例:
qshell account <ak> <sk> 'qinyuanpei@163.com' /* 请使用你的ak/sk,谢谢 */
qshell listbucket blogspace
事实上,通过第一列的 Key,即文件名,我们就可以下载该资源到本地,因为七牛实际上是采用对象存储的方式来组织资源的,这里我们以第一张图片05549344-BF85-4e8c-BCBC-1F63DFE80E43.png为例:
qshell get blogspace 05549344-BF85-4e8c-BCBC-1F63DFE80E43.png
默认情况下,该图片会下载到当前目录下,本地文件和远程文件名保持一致。当然,我们还可以通过-o 参数来指定输出文件:
好了,有了这个基础,我们就可以着手博客图片的迁移啦。博主最初的想法是,先获取到指定 bucket 下的全部文件,然后再对结果进行拆分,循环执行 qshell get 命令,可惜再 PowerShell 下并没有类似 grep 的命令,所以,这个想法放弃。其实,你仔细观察七牛图片外链的格式就会发现,除了域名部分以外,剩下的就是该文件在 bucket 里对应的 key 啦,所以,博主的想法开始从 Markdown 文件入手,最终我们的思路是,解析博客对应的 Markdown 文件,通过正则匹配所有的图片链接,截取出图片的文件名并通过 qshell 下载到本地。人生苦短,我用 Python。具体写出来,大概是下面这个样子:
def sync(root,ak,sk,account,bucket):
files = []
children = os.listdir(root)
for child in children:
path = os.path.join(root,child)
if os.path.isfile(path):
files.append(path)
for file in files:
links = []
newContent = ''
with open(file,'rt',encoding='utf-8') as fp:
content = fp.read()
matches = re.compile('!\\[.*?\\]\\((.*?)\\)').findall(content)
if(len(matches)>0):
links.extend(matches)
for link in links:
fileKey = link.split('/')[-1]
if('http://img.blog.csdn.net' in link):
newLink = sync_csdn(link)
newContent = content.replace(link,newLink)
elif('clouddn.com' in link):
newLink = sync_qiniu(ak,sk,account,bucket,fileKey)
newContent = content.replace(link,newLink)
if(newContent != '' and len(links) > 0):
with open(file,'wt',encoding='utf-8') as fp:
fp.write(newContent)
print('已自动完成对{0}中图片链接的自动更新'.format(file))
因为博主的博客,在此之前(指 2012 年~2018 年,暴露年龄啦ORZ),主要都在:https://blog.csdn.net/qinyuanpei这里维护,所以,这次就一并通过脚本处理啦。这部分我们这里不用太关注,对于托管在七牛上的图片资源,我们通过sync_qiniu方法来完成同步:
def sync_qiniu(ak,sk,account,bucket,fileKey):
os.system('qshell account {0} {1} {2} -w'.format(ak,sk,account))
outfile = root + "\\download\\blogspace\\" + fileKey
outfile = outfile.replace('\\','/')
if(os.path.exists(outfile)):
os.remove(outfile)
os.system('qshell get {0} {1} -o {2}'.format(bucket,fileKey,outfile))
print("同步七牛图片{0}完成".format(fileKey))
pid = upload(outfile)
if(pid != None):
print('同步后的图片链接为:' + upload(outfile))
return pid
博客中的图片导出到本地以后,我们就要开始考虑第二个问题,这些图片要放到哪里去,直接和博客放在一起,估计早晚会突破 Github 单个仓库 1G 的限制。七牛增加域名备案的限制以后,像又拍云这种同类产品必须会跟进这个feature,原因嘛,我想大家都知道不必多说。大概考虑了像阿里云和腾讯云的 OSS 类产品,因为我司的产品最近正在着手从自有的 FTP 上切换到阿里云的 OSS 上,主要是考虑服务器的维护成本,但对博主这样的个人用户而言,这类 OSS 产品实在太贵了,最终,博主选择国内某知名社交平台提供的**“图床服务”**。参考这篇文章:PHP 上传图片到微博图床,最终实现了一个简洁(陋)的版本:
def upload(src_file):
url = "http://picupload.service.weibo.com/interface/pic_upload.php"
fileExt = src_file.split('.')[-1]
if(fileExt == 'png'):
fileExt = 'jpg'
timestamp = str(int(time.time()))
mimes = {"gif":'image%2Fgif','jpg':'image%2Fjpeg','jpeg':'image%2Fjpeg'}
querystring = {"mime":mimes[fileExt],"data":"base64","url":"0","markpos":"1","logo":"","nick":"0","marks":"1","app":"miniblog","cb":"http://weibo.com/aj/static/upimgback.html?_wv=5","callback":"STK_ijax_" + timestamp}
headers = {
'Cookie': "在这里填入Cookie",
}
files = {'pic1':open(src_file,'rb').read()}
response = requests.request("POST", url, headers=headers, params=querystring,files=files)
if(response.status_code == 200):
result = re.sub(r"<meta.*</script>", "", response.text, flags=re.S)
image_result = json.loads(result)
image_id = image_result.get('data').get('pics').get('pic_1').get('pid')
return 'https://ww1.sinaimg.cn/large/{0}.{1}'.format(image_id,fileExt)
如果你现在访问我的博客,大概就会发现,之前那些无法显示的图片,现在基本上都可以显示啦,而我所做的事情,就是执行这些 Python 脚本,让它帮我完成从图片下载、上传再到替换链接的所有事情。感觉配合 Typora 在插入图片时可以拷贝到指定目录的功能,完全可以支持本地图片链接自动替换的功能,这样子以后写博客的时候,只要插入准备后的本地图片就好了,真是想想都觉得美好呢?我和一位朋友分享了这个想法,他觉得**“微博图床”**并不靠谱,这样说起来,它最不好的地方大概就是没有办法保留原有的文件名,所以,万一将来有一天它挂了,你要恢复这些图片会比较麻烦,一个好的建议是维护一个数据库,譬如 SQLite 足矣,把本地文件名和远程文件名对应起来,甚至你可以把图片的 Base64 编码存储到数据库里呢,对吧?
好了,以上就这 2019 年第一篇碎碎念啦,为了证明我的思维的确是跳跃的,最后的最后,强烈地向大家安利两个图床工具:WeiBox、PicGo,它们都支持微博图床,所以,你猜我是用哪个工具上传这篇文章里地图片的呢?当然是脚本啊,那样不就不那么极客了嘛,我们是一生追求做极客的人好伐!✌️