博客图片迁移折腾记

本文发表于 2362 天前，其中的信息可能已经事过境迁

文章摘要 FakeGPT

去年国庆的时候，七牛官方开始回收测试域名，这直接导致博客中大量图片出现无法访问的情况，虽然博主第一时间启用了新的域名：https://blog.yuanpei.me，可是因为七牛官方要求域名必须备案，所以，这件事情一直耽搁着没有往下进行。至于为什么会一直拖到 2019 年，我想大家都能猜到一二，没错，我就是懒得去弄域名备案这些事情:joy:。最近花了点时间，把博客里的图片从七牛和 CSDN 迁移了出来，所以，今天这篇博客，主要想和大家分享下这个折腾的过程，如果能帮助到和我一样，因为七牛官方回收了域名而无法导出图片的朋友，在下开心之至。虽然今天没有回望过去，没有给新的一年立 flag，就如此平淡地过渡到了 2019 年，可或许这才是生活本来的样子吧！

七牛的测试域名被官方回收了以后，我们有两种思路去导出这些图片，其一，是临时像官方提工单申请一个测试域名，这样在测试域名被回收前，我们可以直接使用官方提供的qrsctl或者qshell工具进行批量导出，因为此时我们可以直接在配置文件里配置测试域名，具体可以参考这篇文章：跑路之后七牛图片如何导出备份至本地，甚至你可以直接到七牛的管理控制台手动下载，可这样就一点都不极客了对吗？我们是一生追求做极客的人好伐。其二，同样是借助官方提供的qshell工具，因为没有域名，我们没有办法批量导出，可是工具中提供了两个非常有用的命令，它们分别是：qshell listbucket、qshell get。通过这两个命令，我们就可以列举出指定 bucket 中的文件以及下载指定文件，所以，这就是我们的第一步，首先把图片从七牛那里导出到本地。以博主的blogspace为例：

qshell account <ak> <sk> 'qinyuanpei@163.com' /* 请使用你的ak/sk，谢谢 */
qshell listbucket blogspace

使用listbucket列举指定bucket内文件

事实上，通过第一列的 Key，即文件名，我们就可以下载该资源到本地，因为七牛实际上是采用对象存储的方式来组织资源的，这里我们以第一张图片05549344-BF85-4e8c-BCBC-1F63DFE80E43.png为例：

qshell get blogspace 05549344-BF85-4e8c-BCBC-1F63DFE80E43.png

默认情况下，该图片会下载到当前目录下，本地文件和远程文件名保持一致。当然，我们还可以通过-o 参数来指定输出文件：

使用get命令下载指定文件

好了，有了这个基础，我们就可以着手博客图片的迁移啦。博主最初的想法是，先获取到指定 bucket 下的全部文件，然后再对结果进行拆分，循环执行 qshell get 命令，可惜再 PowerShell 下并没有类似 grep 的命令，所以，这个想法放弃。其实，你仔细观察七牛图片外链的格式就会发现，除了域名部分以外，剩下的就是该文件在 bucket 里对应的 key 啦，所以，博主的想法开始从 Markdown 文件入手，最终我们的思路是，解析博客对应的 Markdown 文件，通过正则匹配所有的图片链接，截取出图片的文件名并通过 qshell 下载到本地。人生苦短，我用 Python。具体写出来，大概是下面这个样子：

def sync(root,ak,sk,account,bucket):
    files = []
    children = os.listdir(root)
    for child in children:
        path = os.path.join(root,child)
        if os.path.isfile(path):
            files.append(path)
    for file in files:
        links = []
        newContent = ''
        with open(file,'rt',encoding='utf-8') as fp:
            content = fp.read()
            matches = re.compile('!\\[.*?\\]\\((.*?)\\)').findall(content) 
            if(len(matches)>0):
                links.extend(matches)
            for link in links:
                fileKey = link.split('/')[-1]
                if('http://img.blog.csdn.net' in link):
                    newLink = sync_csdn(link)
                    newContent = content.replace(link,newLink)
                elif('clouddn.com' in link):
                    newLink = sync_qiniu(ak,sk,account,bucket,fileKey)
                    newContent = content.replace(link,newLink)
        if(newContent != '' and len(links) > 0):
            with open(file,'wt',encoding='utf-8') as fp:
                fp.write(newContent)
            print('已自动完成对{0}中图片链接的自动更新'.format(file))

因为博主的博客，在此之前(指 2012 年~2018 年，暴露年龄啦ORZ)，主要都在：https://blog.csdn.net/qinyuanpei这里维护，所以，这次就一并通过脚本处理啦。这部分我们这里不用太关注，对于托管在七牛上的图片资源，我们通过sync_qiniu方法来完成同步：

def sync_qiniu(ak,sk,account,bucket,fileKey):
    os.system('qshell account {0} {1} {2} -w'.format(ak,sk,account))
    outfile = root + "\\download\\blogspace\\" + fileKey
    outfile = outfile.replace('\\','/')
    if(os.path.exists(outfile)):
        os.remove(outfile)
    os.system('qshell get {0} {1} -o {2}'.format(bucket,fileKey,outfile))
    print("同步七牛图片{0}完成".format(fileKey))
    pid = upload(outfile)
    if(pid != None):
        print('同步后的图片链接为:' + upload(outfile))
        return pid

博客中的图片导出到本地以后，我们就要开始考虑第二个问题，这些图片要放到哪里去，直接和博客放在一起，估计早晚会突破 Github 单个仓库 1G 的限制。七牛增加域名备案的限制以后，像又拍云这种同类产品必须会跟进这个feature，原因嘛，我想大家都知道不必多说。大概考虑了像阿里云和腾讯云的 OSS 类产品，因为我司的产品最近正在着手从自有的 FTP 上切换到阿里云的 OSS 上，主要是考虑服务器的维护成本，但对博主这样的个人用户而言，这类 OSS 产品实在太贵了，最终，博主选择国内某知名社交平台提供的**“图床服务”**。参考这篇文章：PHP 上传图片到微博图床，最终实现了一个简洁(陋)的版本：

def upload(src_file):
    url = "http://picupload.service.weibo.com/interface/pic_upload.php"
    fileExt = src_file.split('.')[-1]
    if(fileExt == 'png'):
        fileExt = 'jpg'
    timestamp = str(int(time.time()))
    mimes = {"gif":'image%2Fgif','jpg':'image%2Fjpeg','jpeg':'image%2Fjpeg'}
    querystring = {"mime":mimes[fileExt],"data":"base64","url":"0","markpos":"1","logo":"","nick":"0","marks":"1","app":"miniblog","cb":"http://weibo.com/aj/static/upimgback.html?_wv=5","callback":"STK_ijax_" + timestamp}
    headers = {
        'Cookie': "在这里填入Cookie",
    }
    files = {'pic1':open(src_file,'rb').read()}
    response = requests.request("POST", url, headers=headers, params=querystring,files=files)
    if(response.status_code == 200):
        result = re.sub(r"<meta.*</script>", "", response.text, flags=re.S)
        image_result = json.loads(result)
        image_id = image_result.get('data').get('pics').get('pic_1').get('pid')
        return 'https://ww1.sinaimg.cn/large/{0}.{1}'.format(image_id,fileExt)

如果你现在访问我的博客，大概就会发现，之前那些无法显示的图片，现在基本上都可以显示啦，而我所做的事情，就是执行这些 Python 脚本，让它帮我完成从图片下载、上传再到替换链接的所有事情。感觉配合 Typora 在插入图片时可以拷贝到指定目录的功能，完全可以支持本地图片链接自动替换的功能，这样子以后写博客的时候，只要插入准备后的本地图片就好了，真是想想都觉得美好呢？我和一位朋友分享了这个想法，他觉得**“微博图床”**并不靠谱，这样说起来，它最不好的地方大概就是没有办法保留原有的文件名，所以，万一将来有一天它挂了，你要恢复这些图片会比较麻烦，一个好的建议是维护一个数据库，譬如 SQLite 足矣，把本地文件名和远程文件名对应起来，甚至你可以把图片的 Base64 编码存储到数据库里呢，对吧？

好了，以上就这 2019 年第一篇碎碎念啦，为了证明我的思维的确是跳跃的，最后的最后，强烈地向大家安利两个图床工具：WeiBox、PicGo，它们都支持微博图床，所以，你猜我是用哪个工具上传这篇文章里地图片的呢？当然是脚本啊，那样不就不那么极客了嘛，我们是一生追求做极客的人好伐！:v: