Caffe自带例子Cifar10中使用leveldb存储输入数据,为此我们研究一下怎样使用它。安装步骤可以参考http://blog.csdn.net/kangqing2003/article/details/6658345
Leveldb库提供了一种持续的键值对存储方式。键和值可以为任意字节数组。键存储顺序可由用户定义的比较函数决定。
打开一个数据库
Leveldb数据库有个与文件系统目录相对应的名字。数据库的所有内容都保存在这个目录中。下面例子展示了怎样打开一个数据库,必要时创建它:
[cpp] view plaincopyprint?
#include <assert>
#include "leveldb/db.h"
leveldb::DB* db;
leveldb::Options options;
options.create_if_missing = true;
leveldb::Status status = leveldb::DB::Open(options,"/tmp/testdb", &db);
assert(status.ok());
如果你想在数据库已经存在情况下报错,只需要在leveldb::DB::Open调用前增加以下代码
[cpp] view plaincopyprint?
options.error_if_exists = true;
状态
你可能注意到了上面的leveldb::Status类型。Leveldb中大多数可能遇到错误的函数返回该类型的值。你可以检查返回值是否为ok,必要时可打印相应的错误信息:
[cpp] view plaincopyprint?
leveldb::Status s = ...;
if(!s.ok()) cerr << s.ToString() << endl;
关闭数据库
当你操作完一个数据库,只需delete掉数据库对象。例子:
[cpp] view plaincopyprint?
...open the db as described above ...
... dosomething with db ...
deletedb;
读和写
数据库提供Put,Delete和Get方法来修改/检索数据库。例如,下面代码将key1键下的值value移动到key2键下:
[cpp] view plaincopyprint?
std::string value;
leveldb::Status s = db->Get(leveldb::ReadOptions(), key1,&value);
if(s.ok()) s = db->Put(leveldb::WriteOptions(), key2, value);
if(s.ok()) s = db->Delete(leveldb::WriteOptions(), key1);
原子更新
注意到如果进程在key2 Put操作后、key1 delete操作前终止,那么相同的值value可能留存在多个键下。这类问题可以使用WriteBatch类避免,该类可以原子地应用一系列更新:
[cpp] view plaincopyprint?
#include "leveldb/write_batch.h"
...
std::string value;
leveldb::Status s = db->Get(leveldb::ReadOptions(), key1,&value);
if(s.ok()) {
leveldb::WriteBatch batch;
batch.Delete(key1);
batch.Put(key2, value);
s =db->Write(leveldb::WriteOptions(), &batch);
}
WriteBatch持有一系列针对数据库的编辑操作,这些操作将在一个batch内顺序执行。注意到我们在Put前调用Delete,这样如果key1恰好等于key2时,最终我们不会错误地丢掉整个value。
除了原子操作的优点,WriteBatch也可以用于加速批量更新操作,只需要将大量独立的改动操作放到同一个batch中。
同步写
默认情况下,每次写到leveldb都是异步的:进程一旦将写操作推送给操作系统就返回。操作系统内存到非易失存储的传输将异步发生。在某次写入中可将标志位sync使能,这样会使写操作直到数据写入非易失存储后才返回。(在采用了Posix的系统中,写操作返回前调用fsync(), fdatasync(),msync(…,MS_SYNC))。
[cpp] view plaincopyprint?
leveldb::WriteOptions write_options;
write_options.sync = true;
db->Put(write_options, ...);
1:简介
Leveldb是一个google实现的非常高效的kv数据库,可按照字符串键值顺序映射进行存贮。目前的版本1.2能够支持billion级别的数据量了。 在这个数量级别下还有着非常高的性能。
Leveldb是一个C++库,可用于很多情况。比如用于一个网页浏览器存储最近存取网页的缓存,或用于操作系统存储安装包列表,或用于应用存储用户的设置参数。其实新版本的Chrome浏览器里部署的IndexedDB HTML5 API就是基于LevelDB打造的。Google自己的数据库Bigtable掌管着数百万数据表也是用LevelDB的。
今天在Linux(Fedra14)下编译了一下,感觉不错。中间遇到了很多问题,记录下来。作为学习之用。
在这里我想发泄一下郁闷之情。我对学过Linux下的编程,但是不是很深入,大部分时间时自己摸索的,周围没有可以交流的人,再说周围的大部分在搞java、C#、.net没人在研究cc++尤其是Linux下的。有些研究生毕业了还不知道什么是ubuntu。我以一直喜欢技术特别是Linux的,不管怎样算是一种追求吧。自己摸索之路是很坎坷的,深知一个人探索的困难,所以遇到问题会自己写下来发成博客,对自己是一种学习,也希望别的有共同兴趣的人有所帮助,如果能让没有一点基础的人们能看懂,并且根据示例自己操作成功,也算是一件很有成就感的事。
2:编译源代码
我用的版本为Release 1.2 2011-05-16,这个需要用SVN下载,过程就不多说了。
2.1 解压缩文件,我的路径是/home/lyc/leveldb/Leveldb
2.2 进入解压缩后的路径,cd /home/lyc/leveldb/Leveldb
2.3 编译,这个很简单一个命令makefile就行了,注意这个编译需要g++的支持
放到linux系统中解压并编译,其实编译leveldb很简单,解压下载包之后进入目录直接执行make即可。编译完成之后会在当前目录生成几个文件:
libleveldb.a libleveldb.so libleveldb.so.1 libleveldb.so.1.13(我当前下载的是1.13.0版),其中libleveldb.so.1,libleveldb.so都是libleveldb.so.1.13的软连
2.4 编译后在/home/lyc/leveldb/Leveldb路径下会出现一个库文件libleveldb.a,这个可以用在自己的项目中
3:leveldb性能测试
默认的编译makefile命令是不会生成测试程序的,如果要生成这些辅助的程序,可以用命令makefile test
结果在/home/lyc/leveldb/Leveldb路径下会产生可执行文件db_bench,arena_test,db_test等测试程序。这个就不解少了,我的目标的是在自己的程序中使用leveldb,所以重点在使用库文件libleveldb.a上。
源码包中自带有几个性能测试程序,一个是leveldb自身的测试程序:db_bench,还有两个分别是db_bench_sqlite3、db_bench_tree_db,分别编译之make db_bench make db_bench_sqlite3 mke db_bench_tree_db,后面两个由于依赖关系不一定能够编译通过,具体问题需要具体解决。
4:leveldb头文件准备
头文件的问题花了很多时间来解决,其实很简单,到/home/lyc/leveldb/Leveldb路径下(这个具体要根据自己的文件路径),用命令 cp -r include/leveldb /usr/local/include。把./include/leveldb文件夹的内容都拷到/usr/local/include路径下。
注意要切还到root用户,要不没有执行的权限。
将include下的leveldb目录拷贝到/usr/include/下:cp -r include/leveldb /usr/include/
5:示例程序
把libleveldb.a、db.h拷到本程序的同一路径下。
编译命令为: g++ -o sa Main.cpp libleveldb.a -lpthread
执行:
[lyc@Fedora test]$ ./sa
结果:
Open db OK
liyc7711@gamil.com
源码Main.cpp:
#include <assert.h>
#include <iostream>
#include "db.h"
using namespace std;
int main(int argc,char * argv[])
{
leveldb::DB* db;
leveldb::Options options;
options.create_if_missing = true;
std::string dbpath = "testdb";
leveldb::Status status = leveldb::DB::Open(options, dbpath, &db);
assert(status.ok());
std::string key1 = "lyc";
std::string key2 = "liyc7711@gamil.com";
cout<<"Open db OK"<<std::endl;
std::string value;
leveldb::Status s ;
s = db->Put(leveldb::WriteOptions(), key1, key2);/*key1和key2作为一对key-value对插入*/
s = db->Get(leveldb::ReadOptions(), key1, &value);/*根据key返回对应的value值*/
cout<<value<<std::endl;
delete db;/*删除数据库*/
return 0;
}
6:注意事项
6.1 编译中加上库文件的路径(libleveldb.a)和线程库标志(-lpthread),执行后在当前文件产生一个文件夹testdb保存了插入的数据。
6.2 leveldb用于一些单间的数据比如名称-值对,并且数据量远大于内存并且需要永久保存的情况下。很适合大规模的语言模型文件存贮。
6.3 插入的数据为两个字符串对一个为key,另外一个为value,查询时可以根据key取得value的值,相反不可以。
简单测试用例
// main.cpp
#include <assert>
#include <iostream>
#include <leveldb/db.h>
int main (int argc,char * argv[])
{
leveldb::DB* db;
leveldb::Options options;
options.create_if_missing = true;
std::string dbpath = "testdb";
leveldb::Status status = leveldb::DB::Open (options, dbpath, &db);
assert (status.ok ());
std::string key = "test";
std::string val = "test_value";
s = db->Put (leveldb::WriteOptions (), key, val);
val.clear ();
s = db->Get (leveldb::ReadOptions (), key, &val);
std::cout << key << ": " << val << std::endl;
}
编译:将之前编译好的libleveldb.a拷贝到于以上代码同一目录中然后g++ -o leveldbtest main.cpp libleveldb.a –lpthread
#include <iostream>
#include "leveldb/db.h"
using namespace std;
using namespace leveldb;
int main() {
DB *db ;
Options op;
op.create_if_missing = true;
Status s = DB::Open(op,"/tmp/testdb",&db);
if(s.ok()){
cout << "create successfully" << endl;
s = db->Put(WriteOptions(),"abcd","1234");
if(s.ok()){
cout << "put successfully" << endl;
string value;
s = db->Get(ReadOptions(),"abcd",&value);
if(s.ok()){
cout << "get successfully,value:" << value << endl;
}
else{
cout << "get failed" << endl;
}
}
else{
cout << "put failed" << endl;
}
}
else{
cout << "create failed" << endl;
}
delete db;
return 0;
}
给你补充下:
编译命令为g++ ldbtest.cpp -o ldbtest -L. -I./include
-lpthread -lleveldb
(工作目录就是leveldb目录中) include下面是leveldb的头文件,-L 搜索library 为了libleveldb.a能够被调用。
另外,编译的时候 可以将Makefile中说的snappy 压缩 也带上,还有谷歌perfecttools ,这个可选。压缩还是有必要的吧。