区块链如何纠错？

微版权用区块链证据如何提高知识产权纠纷解决效率？

近日，国家知识产权局公布第一批知识产权纠纷快速处理试点地区。旨在全面加强知识产权保护，切实提高知识产权维权效率，促进知识产权纠纷快速解决，更加高效维护市场主体和创新主体权益。

随着知识产权权利人维权意识的提高，知识产权司法案件呈现爆发式增长，诉讼周期长、维权成本高、举证责任重等问题逐渐突出。

易保全旗下品牌微版权，可以为用户提供作品确权、侵权监测、网络取证、举证维权等一站式知识产权保护服务，帮助用户保障电子数据真实可靠，提高知产纠纷解决效率。

微版权通过SHA-512哈希算法、时间戳服务、PBFT共识算法，对原数据进行加密运算，并把电子数据以Hash的形式存储到区块链上，然后通过保全链开放平台将电子数据同步存储到公证处、司法鉴定中心、互联网法院、仲裁委、CA机构等节点上，有效保证电子证据的原始性和不可篡改性。

用户通过相关权威机构官网可以查询区块链存证信息，包括保全主体、保全时间戳、保全哈希值等，并在举证时当庭验证。微版权真正实现了电子数据从产生、存证、举证都有司法机构同步监督与公证、有效保证司法效力。

区块链初始数据如何防止篡改

数据造假、数据不可信等问题的存在，给金融监管及风控等众多应用场景带来了严峻的挑战，也正成为阻碍数据大规模互联互通、共享共用的一大障碍。数据的真实可信问题长期影响着社会的各个领域，在更依赖数据的人工智能时代，这一影响将更为凸显。

数据造假可能发生在任一环节。其中，在数据存储期间造假往往更加简单：因为在现有数据存储技术下，数据的所有者、管理人员或受托存储方均有能力单方对数据进行任意的篡改或删除。

既然数据不可信的一个重要原因归咎于单方可以擅自篡改和删除数据，那么如何避免这一问题自然也得到了业界大量的关注。区块链和去中心化存储技术的诞生，对数据篡改起到了一定的遏制作用，也在市场上取得了初步验证。

许多企业开始尝试采用区块链存储数据，例如在货物追溯等场景。其做法往往是将重要数据直接写入区块中。这一简单粗暴的做法确实解决了数据防删改需求、继而满足了部分数据的可信分享，但却存在较多问题：

首先是无法存储海量数据：区块内不适合存储包括多媒体数据等在内的大数据，否则区块大小难以控制，使区块链的可扩展性变差。这就导致业务中必须对原生数据进行筛选取舍，仅选取少量必要数据存入区块，但这将降低可信数据的丰富程度。

其次是数据存取效率低：首先，由于打包过程的存在，区块链数据存储一般不用于高速的数据写入。其次，由于遍历式的数据读取方法，区块链无法支持快速索引、更无法支持SQL。

再次是数据维护效率低：区块链因其顺序引用的特点，不支持对个别历史数据的删除和修改（除非对全链重新生成，但这是区块链不应鼓励的行为）。这里需注意：“杜绝单方的私自篡改”和“完全不能删改”是完全不同的两件事。前者是一种确保互信的技术手段，但后者可能属于一种必要功能点的丧失。

最后是有数据丢失风险：这一风险单指采用中本聪共识最长链原则的PoW区块链系统。在这类区块链中，当出现链分叉时，最长（或最重）的链分支会被保留，其他分支会被抛弃，这就使区块内的数据实际上永远存在被“颠覆”、被丢弃的风险。而自私挖矿等攻击行为的存在，会加剧这一风险。这在数据存储应用中是无法接受的。

正是由于上述原因，直接采用传统区块链进行数据存储显然无法满足大量实践性场景中对可信数据存储的需求。这一问题也因而引发了大量的探讨，例如“什么数据应该在链上存储、什么数据应该在链下存储”。这些问题的出现，究其根本，还是因为区块链自身存储效率及能力受限所致的。毕竟在数据库时代，我们从来不会谈论“什么数据应该存放在数据库之外”这样的问题。

近年来也出现了一些产品，为解决上述的区块链数据存储效率低下问题提供了有益的实践，例如：

星际文件系统IPFS， R3的Corda，腾讯TrustSQL等。然而这些产品在数据可信存储方面仍存在或多或少的问题，具体而言：

IPFS对数据内容生成哈希摘要，并在多个节点间进行分布式存储，单个保有者不掌握完整数据，一定程度保护了数据隐私。但IPFS只能做到修改可知（因哈希值会因内容改变而变化），并且没有访问控制等数据安全措施，整体而言仍难以满足企业级服务需求。

Corda是面向金融交易隐私需求量身定做的存储产品，重点关注数据存储的隐私性。为此，Corda没有全局账本，并需要见证人的存在，是一种隐私但并不足够安全可信的数据存储方案。

TrustSQL与国内其它同类产品采用了一种简单直观的设计思路，也是目前国内最为常见的做法，即：先将数据存入数据库（或IPFS），再将操作记录、数据哈希等存于链上。相对于TrustSQL而言，一些类似产品如众享比特的ChainSQL等进一步提升了对SQL的支持度。该类产品满足了数据“可审计”、“监管透明”的需求，但缺点是依然无法杜绝对数据本身的删改行为，只是能做到“删改可知”；此外，对关键数据的保全需要依赖参与节点的全副本存储，存储成本略高。并且在数据隐私性方面的设计仍显不足。

针对上述产品中存在的不足，物缘科技通过原创技术创新，探索出一条不同的道路，并推出自主知识产权产品“ImSQL”,旨在提供一种可真正确保数据不被私自篡改或删除的可信存储产品。

ImSQL（Immutable SQL Database）是基于区块链和分布式存储技术上的一种新型可信数据存储解决方案，并完美解决了“防止私自删改”、“保护数据隐私”、“降低存储成本”等核心问题，为大数据时代的可信存储与数据分享提供了可靠的技术路径。

相比现有产品，ImSQL具有以下几点突出优势：

1．彻底杜绝单方对数据的私自篡改和删除。通过在存和取两个环节进行多方校验并在存储过程中杜绝篡改删除，全方位保障数据的真实可信性，使应用中的参与方能够互信、放心地采纳它方数据，使数据能够支撑精准追溯、追责。

2．杜绝单点失败。多方共用数据的同时也共同维护数据，数据不只存于一方，从根本上实现分布式数据的可信共享池，既避免了单点失败风险，也提升了数据分享效率。

3．碎片化存储，满足数据隐私需求，使任何一方无法掌握完整数据，从而解决了传统云计算的中心化存储、或区块链全副本存储均存在的数据隐私问题。除了数据所有方，其他任何存储托管者都无法获得完整数据。

4．优异的数据存取性能：ImSQL单节点可达3000 TPS的写入速度和10000 QPS的读取速度。此外，ImSQL还具有：支持SQL语言，可水平扩展等优点，存取性能和使用体验优异，并可充分利用集qun扩展使上述指标进一步达到数倍增长。

5．满足多媒体等大数据的高效存取需求，支持高效存取、高效索引、高效扩展，真正胜任大数据业务场景，可以对视频等数据实现既可信又高效的存储，从而给视频监控等场景提供前所未有的可信保全体验。

6．采用分片式设计，极大降低了每个存储参与方的存储压力和成本，使更多参与方有机会加入和参与到数据可信共享的生态中。

7．分布式架构，兼容轻节点，鼓励更多节点参与。不存在超能节点，参与存储的节点地位相同，更好保证系统的可靠性和抗毁性。此外，如果节点选择运行在轻副本模式，可只存储部分数据，使自身存储压力极大降低，义务虽然减轻但权力可不受任何影响。

ImSQL兼顾了海量存储、快速索引、水平扩展等数据库属性，也兼顾了数据即存即固化的区块链特征，在众多关注数据可信存储与分享的领域中，有望带来前所未有的使用体验和便利，例如：实现供应链中各方数据的互通与互信、实现政府或大企业各部门间数据的互联互通、支撑可信追溯相关海量数据的存储等。

以政府大数据建设为例。在政府众多不同部门和实体间实现高效的数据互联互通一直是个难题。现行做法往往需要建立独立的大数据部门，构建独立数据存储体系，从不同实体拉取相关数据后解析、重构，再实现可视化。这往往会带来较大的前期开销，既包含人、财、物等多种显性开销，也暗含人员编制、权责利益、时间成本、部门墙等隐性开销。同时，独立大数据部门的存在也隐含了需要一个可信第三方背书乃至承担责任的考虑。如果在这一场景下采用ImSQL作为数据互通的底层基础平台，就可以更为高效的完成这一任务，具体体现在：

无须依赖第三方实体背书：不同实体间数据可直接写入ImSQL，写入即保全，数据无法再被任一单方私自篡改和删除，保证其他实体在任何时间取用数据时的可用性、一致性和可信性；

无须建立和维护额外的数据存储系统：数据由所有参与实体共同存储和维护，天然共享、打通，不降低使用效率的同时减少了系统实施和维护成本。同时，ImSQL的数据碎片化存储技术，在实现数据共享的同时也能兼顾隐私保护，即，所有实体存储的数据可以是不完整的片段，只有那些具备访问权的实体才掌握对片段数据进行查找、组合并解释的钥匙。

综上，作为一种可信的、防数据篡改的数据存储技术，ImSQL完全继承了区块链数据保全的优势，又突破了区块链在效率方面的弱点，为用户提供了和数据库同样高效的数据存取体验。ImSQL是区块链和数据库技术相结合而产生的新品类，更是实现可信数据存储的不二选择。

区块链的共识机制

1. 网络上的交易信息如何确认并达成共识？

虽然经常提到共识机制，但是对于共识机制的含义和理解却并清楚。因此需要就共识机制的相关概念原理和实现方法有所理解。

区块链的交易信息是通过网络广播传输到网络中各个节点的，在整个网络节点中如何对广播的信息进行确认并达成共识最终写入区块呢？如果没有相应的可靠安全的实现机制，那么就难以实现其基本的功能，因此共识机制是整个网络运行下去的一个关键。

共识机制解决了区块链如何在分布式场景下达成一致性的问题。区块链能在众多节点达到一种较为平衡的状态也是因为共识机制。那么共识机制是如何在在去中心化的思想上解决了节点间互相信任的问题呢？

当分布式的思想被提出来时，人们就开始根据FLP定理和CAP定理设计共识算法。规范的说，理想的分布式系统的一致性应该满足以下三点：

1.可终止性（Termination）：一致性的结果可在有限时间内完成。

2.共识性(Consensus)：不同节点最终完成决策的结果应该相同。

3.合法性(Validity)：决策的结果必须是其他进程提出的提案。

但是在实际的计算机集群中，可能会存在以下问题:

1.节点处理事务的能力不同，网络节点数据的吞吐量有差异

2.节点间通讯的信道可能不安全

3.可能会有作恶节点出现

4.当异步处理能力达到高度一致时，系统的可扩展性就会变差（容不下新节点的加入）。

科学家认为，在分布式场景下达成完全一致性是不可能的。但是工程学家可以牺牲一部分代价来换取分布式场景的一致性，上述的两大定理也是这种思想，所以基于区块链设计的各种公式机制都可以看作牺牲那一部分代价来换取多适合的一致性，我的想法是可以在这种思想上进行一个灵活的变换，即在适当的时间空间牺牲一部分代价换取适应于当时场景的一致性，可以实现灵活的区块链系统，即可插拔式的区块链系统。今天就介绍一下我对各种共识机制的看法和分析，分布式系统中有无作恶节点分为拜占庭容错和非拜占庭容错机制。

FLP定理即FLP不可能性，它证明了在分布式情景下，无论任何算法，即使是只有一个进程挂掉，对于其他非失败进程，都存在着无法达成一致的可能。

FLP基于如下几点假设：

仅可修改一次：每个进程初始时都记录一个值（0或1）。进程可以接收消息、改动该值、并发送消息，当进程进入decide state时，其值就不再变化。所有非失败进程都进入decided state时，协议成功结束。这里放宽到有一部分进程进入decided state就算协议成功。

异步通信：与同步通信的最大区别是没有时钟、不能时间同步、不能使用超时、不能探测失败、消息可任意延迟、消息可乱序。

通信健壮：只要进程非失败，消息虽会被无限延迟，但最终会被送达；并且消息仅会被送达一次（无重复）。

Fail-Stop 模型：进程失败如同宕机，不再处理任何消息。

失败进程数量：最多一个进程失败。

CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论。CAP由Eric Brewer在2000年PODC会议上提出，是Eric Brewer在Inktomi期间研发搜索引擎、分布式web缓存时得出的关于数据一致性(consistency)、服务可用性(availability)、分区容错性(partition-tolerance)的猜想：

数据一致性 (consistency)：如果系统对一个写操作返回成功，那么之后的读请求都必须读到这个新数据；如果返回失败，那么所有读操作都不能读到这个数据，对调用者而言数据具有强一致性(strong consistency) (又叫原子性 atomic、线性一致性 linearizable consistency)[5]

服务可用性 (availability)：所有读写请求在一定时间内得到响应，可终止、不会一直等待

分区容错性 (partition-tolerance)：在网络分区的情况下，被分隔的节点仍能正常对外服务

在某时刻如果满足AP，分隔的节点同时对外服务但不能相互通信，将导致状态不一致，即不能满足C；如果满足CP，网络分区的情况下为达成C，请求只能一直等待，即不满足A；如果要满足CA，在一定时间内要达到节点状态一致，要求不能出现网络分区，则不能满足P。

C、A、P三者最多只能满足其中两个，和FLP定理一样，CAP定理也指示了一个不可达的结果(impossibility result)。

为什么说区块链是“去信任”的？

维基百科中，从心理学角度对信任的解释如下：

Trust is believing that the person who is trusted will do what is expected.

信任是指，相信被信任的人会做出预期的事。

结合我对信任的理解，信任包含几个关键点：

1. 信任是一个心理预判。

2. 信任是有程度的。

3. 信任是单向的。比如我信任你，但你不一定信任我。

4. 信任是有维度的。

道德上的信任：我信任他不会干坏事。

能力上的信任：我信任他能搞定这个事。

心理预判一般来源于两个因素：历史经验和客观规律。当然，这两个因素并不矛盾。事实上，我们大部分的预判，是同时建立在这两个因素之上的。

构建信任关系除了可以让彼此的信任的双方得到心理的上的愉悦感外，更重要的是，信任可以提升合作效率，甚至完成一些单体无法完成的事情。对于历史经验形成的信任关系，需要靠时间来积累。如果双方合作，都要从0开始积累，显然是低效的。为了提升效率，我们常常会引入第三方，在双方无历史经验可供参考的情况下，来实现两者间的合作关系。我们可以把这个第三方信任机构或工具称之为“信任中介”。

原子模型

信任传递：A信任T，T信任B，A可以通过T间接的与B产生合作关系。比如B想借钱，T没钱，A有钱；此时A可以把钱先给T，T再把钱给B。当B违约时，T帮B把钱还给A。

去信任：A信任T，B信任T。在A和B在互不信任的情况下，A和B将各自需求提给T，由T来达成A和B各自的需求；或者A直接与B产生合作关系，但都是在T的监视下完成，由T来确保A和B都是按交易的要求完成的。

注：黄色箭头代表着信任的方向。

其中 “信任传递”和“去信任”的主要区别在于，信任传递中的T参与双方的交易，也承担责任；而去信任模型中的T，不参与交易，也不承担责任。

区块链本身是一个平台工具，提供了一个不可篡改的记账服务。他无法促使交易双方彼此互相信任，也无法参与到双方的交易中；作为一个没有生命的工具，当然也无法承担交易责任（比如A违约，B发假货啥的，都属于交易责任；至于记账的正确性，系统的安全性责任，当然还是由区块链保障）。因此区块链所实现的是“去信任”模型，而非“信任传递”模型。

当然，在区块链记录大量交易数据后，则给人提供了一种可靠的经验数据。比如当A不信任B时，但在链上可以查阅B发生了大量的成功交易。此时A可以判断，B是一个可以相信的人。这是一个衍生的能力。也就是我们常提的“增信”的由来。无论是否有历史交易数据，在区块链平台上的交易仍然是在去信任模型下完成的。

信任是一个泛概念，包含的场景非常丰富，比如合作信任、感情信任、交易信任……而在区块链的世界里，当前主要涉及的场景是交易信任。当然，还可以利用区块链的不可篡改性提供存证服务，以解决其他场景的信任问题。

至于区块链如何做到不可篡改的记账服务，请参见《区块链如何确保交易安全？》

EpiK团队：打造共建共享共益的开源知识平台

1月10日，由EpiK铭识协议主办的“2021开源知识运动”主题活动为业界带来了一场知识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席/著名知识图谱专家/OpenKG主要发起人王昊奋、东北大学自然语言处理实验室副主任/小牛思拓创始人王会珍在内的重量级嘉宾参与。

在此次大会上，EpiK中国区负责人Eric Yao 做了《分布式知识图谱构建》的主题演讲，其中他重点提及了区块链去中心化的协作模式搭建共建共享共益的开放知识库的构想与实践。同时EpiK产品负责人介绍了即将推出的游戏化数据标注平台，详细内容如下：

前面三位老师分别讲述了知识图谱、区块链和数据标注三个方向的细节，而这三个方面融合在一起又会产生怎样的火花呢？接下来我要讲的EPIK PROTOCOL铭识协议，它的目的就是为了构建人类的永恒知识库，从而提高AI的智能，这就是数据开源或者是知识开源。

为什么要搭建开源知识平台？

EpiK项目是基于区块链的可信的分布式数据和知识的共享平台，通过去中心化数据存储和协作的方式来实现数据的共建和共享。为什么Epik会嵌入到人工智能和区块链的结合的角度，来切入到创业中来？这与当下的时代背景密不可分。

第四次工业革命已经来临了，全面智能化是这个阶段的核心目标之一，各种智能体也在逐渐的走入日常生活，比如说siri、小爱同学等等人工智能的语音助手，还有各种有AI学习能力的家用电器，比如说冰箱洗衣机彩电等等。

人类的知识传承已经有数万年了，最早是甲骨文刻在石头上，最后演变成竹帛纸张，到数字化存在硬盘上，这些知识都以文本图片和音视频非结构化的数据结构来存储，人类理解这些知识是很容易的，比如，我们可以很轻松的从电影中或者是从歌曲中判断这个人物的关系和情节。但是对这些信息，机器理解是很难的，很难通过一祯一祯的屏幕来把人类的关系梳理出来，如何让机器理解我们的人类的知识？

谷歌2012年提出知识图谱，它通过结构化的人类体系，从而让机器掌握人类的知识，开拓AI的认知。这里有一个知识图谱，也是我们很熟悉的一部电影，叫做《复仇者联盟》，它是用一个一个的图谱组成的网络结构，描述了电影中透露的各种各样的信息，有了这些图谱，AI就可以读懂知识图谱回答很多的问题，比如如何获得宝石位置，从谁那里取得宝石等等。

人工智能是一个大的方向，但是这个事儿和区块链有什么关系，这个就需要引入到一个很严肃的话题，是人类怎么样才能信任人工智能或者机器智能，这里就涉及机器人是否会欺骗人类，引导人类作出错误的决策。

AI或者知识图谱是很多的公司在做得事情，脸书，苹果、亚马逊、阿里巴巴等等，他们每个大公司都耗时费力的构建自己的知识图谱，但是这些知识图谱不是互联互通的，每个公司有自己的知识库，这就涉及到一个问题，中心化的知识库会面临被篡改知识图谱的隐患，由于知识图谱是一个可以一个一个三元组成的拓扑式网络结构，一个结点的变化，很容易导致计算机或者人工智能理解这个节点相关其他节点的关系都会发生变化，从而造成善恶或者立场的变化，这是非常危险的。

同时构建超大规模的知识图谱，还面临着无法组织大量的人工参与到构建知识库的过程中，缺少这样的组织结构，专业化是很难做到的，也会成为机器智能化巨大的障碍。

基于这两点可以看到，构建超大规模知识图谱，区块链技术是目前唯一找到解决这个问题的出路，因此，知识图谱就要开源开放可见度，这是它的必备属性，而不是不可对它产生的结果做解释。

构建开源知识平台有哪些挑战？

知识图谱底层的存储要开放开源和监督，但是人们怎么样可以协作共建知识库，同时可以访问知识库？

这里面有很多挑战，人类的知识是非常多的，领域也非常多，如何搭建共享平台我要是考虑几点。

第一点，如何开放知识共享，通过构建一些合理的工具和机制，让人人都有渠道贡献知识，因为每一个人都是智能体，让有需求的人可以有方法和访问这些知识。

第二条，如何防范知识篡改，或者知识被更改的时候可以溯源的，这就需要用到区块链的东西，它能保证知识的确权和不可更改，同时也可以通过合适的机制保障它可以持续的公开和更新。

接下来是我们如何能保持知识的质量，由于区块链其实是价值的载体，它的存储成本很高，它的优势其实不在于存储成本，而是在于数据的共建和共享，如何保证知识质量是很重要的一个话题。

在知识的产生层面，知识要可以被监督，在知识质量出现问题的时候，它需要被追责，才会形成一个良性循环，让链上的数据变得质量越来越高，越来越有价值。

最后一点，如何激励知识贡献，每个人都会通过我们的系统提供知识或者为我们系统做贡献，但是其实每个人都不一定是自发性的爱好，所以需要合理的激励机制，如何权衡各方面的收益的动态平衡，同时使得激励的分发成本相对比较低，让系统良性的可循环的运作起来，也是非常重要的。

为什么会选择在2020年做这个事情？我们观察到了一些合适的机会，很多的时机已经成熟了：2020年的时候基于区块链的去中心化存储技术刚刚成熟，比如很有名的项目Filecoin，可以借助0知识证明，以极低的管理成本组织超大规模的防篡改可共享的开放存储资源；2020年数据标注这个行业也迎来了一个大的爆发，预计2025年会达到100亿左右的人民币规模，同时会促进大量的年轻的就业人口涌入，为这个行业提供丰富的知识贡献和知识质检人才；2020年，DeFi这个概念迎来了空前的发展，可以更好的帮助解决线上的激励动态分配的问题，同时让数字货币的激励手段变得更加灵活；社会对数字货币的接受程度越来越高，越来越接受激励的合理性的概念。

EpiK构建超大规模知识图谱的解决方案

基于上面的考虑，诞生了EPIK PROTOCOL，EPIK指的是EpigraphyKnowledge，翻译过来就是铭刻在石头上的知识，代表着进入区块链上的知识，就像铭刻在石头上一样，不可以被随意的篡改，目的是依托区块链技术，构建人类永恒知识库，从而开拓AI的学识。针对前面提出的问题，提出三大解决方案。

第一点，要借助去中心化的存储技术，来解决数据的不可篡改问题，就是这样的数据是不可以被随意篡改的，这些知识不会因为私人的利益而随意篡改的，从而实现知识在全国各地永恒存储得以广泛传播。

第二点，借助去中心化自治组织解决劳动力问题，实现各国各界各族人民去中心化协作中公平获益。

第三点，借助通证经济解决自驱力问题，实现生态中各个成员为追求自身利益最大化，从而无形中推动知识图谱数据壮大的过程。

Epik技术架构，分为三大模块，知识提取、知识存储、知识应用，由低到高的三个层级，里面包含了很多的技术细节。

Epik生态参与者包含五个角色：持币用户、数据矿工、领域专家、赏金猎人、数据网关。把这些角色按照数据从生产到存储到使用这三个过程，数据产生的团体包含三种角色，一个是核心用户，一个是领域专家和赏金猎人，核心用户是可以通过投票来票选出领域专家，确保领域专家的权威性和专业性，领域专家是一个非常核心的的人物，负责组织生产各个类目的人类知识库数据，由于整个工作是非常劳动密集型的工作，所以涉及到大量的繁杂的数据纠错和清洗的工作，数据专家是无法完成的，他需要把这些任务拆分出来，发布到平台上，由赏金猎人认领，他的目的就是为了完成领域专家发布的任务，同时获得对应的奖励。

经过领域专家发布任务，把数据梳理和清洗出来以后，通过领域专家上传给数据矿工上，就是底层的存储机制上，这里面有数以万计的数据矿工来共同维持着整个平台数据的不可篡改和确权。

数据从产生到存储下来，可能涉及到应用的环节，上面会有很多应用的生态，如何方便的访问这些数据，就引入了第五个角色，就是数据网关，它的作用就是为整个底层的数据存储提供数据访问和数据索引的服务，为上层的应用层赋能，让上层的应用层更好的使用整个平台存储的数据。

上面说到的两个图偏概念化，下面举一个具体的例子，如何实现商业闭环，这就是一个具像化的图。

首先可以看到上面已经标注了一些角色了，领域专家，数据网关等等，领域专家是行业专家和领域达人，目的是梳理数据格式，组织数据生产和验收数据质量，其处理的数据都是自己所在该领域的公开的数据源，比如说公开的企业信息，公开的教材信息等等，当他把这两个数据源梳理的格式定好了，所要处理的数据任务发到去中心化的平台上，赏金猎人就可以在这个平台上认领任务，他的角色一般是大学生、青年白领等等，有一定的空闲时间，有一定的知识储备和使用工具素养的一些人，他们可以领取众包任务，同时对这些数据进行校对，获取一定的收益。

数据按照我们所需要的格式和质量生产好以后，由领域专家提供给矿工，矿工就是底层的分布式存储节点，由于我们的数据存储比较定向化，都是针对知识领域的，所以对数据存储的要求能力都不是很高，可能要求这些服务器八核16G，250G的ssd固态硬盘，5兆的带宽就可以满足。数据存储了以后，上层会有很多的应用，会访问我们的数据，因为我们的数据很有价值，因为我们整理了公开的企业信息，原题库整理了教材信息，这两种信息对他们来说都是非常有用的，同时我们可以看到上层知识的应用场景都有很大的规模，就是证明我们所服务的市场增长潜力和空间是巨大的，也可以保障整个项目的快速发展。

他们可以通过数据网关很好的访问我们平台上存储的知识和数据，从而实现更多的商业化应用，为整个知识的变现提供价值。

这个系统为什么会很好运作起来？这里面就有一个区块链行业的概念，叫做通证经济，就是我们希望设计合理的通证经济，每个人提供贡献在里面都会有对应的收益，比如领域专家每天会有5880元人民币的收益，可能每个月的收益足够他养活10到20人的小团队，持续的做这个事情。赏金猎人都是小镇青年和白领时间比较零散化的一类人，他们是时薪的方式，可能达到每小时36块钱，完成任务就可以领取这部分的收益。矿工，大概会有30元每台节点一天的收益。最后底层的应用场景，用户想要使用数据是需要去耗费一定的资源的，这是给整个系统注入能量的一个过程，他们需要大概抵押每天是202块钱人民币左右的积分，就可以获得1GB数据的访问权，可以随时的赎回，这形成了商业闭环。

接下来看一下整个项目的路线图：第一阶段是我们已经完成的，如白皮书测试发布，测试网方尖碑发布，到白皮书发布，测试网预挖计划发布，领域专家招募计划启动，都已经完成了，第二阶段是主网v1.0罗塞塔发布，还有《治理白皮书》发布和知识众包产品1.0发布，到今年的二三季度，就会发布主网v2.0，引入重要的概念就是以太坊，EVM虚拟机，同时去中心化治理平台发布和知识众包产品2.0发布。

顺便提一下，为什么引入EVM信息？这可以很便捷或者0成本的把以太坊上的经济或者去中心化的Eth经济资源引入到知识生态系统中。比如用户想访问我们链上的数据，但是没有链上积分怎么办，就可以通过抵押其他的资产，来获得数据地访问，这样可以快速扩大用户规模，这只是其中的一个应用。

我们将EpiK使命描述为：这将是一场至少延续50年的碳基生命向硅基生命的史诗级布道。这是一个非常长期的赛道，而且Epik也会持续的给这个系统赋能和迭代，让越来越多的用户很好的贡献知识和使用知识。

游戏化数据标注平台即将发布

在这分享一下关于游戏化的数据标注平台产品的一些思考，为大家展现一下未来普通人怎么样能很轻松的参与到EpiK知识图谱构建体系中，来为系统提供自己的知识，从而获取收益。

游戏现在是让整个互联网消耗用户时长非常多的一个领域。这里有一组数据：2004年—2010年《魔兽世界》这个游戏所有玩家的小时数加一起约等于593万年，这个基本上比人类文明的历史还长了，平均玩家每周在虚拟世界里要花调17—22个小时，这基本上相当于上班时间的50%了。

而全球最好的图片数据集，已经有100万张是已经标注的图片。它的图片总数是可能过千万的，但是100万张是带标注的。如果每一张图片的标注成本是5分钟，那其实只需要《魔兽世界》这个游戏六十万分之一的工作量就可以完成了。所以说其实游戏是一个特别值得我们去思考的东西。

游戏化其实就是把游戏的一些常见的设计思路运作到一些非游戏的领域，比如在线教育、比如一些公益类的项目或者是一些产品设计当中去。

举个例子：支付宝的蚂蚁森林和蚂蚁庄园，蚂蚁森林的累计用户应该是有5.5个亿了。因为这是公益项目，用户可以根据能量换成植的真树，相当于这个蚂蚁森林种下了1.22亿颗真的树。蚂蚁庄园的累计用户有4亿，送出了150亿个鸡蛋，这两个项目其实都是一个游戏化的公益项目，但却增加支付宝的活跃度，增加支付宝的黏性，以及拓展支付宝的社交关系链。其实这是一个商业和公益上都双赢的很大体量的项目，虽然它看起来只是一个小游戏。

另外还有一个很好的例子，是一个在台湾的工作室Fourdesire，这个工作室专门喜欢去做这类游戏化的产品。比如说其中有一个叫《记账城市》，《记账城市》是鼓励用户每天去记账，因为记账是一个很枯燥的事情，它用一个用户不断地记账就能换取一些积分，这些积分就能发展用户自己的城市，这个城市里面还有很多好玩的一些小的游戏化的一些特性，这样的话就让挺多人喜欢上记账了，成为一个养成性的存在。

这些游戏类的APP有一个共同的特点，它原本是把一些很枯燥的东西、很枯燥的一些任务包装成一个游戏的壳，用户就能逐渐地沉迷其中了。而且这个工作室最终也获得了一个流量上非常不错的表现，这是一个二三十人的工作室，但是他在全球累计获取了超过2500万的用户，而且《记账城市》经常会被推荐上APP Store首页。

游戏的核心体验是什么？简单总结为四点，第一个就是积分等级成长体验，就是用户长期持续地完成任务会得到这种积分、奖励、等级提升，像《记账城市》就是这个城市逐渐地发展壮大，像《太空冒险》就是你可能去了更远的星球，这样是一个积分等级成长的体验。

另外，游戏当中沉迷的另外一个元素就是它有故事和情感体验，比如说游戏的《使命召唤》里面会有那种战友的剧情，用户就能沉浸其中并能情感投射。包括蚂蚁庄园那只很可爱的小鸡，我们经常看到在朋友圈里很多用户其实会觉得自己的小鸡好久没有喂食了，他其实会产生一种愧疚感，这些东西其实都是这个产品打造出来的优良的情感体验。

还有一个比较重要的是游戏能够有一个成瘾性和进入感也是因为它有即时反馈体验，当用户完成某一个任务之后是有明显的反馈体验设计的。比如说在打篮球的时候当我们去投中一颗篮球的时候，它会擦中那个篮网发出一个声音，这个其实就是一个即时的反馈。比如说我们打FPS类游戏如果是爆头屏幕中间会出现巨大的一个图标提示，这个就是一个即时反馈体验。

最后，社会性互动体验，比如说我们可以跟好友之间一起互动，当年风靡一时的Social game比如说偷菜其实就是借助游戏本身实现人与人之间的互动，这个互动充满了一些很小的暧昧或者说隐含表达性一些东西，这其实是玩家们都很喜欢的。

我们的尝试探索是这样的，第一就是我们觉得数据标注这个业务跟游戏化其实是可以放在一起的。为什么说我们觉得数据标注这个业务跟游戏化是比较适合放在一起的？

其实就是因为第一标注这个任务本身是枯燥重复的，另外，我们也是希望用户在碎片化的时间里能够去进行数据标注的。

假如这个时候我们有一个标注任务是口腔医学相关这个领域的，比如说口呼吸是否会导致下颌收缩，这个东西其实一般的用户是无法去标注的，如果是医生他又很忙，他平时又有大量主业的工作。如果我们能把这样类似于数据标注的业务，在医生这个全国大概只有14万左右人的群体里面，去把它用碎片化的方式拆解成任务，并用游戏化的方式去鼓励用户收集，那么可能这个标注任务就能更好地执行。

为此，我们期待做出这样一个体验的产品，第一它有流畅的标注体验的，这需要有强大的算法支持，能够智能地分配标注任务。第二，我们肯定要尝试不同的游戏化的场景设计，赋予用户这个故事与世界观。

另外，我们要把一些游戏化的元素融入进来，比如我们做随机的抽卡或者成长体系这样的东西，让这个游戏能够具备一个基本的可玩性。

先说下流畅的数据交互，我们现在认为大部分的数据标注任务其实上下文无关的，就是标一个任务和标下一个任务之间是没有太强的关系的。因此，就可以把一些大的任务拆解，拆解之后就可以分发给合适的一些人，比如，我们会发布让用户朗读句子五遍的任务，用户对着这个把这句话朗读出来，满五遍之后这个任务自动提交了，然后用户就能获取相应的一些积分，然后这些积分可以拿来在游戏里做一些好玩的东西。

在游戏场景我们希望讲一个故事，这个故事中可能是某一种浩劫人类文明现在已经被摧毁了，那么我们在这个基础上怎么重启人类文明？在这个主线中，我们要不断地派遣探险队出去探险，去找到过往历史中的一些科技遗迹，然后去升级我们的一些建筑。比如说原本给人类提供能源的是火堆，通过反复的派遣探险队我们最终能变成蒸汽发电站，变完蒸汽发电站之后我们可能会变成核聚变发电站。这样也带着我们重塑一遍人类的科技文明史，带着我们的玩家能够体验到一种带着人类文明从蛮荒的时代走向农业时代、走向蒸汽时代、工业文明包括现在的人工智能未来，未来可能走向太空时代。

但是这件事情其实本身是很难的，我们认为未来的工作难点是：第一，我们的数据标注任务的推荐系统设计，潜在的问题也会非常地多。比如说我们的标注任务怎么能够实时的生成、怎么能够实时的分发，当然还要考虑用户的专业性门槛和反作弊。第二，不同于专业性人员的标注，我们是有员工雇佣的。大家的工作场合是安静的，我们用户的使用场景可能是在地铁上、可能是在上班的闲暇时间、可能是家里。这样的话什么样的人在什么场景下获取什么样的任务能保证我们较好的数据质量，这也是一个问题。第三，多用户提交的时候我们整个标数据的质性度的问题；第四，怎么合理地激励每一个用户，使用户贡献量和激励平衡。整个这一系列的东西都是我们要长期去解决的问题；第五，真正好玩的、用户周期很长、高黏性的一个前端游戏化是怎么实现的，这个也需要逐步探索。比如说什么样的玩法用户喜欢，我们是做一个成长积分不断增长的游戏更好，还是做一个自我挑战的游戏更好，还是单纯只是把一点游戏化的元素融入到移动APP的标注当中就可以，怎么能够避免用户觉得有新鲜感之后就厌烦，或者我们能不能频繁更换主题，这些东西都是未来我们在前端上需要探索的地方。

区块链技术

背景：比特币诞生之后，发现该技术很先进，才发现了区块链技术。比特币和区块链技术同时被发现。

1.1 比特币诞生的目的：

①货币交易就有记录，即账本；

②中心化机构记账弊端——可篡改；易超发

比特币解决第一个问题：防篡改——hash函数

1.2 hash函数（加密方式）

①作用：将任意长度的字符串，转换成固定长度（sha256）的输出。输出也被称为hash值。

②特点：很难找到两个不同的x和y，使得h(x)=h(y)。

③应用：md5文件加密

1.3 区块链

①定义

区块：将总账本拆分成区块存储

区块链：在每个区块上，增加区块头。其中记录父区块的hash值。通过每个区块存储父区块的hash值，将所有的区块按照顺序连接起来，形成区块链。

②区块链如何防止交易记录被篡改

形成区块链后，篡改任一交易，会导致该交易区块hash值和其子区块中不同，发现篡改。

即使继续篡改子区块头中hash值，会导致子区块hash值和孙区块中不同，发现篡改。

1.4 区块链本质

①比特币和区块链本质：一个人人可见的大账本，只记录交易。

②核心技术：通过密码学hash函数+数据结构，保证账本记录不可篡改。

③核心功能：创造信任。法币依靠政府公信力，比特币依靠技术。

1.5如何交易

①进行交易，需要有账号和密码，对应公钥和私钥

私钥：一串256位的二进制数字，获取不需要申请，甚至不需要电脑，自己抛硬币256次就生成了私钥

地址由私钥转化而成。地址不能反推私钥。

地址即身份，代表了在比特币世界的ID。

一个地址产生之后，只有进入区块链账本，才能被大家知道。

②数字签名技术

签名函数sign（张三的私钥，转账信息：张三转10元给李四） = 本次转账签名

验证韩式verify（张三的地址，转账信息：张三转10元给李四，本次转账签名） = True

张三通过签名函数sign（），使用自己的私钥对本次交易进行签名。

任何人可以通过验证韩式vertify（）,来验证此次签名是否有由持有张三私钥的张三本人发出。是返回true，反之为false。

sign（）和verify（）由密码学保证不被破解。·

③完成交易

张三将转账信息和签名在全网供内部。在账户有余额的前提下，验证签名是true后，即会记录到区块链账本中。一旦记录，张三的账户减少10元，李四增加10元。

支持一对一，一对多，多对已，多对多的交易方式。

比特币世界中，私钥就是一切！！！

1.6中心化记账

①中心化记账优点：

a.不管哪个中心记账，都不用太担心

b.中心化记账，效率高

②中心化记账缺点：

a 拒绝服务攻击

b 厌倦后停止服务

c 中心机构易被攻击。比如破坏服务器、网络，监守自盗、法律终止、政府干预等

历史上所有有中心化机构的机密货币尝试都失败了。

比特币解决第二个问题：如何去中心化

1.7 去中心化记账

①去中心化：人人都可以记账。每个人都可以保留完整的账本。

任何人都可以下载开源程序，参与P2P网络，监听全世界发送的交易，成为记账节点，参与记账。

②去中心化记账流程

某人发起一笔交易后，向全网广播。

每个记账节点，持续监听、持续全网交易。收到一笔新交易，验证准确性后，将其放入交易池并继续向其它节点传播。

因为网络传播，同一时间不同记账节点的交一次不一定相同。

每隔10分钟，从所有记账节点当中，按照某种方式抽取1名，将其交易池作为下一个区块，并向全网广播。

其它节点根据最新的区块中的交易，删除自己交易池中已经被记录的交易，继续记账，等待下一次被选中。

③去中心化记账特点

每隔10分钟产生一个区块，但不是所有在这10分钟之内的交易都能记录。

获得记账权的记账节点，将得到50个比特币的奖励。每21万个区块（约4年）后，奖励减半。总量约2100万枚，预计2040年开采完。

记录一个区块的奖励，也是比特币唯一的发行方式。

④如何分配记账权：POW（proof of work）方式

记账几点通过计算一下数学题，来争夺记账权。

找到某随即数，使得一下不等式成立：

除了从0开始遍历随机数碰运气之外，没有其它解法，解题的过程，又叫做挖矿。

谁先解对，谁就得到记账权。

某记账节点率先找到解，即向全网公布。其他节点验证无误之后，在新区块之后重新开始新一轮的计算。这个方式被称为POW。

⑤难度调整

每个区块产生的时间并不是正好10分钟

随着比特币发展，全网算力不算提升。

为了应对算力的变化，每隔2016个区块（大约2周），会加大或者减少难度，使得每个区块产生的平均时间是10分钟。

#欧易OKEx# #比特币[超话]# #数字货币#

以上内容为新媒号(sinv.com.cn)为大家提供！新媒号，坚持更新大家所需的区块链知识。希望您喜欢！

版权申明：新媒号所有作品（图文、音视频）均由用户自行上传分享，仅供网友学习交流，不声明或保证其内容的正确性，如发现本站有涉嫌抄袭侵权/违法违规的内容。请发送邮件至 k2#88.com(替换@) 举报，一经查实，本站将立刻删除。