古腾堡计划:不仅仅是免费书籍

目录

§1–简介

§2–古腾堡项目–解释公共领域的原理

§3–使用古腾堡项目网站

§4–他们还提供什么?

§5–古腾堡计划自出版

§6–分布式校对器

§7–入门古腾堡入门书籍

1。简介

互联网为世界带来了很多东西,但真正脱颖而出的东西之一就是使世界文化更容易为人们所用。 20年前似乎不可能的项目现在瞬间完成。 Google图书正在合法地扫描他们可以接触到的每一本书,互联网档案馆正在对每个公共领域的电影,歌曲,书籍和网页进行数字化处理。

但是在书籍方面,主要参与者之一是古腾堡计划。随着一大批志愿者扫描,校对和编辑公共领域的作品,现在能够比以往更容易发现晦涩的文学作品。像古腾堡计划(Project Gutenberg)这样的网站(在撰写本文时)提供了超过45,000本书,将确保没有一本书真正消失。谁想要世界上任何东西的副本,总能找到它。如果您从亚马逊订购印刷书,则通常必须等待48小时才能到达(如果您是主要客户,则需要24小时)。或者,如果您想从当地的大街商店购买书,则必须外出并到达那里。但是,如果下雨了怎么办?如果商店很远怎么办?另一方面,如果您只是懒惰呢?

另一方面,只需单击一下按钮,您就可以在家中舒适地购买电子书。快速,便捷。

第三,人们不愿阅读电子书。如果您是在公共汽车或火车上阅读印刷书籍,则每个人都可以通过阅读封面看到正在阅读的内容。如果您碰巧在阅读令人尴尬的内容(情色)或有争议的内容(希特勒的《我的奋斗》),那么这会导致某些非常尴尬的情况,人们在嘲笑或表示不赞成。但是,如果您正在阅读电子书版本,那么没人会知道您正在阅读什么。您可能还会阅读他们所知道的所有电话簿。

谈到“ Mein Kampf",您可能会想知道,由于电子书的匿名性,“ Mein Kampf"正在经历一轮激增受欢迎。人们不再会因为阅读这些可怕的文字而感到羞愧或尴尬。随便您怎么做。

2。古腾堡计划–解释公共领域的原理

每本出版的著作都受版权保护。这阻止了您和我窃取另一位作者的辛勤工作,这是正确的。版权在作者一生中都有效,在作者去世后的一段时间内。死后的版权期限会因国家/地区而略有不同,但是在欧盟和北美,版权期限是70年。

70年之后,这本书就变成了所谓的“公共区域"。基本上,这意味着这本书值得抢购。人们可以打印出来并出售自己的版本,更重要的是,对于本手册而言,该书可以放在互联网上,任何人都可以免费下载。

因此,根据版权法,您不会在Gutenberg项目上获得任何近期发行的书籍,也不会在其中找到作者仍然活着的书籍(因此请不要忘记Harry波特或约翰·格里森(John Grisham)。如果作者死了,请记住70年的规定。因此,在那七十年期间,这些作者都不会有任何书籍。

因此,剩下的70年规则已经过去了,而这是公共领域的书籍。古腾堡计划(Project Gutenberg)旨在尽可能多地数字化这些书籍,并将其在线提供给任何人免费下载。考虑到过去几百年来印刷的大量材料,这是一项艰巨的任务。只需考虑一下-有关所有可能主题的小说,手册,小册子和参考著作。所有这些都将被单独扫描,读取并检查该站点。你的头已经在旋转吗?我的确是这样。

古腾堡计划取决于一支志愿者队伍,我将在手册的后面部分进一步介绍这一过程。但我只是想简单地看一下在线传输书籍的技术。

他们不会逐字逐句地键入每本书。这确实会使该过程漫长而乏味,并且它们永远都不会取得任何有意义的进展。取而代之的是,他们使用一种称为OCR(光学字符识别)的技术。

像Evernote这样的大型网站都使用OCR。这是扫描书的每一页的过程,然后OCR逐行查看每一页(或“读取"它,如果您希望这样看的话)。然后将单词转换为可编辑的文本文件。

显然,这不是一种完美的技术(尚未)。如果该书具有独特的字体,或者印刷品褪色或损坏,则OCR将很难转换文本。这就留下了错误,这就是古腾堡计划的志愿者参加的地方。但是正如我所说,稍后会详细介绍。

3。使用Project Gutenberg网站

首先,您显然需要在搜索引擎中输入标题或作者。请使用“搜索书目录"搜索引擎,而不要使用“搜索网站"。

Gutenberg现在也托管这些书的音频版本。标题旁边将出现徽标,表明它是教科书(书本图标)还是有声书(扬声器图标)。

您已经查看了搜索结果,并决定要下载文本版本的《巴斯克维尔猎犬》。让我们看一下如何下载它以便阅读。

首先,简要地说,通常提供两种类型的ePub和Kindle文件-“图像"和“无图像"。顾名思义,“图像"是带有插图的书籍版本。显然,这些文件的大小较大(但通常不会太大)。

如果想快速将图书下载到智能手机,右下角还有一个QR码。只需使用QR码扫描仪(iOS App Store和Google Play免费提供)。

现在让我们检查文件格式。

这是该书的网页版本,您可以用来在浏览器中阅读。另外,由于这些图书是公共领域的,因此您也可以在您的网站上托管HTML版本。只需下载HTML文件,然后双击它即可在浏览器中打开。

“电子出版物"的简称,这是最常见的阅读格式之一。 ePubs适用于各种读者,包括Apple的iBooks。只需下载它,然后在Mac计算机上双击以在iBooks上将其打开。 Windows用户可以使用优秀的Calibre作为阅读器。

Amazon的Kindle可能是有史以来最受欢迎和使用最广泛的电子书阅读器。这是其他人试图模仿的。将电子书从Kindle外部插入Kindle需要更多的步骤,但并不重要。

您还应该记住,您只有5GB的可用空间来发送文档。每本电子书通常本质上都是很小的,但是如果您开始下载整个库和/或大量附有图像的电子书,则5GB将会很快消失。因此,请谨慎使用此功能。

通过电子邮件将文件发送给Amazon之后,显示在Kindle上所需的时间有所不同。和我在一起,有的在几分钟之内就到了,有的则花了一个小时,有的却根本没到。如果几个小时后仍未到达,请再试一次。

对于音频,只需下载文件并在相关的音频播放器中收听即可。

如果您是第一次使用此功能,请选择自己喜欢的云服务,当Gutenberg请求访问时,自然就可以授予它。可以随时通过访问云存储网站并删除Gutenberg网站来撤销此访问权限。

一旦Gutenberg具有访问权限,它将在您的云存储中创建一个特殊的Gutenberg文件夹,然后将其删除。您想要的电子书。保留Gutenberg文件夹-以后所有的电子书也将放在这里。

4。他们还提供什么?

书不是古腾堡唯一提供的东西。让我们看一下网站上还提供了什么。

录音对于学习新语言的人们也非常有用,因为他们可以在阅读文本时收听它们。这是学习正确发音的好方法。

如果您想为Librivox志愿服务并在有声读物中长生不老,只需转到Librivox网站,然后单击绿色的“志愿者"按钮。

录音必须具有很高的质量,声音必须清晰易懂。最好的录音设备通常是Audacity。只需启动软件,戴上耳机,然后再购买即可。阅读有关使用Audacity录制音频的更多信息。

要做这样的事情实际上是非常困难且令人不安的。因此,您需要做一些尝试才能使其正确。

在撰写本文时(2014年3月),可以使用以下方法:

  • 2003年8月的CD – 600本书。
  • 2003年12月的DVD –前10,000本图书中的9,400本书。
  • 2006年7月的DVD-前19,000种图书中的17,000本书。
  • 2007年3月科幻小说书架CD –大多数科幻小说标题。
  • 2010年4月(双层)DVD – 29,500多种书籍。
  • 只需转到此古登堡页面即可查找下载磁盘的各种方法。选项包括BitTorrent,FTP等。该页面还为您提供了磁盘标签,无论是高清PNG格式还是Photoshop格式,如果您想以任何方式对其进行更改。

    5。古腾堡计划自出版项目

    请参阅PCPC.me的自出版指南,以很好地介绍该主题。

    6。分布式校对器

    好是没有最低限度的时间投入。您可以随时在这里和那里做5分钟的空闲时间。如果一个星期没有时间,那就不用担心。

    如果您决定志愿服务,您将有机会看到各种不同类型的书籍。整个项目令人着迷。片刻之内,您要检查一本侦探小说的页面,下一刻,您要检查爆炸性文字的页面。

    这是进行所有校对的页面。首先,单击右上角的“注册"链接,然后填写表格。单击激活电子邮件中发送给您的链接,就是这样。恭喜你您已经正式加入了Distributed Proofreaders。

    一旦您做了足够的工作以熟悉过程,并且喜欢这项工作,那么其他层次最终将对您开放。但是您需要慢慢开始,逐步建立,并学习校对规则。

    正如Gutenberg项目页面所述,要记住的主要规则是:

  • 不要重新包装线。将行尾保留在图像中的位置处(除非,请将重新插入行中的单词放在一起)。
  • 在每个段落之前使用空白行,并且不要在行首处缩进
  • 删除OCR软件错误插入的标点符号周围的多余空格。
  • 不要更正原始拼写。
  • 如有疑问,请使其看起来像原始版本一样,并使用[** 下一个校对员的注释或PM会在这里]标记该地点。
  • 听起来很多规则都很复杂,但是一旦获得开始,它将变得更加容易。

    因此,假设您已经练习过其中一个入门级标题,现在您已经很自信了,选择一个看起来很有趣的标题,然后单击链接。您应该始终最好选择自己感兴趣的东西。如果主题引起您的全神贯注,您不太可能忽略文本中的错误。

    扫描的页面占据了大部分窗口,下面是OCR设法理解的文本框。在第一轮中,您只需要将扫描的文本与下面框中的可编辑文本进行比较。

    请记住我们之前检查过的规则:

  • 不要重新包装行。将行尾保留在图像中的位置处(除非,请将重新插入行中的单词放在一起)。
  • 在每个段落之前使用空白行,并且不要在行首处缩进
  • 删除OCR软件错误插入的标点符号周围的多余空格。
  • 不要更正原始拼写。
  • 如有疑问,请使其看起来像原始的一样,并使用[** 下一个校对者的注释或PM会在这里]标记该点。
  • 只需阅读扫描的文本,然后将其与可编辑的文本进行比较文本。如果您在可编辑的文本中看到任何错误,请对其进行纠正。

    7。推荐书籍,让您开始学习古腾堡

    标签: