3 что называется форматом файла. Что такое форматы файлов: описание, особенности

12.08.2019 Разное

Любые файлы и документы обязательно имеют название. Название состоит из двух частей, разделённых точкой. Первая часть названия содержит информацию, которую вы присваиваете файлу, или же она автоматически присваивается, в зависимости от используемой программы. Вторая часть названия указывает на формат файла, который присваивается автоматически и зависит от типа файла, программы, которой он был создан, а также других факторов.

Можно выделить ряд расширений файлов, которыми пользуются практически все владельцы ПК. Среди них можно отметить несколько групп:

Архивы:

a. RAR сжатие, которое характеризирует один файл или группу файлов. Название программы, которая создаёт файлы с данным расширением, берёт основание от "Roshal ARchive" разработчика Евгения Рошаля, а программа называется WinRar.

b. ZIP архив, которое использует аналогичное сжатие. Большое количество программ-архиваторов поддерживают файлы с таким расширением. Данные файлы создаются благодаря программе WinZip.

Видео файлы:

a. AVI расширение, которое также может характеризоваться кодировкой с различными кодеками. Данные файлы имеют меньшие показатели сжатия, а их воспроизведение зависит от наличия соответствующего кодека для видеопроигрывателя.

b. MPG или MPEG1 расширение звуковых и видео файлов, которое характеризуется потерей данных и компрессией.

c. MP4 или MPEG4 расширение, используемое для видео клипов и фильмов. Стандартный сжатый MPEG-4 файл используется в сети Интернет для более удобной передачи. Аудио и видео часть файла передаётся при раздельном сжатии.

d. SWF (ShockWare Flash) является расширением файлов, которые хранят анимационные клипы или векторную графику. Данный формат имеет и другое название – Flash Player , который позволяет их считывать (воспроизводить). Файлы формата SWF редактированию не поддаются.

Графика:

a. GIF (Graphics Interchange Format) является форматом, который используется для построения анимационной графики. Формат используют, как для цветных, так и для чёрно-белых изображений, и использует около 256 цветов и оттенков. Главным преимуществом является малый объём. Данный формат для графических изображений принадлежит фирме CompuServe. Более редко данный формат используют при создании анимации.

b. JPG (JPEG) формат используют, как правило, для растровых фото, рисунков и изображений. Данный формат вызывает некоторую потерю качества изображения в процессе высокого сжатия. Благодаря большому количеству цветов, является лучшим вариантом для изображений и фотографий, которые создаются с использованием около 16,7 млн. цветов.

c. TIF или TIFF (Tagged Image File Format) растровый тегированный формат изображений. Как правило, формат используют владельцы цифровых фотоаппаратов, а процесс сжатия файлов позволяют сохранять качество. Изображения также строятся на использовании 16,7 млн. цветов.

Midi – с помощью данного формата можно создавать схожие звуки на различных устройствах. Кроме того, этот формат позволяет организовать обмен данными между устройствами.

Mp3 – параметры сжатия, используемые формате MP3 аналогичны тем, которые используют в JPG изображениях . Используя данных формат можно добиться десятикратного сжатия, с соответственной потерей качества звука. Конечно, качество звука в этом формате является предметов споров, но для не профессиональных музыкантов этого вполне достаточно.

Wav – формат, разработанный компанией Microsoft. Используется в операционной системе Windows. При помощи данного формата можно достаточно точно передать звук. При этом формат не занимает много места на диске. Но для передачи в сети интернет формат Wav не подходит.

Wma – формат также разработан компанией windows. Используется для трансляции и хранения звуковых файлов.
Другие распространенные форматы

Exe – в данном формате хранятся приложения и программы. Запускается файл в формате exe при двойном клике мыши.

Все знают, что каждый файл имеет свое наименование. Оно состоит из имени файла и его расширения, разделенные между собой знаком точки (например: photo.jpg). Имя файла может быть выбрано самим пользователем, или программистом, создающим программу. Расширение (его еще иногда называют форматом), жестко привязано к типу файла, и изменять его категорически противопоказано.

Хотя человек работает чаще с типами файлов, непосредственно связанных со своим родом деятельности (например музыкант со звуковыми файлами), есть наиболее часто встречающиеся форматы файлов, которые используют практически все. Вот основные из них:

Архивы:

RAR – файл или группа файлов, сжатых с использованием RAR-сжатия (имеет более высокий коэффициент сжатия, чем ZIP). "RAR" происходит от "Roshal ARchive" (имя разработчика - Евгений Рошаль, программа WinRar).

ZIP – файл сжатый, с использование ZIP-сжатия, поддерживается большинством программ- . Windows пользователи могут создавать ZIP-файлы, используя, к примеру, программу WinZip.

Видео:

AVI – формат видео-файла содержащий данные, которые могут быть закодированы в различных кодеках. Использует меньшее сжатие, чем аналогичные форматы. AVI-файлы могут быть проиграны различными плеерами, но плеер должен поддерживать кодек используемый для кодирования данного видео. (Прим. автора: слово кодек – происходит от слов КОдировать и ДЕКодировать).

MPEG1-2(MPG) –формат хранения видео и звука с компрессией и потерей данных.

MPEG4(MP4) – фильм или видео клип, сжатый в MPEG-4 стандарт, обычно используется для обмена и передачи видео-файлов в Интернете. В этом формате используется раздельное сжатие для аудио и видео дорожек.

SWF - ShockWare Flash. Файлы SWF создаются с помощью программного продукта Macromedia Flash. SWF называют также форматом Flash Player. Формат предназначен для хранения векторной графики и анимационных клипов, которые могут содержать звук. Для его просмотра используется проигрыватель Flash Player, а также современные Web-браузеры. Редактировать SWF-файлы нельзя.

Графика:

BMP – растровый графический формат. Стандартный формат графических файлов для Windows. Практически все программы редактирования изображения Windows могут создавать и читать файлы BMP. Можно установить цвет изображения, от чёрно-белого до полноцветного. Изображение в этом формате не подвергается сжатию. Примерно 16.7 миллионов цветов.

GIF – Graphics Interchange Format (формат обмена графическими данными). Стандарт фирмы CompuServe, для определения растровых цветных изображений. Созданные для сетевого распространения, файлы данного формата очень малы. Формат записывает чёрно-белое изображение, используя 256 оттенков серого, и цветное изображение, используя 256 или менее цветов. Изображение также можно использовать в анимации.

JPEG(JPG) – чаще всего используется для растровых изображений (фотографий, рисунков т.д.). Высокая степень сжатия в формат JPEG значительно уменьшает размер файла изображения, но при этом происходит потеря качества изображения. На сегодняшний день JPEG является лучшим форматом для фотографий и изображений с большим числом цветов. Удобен для использования в Интернете или пересылке по электронной почте. Примерно 16.7 миллионов цветов.

PSD – Photo Shop Data. Формат файлов программы обработки фотоизображений Photoshop. Примерно 280 триллионов цветов.

TIFF(TIF) – Tagged Image File Format (тегированный формат файлов изображений), растровый графический формат. Этот формат ассоциируется с изображением высокого качества и считается стандартным форматом обмена данных между ПК. Формат TIFF позволяет сжимать изображение без потери данных. Широко используется пользователями цифровых камер. Примерно16.7 миллионов цветов.

Документы, текст:

DOC – документ, созданный в Microsoft Word. Может содержать отформатированный текст, картинки, таблицы, графики, диаграммы, форматирования страниц и параметры печати.

PDF – Portable Document Format. Документ программы Adobe Acrobat. Используется для представления документов в фиксированной форме и формате, независимо от устройств, на котором они будут открыты и от разрешения. Т.е. каким документ создан, таким он и будет всегда виден.

RTF - Rich Text Format. Формат хранения размеченных текстовых документов, предложенный Microsoft. RTF-документы поддерживаются большинством современных текстовых редакторов. Большинство текстовых редакторов реализуют импорт/экспорт в формат RTF, благодаря чему этот формат часто используется для передачи текста из одной программы в другую. Редактор WordPad, встроенный в Windows по умолчанию сохраняет документы в формате RTF.

TXT – стандартный текстовый документ, который содержит неформатированный текст и открывается любой программой обработки текстов (обычно "Блокнотом")

Звук:

MIDI – Musical Instrument Digital Interface. Это скорее программа для управления встроенными синтезаторами, чем звуковой файл. MIDI позволяет создавать схожие звуки на различных устройствах, а также обмениваться данными между устройствами.

MP3 – для объяснения параметров сжатия, которые в применяют в MP3, этот формат сравнивают с JPG для изображений. Коэффициент сжатия в 10-12 раз, соответственно с потерей качества звука. Качество звука МР3 формата вызывает много споров, но для "не специалистов" вполне приемлемо. Сжатие обеспечивается за счёт исключения частот не воспринимаемых ухом человека.

WAV – файл фирмы Microsoft. Он используется в Windows. Не сжатый формат. Этот формат точно передаёт звук, но занимает много места на диске. По причине своего большого объема он не удобен для передачи через Интернет.

WMA - Windows Media Audio. Формат файла, разработанный компанией Microsoft для хранения и трансляции аудиоинформации. Характеризуется хорошей способностью сжатия.

Другие:

EXE – приложение (программа) DOS или Windows, иногда . Исполняемый файл, который запускается при одинарном или двойном (в зависимости от настроек Windows) клике мышью.

HTM, HTML - текст написанный на Hyper Text Markup Language. Используется для создания Интернет страниц.

Формат – спецификация структуры данных, записанных в компьютерном файле. Формат файла иногда указывается в его имени, как часть, отделённая точкой (обычно эту часть называют расширением имени файла, хотя, строго говоря, это неверно). Например, окончание имени (расширение) «.txt» обычно используют для обозначения файлов, содержащих только текстовую информацию, а «.doc» – содержащих текстовую информацию, структурированную в соответствии со стандартами программы Microsoft Word. Файлы, содержимое которых соответствует одному формату (реже – одному семейству форматов), иногда называют файлами одного типа . Так как общепринятая в вычислительной технике концепция файла – неструктурированная последовательность байтов, компьютерные программы, сохраняющие в файлах структурированные данные, должны как-то преобразовывать их в последовательность байтов и наоборот (в ООП эти операции называются, соответственно, «сериализацией» и «десериализацией»; для текстовой информации последнее также называется «разбор» или «парсинг»). Алгоритм этого преобразования, а также соглашения о том, как различные фрагменты информации располагаются внутри файла, и составляют его «формат». Различные форматы файлов могут различаться степенью детализации, один формат может быть «надстройкой» над другим или использовать элементы других форматов. Например, текстовый формат накладывает только самые общие ограничения на структуру данных. Формат HTML устанавливает дополнительные правила на внутреннее устройство файла, но при этом любой HTML-файл является в то же время текстовым файлом.

Спецификации

Для многих форматов файлов существуют опубликованные спецификации, в которых подробно описана структура файлов данного формата, то, как программы должны кодировать данные для записи в этот формат и как декодировать их при чтении. Большинство таких спецификаций свободно доступны, некоторые распространяются за плату. Иногда компании могут считать определённые форматы файлов своей коммерческой тайной и не публиковать их. Хорошо известный пример – форматы файлов пакета Microsoft Office. В некоторых случаях компания, выпустившая приложение, просто не считает нужным тратить время на написание подробной спецификации. Если спецификация формата недоступна, то для обеспечения совместимости программы с данным форматом приходится заниматься обратной разработкой. В большинстве или во всех странах форматы файлов не защищены законами об авторских правах. Однако в некоторых странах патентами могут быть защищены алгоритмы, используемые для кодирования данных в какой-либо формат. Например, в широко распространённом формате GIF использовался патентованный алгоритм (срок действия патентов в разных странах истек в 2003-2004 гг.), что привело к разработке альтернативного формата PNG.

Определение типа файла

Тип файла – это информация для быстрой идентификации содержимого файла операционной системой и пользователем без необходимости считывания всего содержимого файла. Благодаря этой информации, пользователь приблизительно знает, тип содержащейся информации в файле, а в операционной системе может быть сопоставлена программа для обработки файлов данного типа. Для того, чтобы правильно работать с файлами, программы должны иметь возможность определять их тип. По историческим причинам, в разных операционных системах используются разные подходы для решения этой задачи.

Расширение имени файла

Некоторые операционные системы, например, CP/M, DOS, и Microsoft Windows используют для определения типа файла часть его имени, т. е. «расширение имени файла». В старых операционных системах это были три символа, отделённые от имени файла точкой (в файловых системах семейства FAT имя и расширение хранились отдельно, точка добавлялась уже на уровне ОС); в более новых системах расширение может являться просто частью имени, и тогда его длина ограничена только неиспользованной длиной имени (которая может составлять, например, 255 символов). Например, HTML-файлам может соответствовать расширение «.htm» или «.html». Пользователь может свободно изменить расширение файла. Поскольку многие оболочки пользователя используют расширение, чтобы определить программу, с помощью которой нужно открыть файл, это может сделать последний недоступным для работы или вообще «потерять», если пользователь забудет исходное расширение. Поэтому Windows Explorer по умолчанию скрывает расширения. Эта практика имеет и обратную сторону: так как расширение файла не видно, можно обмануть пользователя, заставив его думать, что, например, файл с расширением.exe – изображение с другим расширением. В то же время, опытный пользователь может использовать возможность изменить назначенный файлу тип, просто сменив расширение, чтобы открыть его в другой программе, не указывая её напрямую. Это может быть полезно, если в программе не предусмотрено открытие файлов с каким‑то расширением, а пользователь знает, что их формат подходит для обработки в данной программе.

Магические числа

Другой способ, широко используемый в UNIX-подобных операционных системах, заключается в том, чтобы сохранить в самом файле некое «магическое число» (сигнатуру) – последовательность символов, по которой может быть опознан формат файла. Первоначально этот термин использовался для специального набора 2-байтовых идентификаторов, сохраняемых в начале файла (эта практика перекочевала и в другие ОС, например, MZ в MS-DOS), однако, любая последовательность символов, характерная для данного формата, может быть использована как «магическое число». Для определения формата файла служит команда file, которая использует файл /usr/share/misc/magic

Метаданные

Некоторые файловые системы позволяют сохранять дополнительные атрибуты для каждого файла, т. е. «метаданные». Эти метаданные можно использовать для хранения информации о типе файла. Такой подход используется в компьютерах Apple Macintosh. Метаданные поддерживаются такими современными файловыми системами как HPFS, NTFS, ext2, ext3 и другими. Недостатком этого метода является плохая переносимость – при копировании файлов между файловыми системами разных типов метаданные могут быть потеряны.

Типы данных, определённые стандартом MIME, широко используются в различных сетевых протоколах, однако в файловых системах они пока применяются редко.

В приведенной ниже таблице указаны наиболее часто используемые форматы файлов на сегодняшний день.

Расширения файлов

Форматы

  • Deb (Debian Pakage Manager-Archive)

    Freeze/melt (.F) QNX4 Archive format

    IMG, ISO (виртуальный диск)

    RPM (Red Hat Pakage Manager-Archive)

    SMC System Management Console Format

Форматы архивных файлов

Installation file

    deb Debian Package Manager

    MSI Windows Installer (в прошлом Microsoft Installer)

    pkg BeOS SoftwareValet

    RPM используется в Red Hat

    sis, sisx используется в Symbian OS

    APK используется в ОС Android

    CAB используется в Windows Mobile

Исполняемые форматы (форматы программных файлов)

    текстовый файл (.txt)

    AmigaGuide (.guide)

    Rich Text Format (.rtf) (принятый Microsoft формат для хранения форматированного текста)

    OpenDocument Text (.odt) (вариант открытого текстового формата)

    OpenOffice.org/StarOffice Writer (.sxw) (также открытый текстовый формат)

  • WordPerfect (.wpd)

    Microsoft Word (.doc, .docx, .docm) (защищённый Microsoft-формат)

    Lotus Word Pro (.lwp) (не документированный текстовый формат для Lotus SmartSuite)

    DjVu (формат для хранения сканированных книг – удобен, когда распознание недопустимо из-за сложной вёрстки или если надо сохранить особенности документа)

    FictionBook (полностью открытый формат)

    Mobipocket (для карманных компьютеров)

    PDF (зачастую книги «печатают» в PDF после вёрстки)

    RB (формат Rocket eBook)

    Таб (табуляция, ASCII код 09)

    Microsoft Excel (.xls, .xlsx, .xlsm) (распространённый Microsoft-формат, квази-стандарт)

    OpenDocument Spreadsheet (.ods) (формат используемый открытым табличным процессором от OASIS, универсальный стандарт использующий XML и Zip)

    dif (для обмена таблицами между табличными процессорами)

    Microsoft Excel 2007 (.xlsx) (новый Microsoft-формат)

    123, WK? - Lotus 1-2-3

    AWS - Ability Spreadsheet

    CLF - ThinkFree Calc

    OpenOffice.org/StarOffice Calc (.sxc) [открытый формат на (XML, ZIP) используется программами Calc из StarOffice и поддерживается OpenOffice.org

    WKS - Microsoft Works

    gnumeric - GNU gnumeric

Текстовые форматы

    BMP (Windows or OS/2 bitmap)

    cpt (Corel PHOTO-PAINT bitmap)

    GIF (Graphics Interchange Format)

    HDR (High Dynamic Range)

    JPEG, JPG, JPE (Joint Photographic Experts Group)

    JPEG 2000 (.jp2)

    PCX (ZSoft PaintBrush)

    PDN (Paint.NET Image)

    PNG (Portable Network Graphics)

    PSD (Photoshop document)

    TGA (Truevision Targa) (.TGA, .tpic)

    TIFF, TIF (Tagged Image Format)

    WDP, HDP (Windows Media Photo)

  • APNG (Animated PNG)

    Autodesk Animation (.fli/.flc)

  • Adobe Flash (.swf), векторная графика

    SMIL, презентации (открытый аналог Flash)

    MNG (Multiple-image Network Graphics)

    SVG (Scalable Vector Graphics, .svg) - презентационный формат, ориентированный на векторную графику

    Windows Animated Cursor (.ani)

    WLMP (Windows Movie Maker)

Графические форматы

    AA – Audible Audio Book File

    AAC – Advanced Audio Coding

    AMR – Adaptive Multi-Rate

    APE – Monkey"s Audio

    CDA – CD Digital Audio

    FLAC – Flat C Audio

    MT9 – Music 2.0

    Ogg – Vorbits

    VOC – Creative SoundBlaster

    WAV – Windows PCM/ADPCM

    WMA – Windows Multimedia

Звуковые фонограммы, аудиозаписи

    ASF (Advanced Streaming Format)

    AVI (Audio Video Interleave)

    BinkVideo (.bik)

    FLV (Flash Video)

  • MXF (Material eXchange Format)

    Ogg (для Tarkin и Theora)

    QuickTime (.mov, .qt)

  • SWF (ShockWave File)

    VOB (DVD-Video File)

    WMV – Windows movie

Видео форматы

    Статические

    • HTML - (.html, .htm) - язык разметки гипертекста (HyperText Markup Language)

      XML - (.xml) - расширяемый язык разметки (eXtensible Markup Language)

      XHTML - (.xhtml, .xht) - расширяемый язык разметки гипертекста (eXtensible HyperText Markup Language)

      MAF - (.maff) - архивированный HTML (веб-архив), содержащий одну или несколько веб-страниц с изображениями и др. загружаемым контентом, сжат по стандарту ZIP

      MHTML - (.mht, .mhtml) - архивированный HTML (веб-архив), хранит все данные веб-страницы (текст, изображения и проч.) в одном большом файле, упакованном по стандарту MIME (MIME HTML)

    Динамически генерируемые

    • ASP - (.asp) - активные серверные страницы от Microsoft (Active Server Page)

      ASPX - (.aspx) - активные серверные страницы на основе.NET от Microsoft (Active Server Page .NET)

      ADP - AOLserver Dynamic Page

      BML - (.bml) - Better Markup Language (templating)

      CFM - (.cfm) - интерпретируемый скриптовый язык программирования ColdFusion

      CGI - (.cgi) - Common Gateway Interface - «общий интерфейс шлюза»

      iHTML - (.ihtml) - Inline HTML

      JSP - (.jsp) - JavaServer Pages

      Lasso - (.las, .lasso, .lassoapp)

      PL - (.pl) - язык программирования Perl

      PHP - (.php, .phtml) - аббревиатура от PHP: Hypertext Preprocessor , первоначально была аббревиатура от Personal Home Page

      SSI - (.shtml, .stm, .shtm) - HTML вместе с Server Side Includes

Интернет

Список литературы.

    Конституция Российской Федерации. Комментарий. М.: Юрид.лит., 1994г.

    Комментарий к Конституции Российской Федерации. «Юридическая литература». М.: 1994г.

    Федеральный конституционный закон “ Об арбитражных судах в Российской Федерации”, Арбитражный Процессуальный кодекс Российской Федерации. М.: “ Ось-89” , 1995г.

На жёстких дисках современного компьютера, а также на других накопителях и носителях информации обычно хранится одновременно много различных данных, и эти данные представлены в двоичном коде. Для того чтобы получить доступ к той или иной информации (например, чтобы прочитать текст, записанный в электронном виде, или запустить программу, которая записана на носителе), требуется указать, с какого конкретного места на диске следует считывать данные. Другими словами, для того чтобы компьютер «знал», где расположена нужная в данный момент информация на диске, ему требуется указать точный её «адрес» - для дискового накопителя, например, это номер сектора диска, номер дорожки и т. п.

Согласитесь, что запоминать местоположение данных в таком виде, особенно, когда данных много, весьма неудобно. Поэтому данные при записи на диск объединяют в поименованные последовательности. Эти последовательности и называются файлами. Файлом может являться и программа, которую можно запустить, и текст, набранный пользователем, и оцифрованный звуковой фрагмент, и любая другая последовательность данных. При этом в первых секторах каждого диска хранится информация о соответствии имени файла адресу его физического расположения на диске.

(adsbygoogle = window.adsbygoogle || ).push({});

Теперь вместо того чтобы запоминать, например, что программа-редактор текстов записана на дорожке 10, сектора 12 и 13 и для её запуска нам нужно обратиться к этим секторам, мы присваиваем файлу этой программы имя kwriter. Этому имени ставятся в соответствие данные сектора на диске, о чём делается запись в начале диска. Теперь при обращении к этому файлу по имени компьютер будет искать это имя в своём списке. Найдя его, он автоматически обратится к нужным секторам, чтобы считать с них данные. Для удобства желательно, чтобы имя файла отражало его содержимое. Например, файл стандартной программы-редактора текстов «Блокнот» из операционных систем семейства Windows носит имя notepad (блокнот). Таким образом, пользователю становится легко ориентироваться в записанных на диске данных.
Итак, пользователь указывает только имя файла, а конкретное место его расположения на диске определяет операционная система (об операционных системах см. в гл. 5). В некоторых старых операционных системах, например DOS, имя файла ограничивалось восемью символам и могло состоять только из латинских букв и некоторых специальных символов (например, подчёркивание или восклицательный знак).

В современных системах имя файла может быть очень длинным - например, до 255 символов в современных версиях Windows. При этом в имени файла могут использоваться самые разные символы, в том числе пробелы и даже русские буквы. Однако мы не рекомендуем злоупотреблять русскими буквами в названиях файлов. Дело в том, что, во-первых, такие «русские» файлы могут не читаться в некоторых системах (а мало ли, что может понадобиться!), а во-вторых, в неко­торых аварийных ситуациях извлечь или спасти такие файлы бывает значительно труднее, чем файлы, в именах которых использованы только латинские буквы. Иногда это и вовсе невозможно.

Ну вот, скажете вы, только начался рассказ о хранении данных в файлах, как автор уже пугает аварийными ситуациями... Автору, конечно, никого пугать не хочется. Однако непредвиденные аварийные ситуации могут возникнуть в любой области, в том числе и в компьютерной системе. Поэтому всегда лучше заранее принять меры предосторожности, тем более, что в данном случае это совсем нетрудно.
Считается, что в полное имя файла ещё входят путь к нему (path) и расширение (extension). Речь об этом и пойдёт далее

Какие бывают файлы

Когда пользователь начинает работу с каким-либо файлом, системе необходимо «знать», с помощью какой программы этот файл можно открыть и в каком формате он записан. Например, если файл содержит обычный текст, то он может быть прочитан в любой текстовой программе («Блокнот», WordPad, kwriter и т. п.). Если файл является звуковым фрагментом, то его можно открыть в программе-проигрывателе (Winamp, XMMS и пр.) или в каком-нибудь звуковом редакторе (Sound Forge, Adobe Audition, Samplitude и т. п.).

Таким образом, программа, которая открывает файл, должна «понимать» формат, в котором этот файл записан. Если же, например, попробовать открыть текстовый файл в звуковом редакторе, то последний, скорее всего, выдаст сообщение об ошибке («неверный формат файла»), а если вы откроете звуковой файл в виде текста, то увидите на экране полную бессмыслицу.

Расширение в имени файла. Чтобы программы и операционные системы могли «с первого взгляда» определять тип файла, к имени файла добавляют так называемое расширение. Оно обычно состоит из небольшого количества символов. В старых системах вроде DOS оно ограничивалось тремя символами. В современных системах, в том числе в Windows XP или Linux, такого ограничения нет, однако большинство файлов всё равно оканчивается трёхбуквенными расширениями. От собственного имени файла расширение отделяется точкой.

Во многих современных системах и в Интернете принят ряд стандартных расширений имён файлов. Некоторые из них приведены в табл. 3.1.

Стандартные расширения имён файлов

Сжатый музыкальный файл формата mp4 audio
.аас
Файл архива

Векторный рисунок формата популярной программы Adobe Illustrator
.ai
Звуковой файл (как правило, на Macintosh)

Aiff
Анимированный указатель мыши

Ani
Файл архива

Arj

Потоковый звуковой или видеофайл
.asx
Звуковой файл (формат Sun Audio)

Видеофайл стандартного для Windows формата
.avi

Старая (предыдущая) копия какого-либо файла
.bak

«Командный файл» - содержит ряд команд операционных систем DOS или Windows, которые будут выполняться последовательно
.bat

Двоичный файл
.bin
Растровый рисунок

Bmp
Файл архива

Bz
Файл архива

Код программы на языке С или С++
.c

Установки для какой-либо программы
.cfg

Программа (апплет), написанная на языке Java
.class

Исполняемый файл (программа, которую можно непосредст­венно запустить)
.com
Файл конфигурации какой-либо программы (обычно в Linux)

Conf
Музыкальный проект популярной программы Cubase

Файл стиля для веб-страниц
.ess

Указатель мыши
.cur

Видеоклип
.dat

Файл базы данных
.db

Динамическая библиотека связей (обычно компонент какой-либо программы)
.dll

Документ, как правило, формата Microsoft Word
.doc


.eps

Исполняемый файл (программа, которую можно непосредс­твенно запустить)
.ехе

Рисунок (сжатый файл)
.gif

Файл справки
.sр


.htm

Гипертекстовый файл, обычно для веб-страниц
.html

Значок
Лео

Сведения для установки какой-либо программы
.inf

Файл настроек программы (обычно в Windows или DOS)
.ini

Файл образа компакт-диска
.iso

Файл шрифта
.fon

Файл архива
.gz

Файл архива
.gzip

Исполняемая программа на языке Java
.jar

Рисунок (сжатый файл)
.jpeg

Рисунок (сжатый файл)
jpg

Скрипт на языке JavaScrpipt
.js

Музыкальный файл с текстом (для караоке)
.kar

Файл архива
.zip

«Протокол» действий, совершённых какой-либо программой (обычно при установке)
.log

Листинг
.1st


.m3u

MIDI-файл (музыкальный файл, который исполняется через синтезатор звуковой карты)
.mid


.mov

Сжатый музыкальный файл формата трЗ
.трЗ

Сжатый видеофайл формата mpeg
.mpg

Файл установки программы для Windows
.msi

Нотный файл формата популярной программы Finale
.mus

Системный файл ActiveX
.осх

Сжатый музыкальный файл формата Ogg Vorbis
.ogg

Старая копия какого-либо файла
.old

Документ формата Adobe Acrobat
.pdf

Скрипт на языке РНР
.php

Скрипт на языке РНР
.phtml

Скрипт на языке PERL
.pi

Стандартный список воспроизведения
.pis

Файл вёрстки в формате Adobe Pagemaker
.pmd

Рисунок сжатого формата
png

Графический файл полиграфического формата PostScript
.ps

Рисунок формата популярной растровой программы Adobe Photoshop
.psd

Зашифрованный пароль и другие сведения о пользователе
.pwl

Видео или звуковой файл формата Apple Quick Time
qt

Файл Real Audio
.ra

Файл архива
.rar

Сведения для внесения в системный реестр Windows
.reg

Файл установки программы для Linux
.rpm

Текстовый файл со шрифтовой разметкой
.rtf

Нотный файл формата популярной программы Sibelius
.sib

Файл установки программы для мобильного телефона
.sis

Файл фильма популярного формата Shokwave Flash
.swf

Документ в формате OpenOffice.org
.sxw

Системный файл
sys

Файл архива
.tar

Рисунок
.tif

Файл шрифта TrueType
.ttf

Текстовый файл
.txt

Драйвер виртуального устройства - один из системных ком­понентов Windows
.vxd

Стандартный звуковой файл в Windows
.wav

Сжатый музыкальный файл формата Windows Media
.wma

Рисунок (стандартный Windows-формат)
.wmf

Сжатый видеофайл формата Windows Media
.wmv

Текстовый документ в формате Write или WordPad
.wri

Документ, размеченный в соответствии со стандартом XML
.xml

Конечно, здесь перечислены далеко не все расширения и типы файлов, их слишком много Дело в том, что каждая вновь создаваемая программа может использовать уже имеющийся стандартный тип для своих рабочих файлов, а может иметь и свой собственный. Так, например, графический редактор Adobe Photoshop может работать со стандартными форматами рисунков (bmp, jpg, tif и пр.), но в то же время имеет свой собственный файловый формат (psd). Музыкальная программа Cubase может работать со стандартными MIDI-файлами (mid) или звуковыми файлами (wav), однако при работе чаще используется оригинальный формат (срг).

Более того, поскольку программ существует очень много, то легко может случиться так, что две или более программы будут «стараться» использовать одинаковое расширение для файлов своего формата. Например, расширение mus традиционно используется для нотных файлов формата Finale, однако это же расширение mus имеют и нотные файлы совершенно другого формата MusicTime.

Вообще говоря, в некоторых системах тип файла определяется не только по расширению, и в этом случае файлы могут вообще не иметь расширений. Например, исполняемые файлы в Linux определяются не по расширению (ехе или com), а по специальному файловому атрибуту. Однако для совместимости с традиционно сложившейся ситуацией большинство программ в этих системах сегодня также оперирует файлами с расширениями.

Открытие файлов. В современных системах, таких как Windows XP или Linux с графической оболочкой это обычно осуществляется с помощью двойного щелчка мыши на имени или значке файла. Получив команду «Открыть файл», система прежде всего определяет тип файла по его расширению. Если файл окажется исполняемым (программа), то его содержимое загружается в память и передаётся процессору для исполнения. Если же файл имеет другой известный тип, то система сначала открывает ту программу, которая работает с этим типом файлов, и затем файл будет открыт уже из этой программы. Если тип файла системе неизвестен, то пользователю будет предложено выбрать рабочую программу самому. Эта ситуация в операционных системах Windows показана на рис. 3.1.

Каталоги

Итак, теперь вы знаете, что такое файл. Если бы файлов на диске было не больше одного-двух десятков, запомнить, что означают их имена, и разобраться в них не предоставляло бы труда. Однако их уже очень много на новом диске, и в дальнейшем их количество растет с ураганной скоростью. Например, на жёстких дисках моего компьютера расположено около тридцати тысяч различных файлов. Откуда они вообще берутся и как в них разобраться?
Рис. 3.1 Выбор программы для открытия файла (в Windows и Linux)

Во-первых, в состав современных программ (за редким исключением) входят от нескольких десятков до сотен вспомогательных файлов. К примеру, система Windows XP состоит из почти 10 000 файлов. Чтобы облегчить жизнь, решили все файлы, относящиеся к одной программе, объединять в группу. В результате на диске будет несколько таких групп.

Полезно также разделить файлы по типам и назначению (для работы, для развлечения, для детей и др.). Если компьютером пользуется несколько человек, следует объединить в одну группу файлы одного пользователя.

Такие группы файлов принято называть каталогами, директориями или, в новой терминологии, папками (folders). Все каталоги, как и файлы, имеют свои имена. Внешне имена каталогов ничем не отличаются от имён файлов, но обычно не имеют расширений (хотя и могут иметь их).

Итак, файлы (все или часть) распределили по каталогам (папкам). Но процесс продолжается, и вот уже внутри одного каталога может располагаться другой каталог, в нём ещё один и так далее, как в русской матрёшке.

Теперь, чтобы указать точное местоположение файла, кроме имени файла и расширения, необходимо указать ещё и путь к файлу. Путь (path) состоит из имён всех каталогов, внутри которых файл расположен. В системах DOS и Windows это выглядит так: в начале пути к файлу ставится буквенное имя диска (логического раздела), после которого всегда ставится двоеточие, и далее следует перечисление имён каталогов, в которых расположен данный файл. При этом имена каталогов разделяются обратной косой чертой (\). Например, если вы записали звуковой файл и назвали его MySound.wav, а затем поместили его в каталог Sounds, который, в свою очередь, вложен в каталог MyFiles на жёстком диске D:, то полное имя файла (включающее путь) будет выглядеть так:

D:\MyFiles\Sounds\MySound.wav

В системе Linux и других с подобной организацией имён файлов, имена каталогов разделяются обычной косой чертой (/). Ею же обозначается корневой раздел. Например, если вы поместили звуковой файл MySound.wav в свой домашний каталог под названием Ivanov, который находится в каталоге home, то полный путь к файлу будет выглядеть так:

/home/Ivanov/MySound.wav

Файловые системы. Иногда возникает ситуация, когда файлы (а точнее - целые логические диски), которые прекрасно «видны» из-под одной операционной системы, бесследно исчезают в другой. Как правило, это бывает, когда операционные системы используют разные файловые системы. Файловая система - это формат, в котором записана информация о расположении файлов на диске. Существует универсальная файловая система на PC, которая называется FAT или FAT16. С ней могут работать DOS, Windows, OS/2, Linux, BeOS и т. п. Универсальной является и файловая система FAT32, но она к тому же разрешает использование больших жёстких дисков. При файловой системе FAT16 размер раздела не должен превышать 2 Гбайт. С FAT32 могут работать практически все операционные системы, кроме DOS.

Существует и другие же файловые системы, но они не столь универсальны. Например, систему HPFS могли понимать только OS/2 и Windows NT ранних версий. Файловую систему NTFS, которая используется в Windows NT/2000/XP, не «понимают» Windows 95/98/ME, а в Linux её лучше использовать только для чтения, но не для записи. Характерная для Linux файловая система ext3 обычно не читается из Windows.Если по разным причинам на компьютере работает несколько операционных систем, то автор рекомендует пользоваться наиболее универсальной файловой системой FAT32.

Программные пакеты

Современные программы, как правило, состоят не из одного исполняемого файла, а из множества, или компонентов пакета. Для работы программ бывает необходимо подготовить систему, т. е. произвести определённые настройки и дать знать системе о существовании программ. С этой целью программные пакеты поставляют в «запакованном» виде, и к ним прилагают небольшую программку, обычно именуемую Setup или Instal. Эта программка распаковывает файлы-компоненты программы, помещает их в нужные каталоги, записывает или изменяет системные установки и т. д. Этот процесс называется установкой программы, а запакованный программный пакет с программой установки называется дистрибутивом.

Например, дистрибутив нотно-графической программы Finale 2004 содержит файл Setup.exe. При запуске он создаёт специальный каталог для программы Finale 2004, помещает туда десять необходимых файлов, создаёт внутри него ещё десять каталогов (для библиотек установок, шаблонов, учебных файлов, подключаемых модулей и пр.) и наполняет их содержимым. Кроме того, устанавливает в системе «нотные» шрифты (Maestro, Petrucci и пр.) и несколько PostScript-шрифтов (специальных шрифтов для полиграфических работ).

Иногда вместо установочного файла или сценария, который совершает подобную работу, дистрибутив программы содержит несколько команд для стандартного инсталлятора системы. Эти указания могут быть запакованы вместе с необходимыми для работы программы данными в один файл со стандартным расширением msi (для Windows) или rpm (для Linux). Для установки такой программы достаточно открыть этот файл, а всё остальное система сделает сама.




Представьте, что вы получаете почту от своих друзей или коллег, а во вложении они отправили вам какой-то документ в виде прикреплённого к письму файла, в котором есть нужная вам информация. Вы сохраняете этот файл на свой компьютер, но видите, что вместо привычных значков какой-либо программы (Word, Excel, PDF и т.д.) никакого значка нет, а Windows считает, что это какой-то файл с неизвестным форматом. Зачастую это происходит из-за того, что файл в процессе прикрепления к письму отправителем (или при сохранении файла на компьютер получателем) теряет своё расширение, и операционная система Windows перестаёт понимать, что за тип файла перед ней, и соответственно не знает, какой программой нужно открывать такой файл. Что такое расширение файла, и как их отображать и скрывать в различных версиях Windows, вы можете прочитать в .

Второй наиболее частой причиной потери расширения файла является неаккуратное переименование файла, когда у вас в Windows задан режим отображения расширений всех известных типов файлов, и вы при попытке переименовать файл случайно стираете расширение файла и получаете в итоге документ неизвестного происхождения, который уже не сможете открыть двойным щелчком мышки. Например, файл у вас назывался «Письмо.doc», который раньше легко открывался с помощью программы Word, а после переименования он стал называться «Письмо по работе». Обратите внимание, что у файла теперь нет расширения «.doc», которое было случайно стёрто при изменении имени файла, и теперь этот файл не будет открываться двойным щелчком мышки, а попытается спросить у вас, какой именно программой нужно открывать этот файл.

Хорошо, если вы точно знаете, какой тип файла перед вами, и можете просто добавить ему нужное расширение, например, doc или xls, чтобы он автоматически открывался с помощью двойного щелчка мышки по нему. В отдельной статье вы можете прочитать о . Но что делать, если перед вами файл, тип которого вы не знаете? Есть как минимум два способа узнать, какой перед вами тип файла, и задать ему правильное расширение.

В этой статье мы с вами проведём эксперимент — возьмём несколько готовых файлов разных форматов, которые рассматривали в вышеуказанной статье, сотрём им расширения, как будто они были утеряны или случайно удалены, и попытаемся узнать, какой тип имеет каждый файл, и какое ему нужно добавить расширение, чтобы легко открыть его.

В нашем эксперименте будут участвовать несколько файлов:

  1. Bonnie Tyler — Turn around.mp3 — песня в формате mp3
  2. bonus.mp4 — небольшое видео в формате mp4
  3. KeePass-2.28.exe — установочный файл программы KeePass (об этой замечательной программе я расскажу вам в одной из следующих статей)
  4. math.zip — архив zip
  5. Point Break.avi — небольшое видео формата avi
  6. Tulips.jpg — картинка с тюльпанами
  7. Доклад.ppt — презентация, сделанная в MS PowerPoint 2003
  8. Материалы к совещанию.pptx — презентация, сделанная в MS PowerPoint 2007
  9. Письмо.doc — текстовый файл, сделанный в редакторе MS Word 2003
  10. Приказ.docx — текстовый файл, сделанный в редакторе MS Word 2007
  11. Приложение 4.rar — архив rar
  12. резолюция.pdf — файл в формате pdf
  13. Таблица соответствия.xlsx — файл с данным, сделанный в табличном редакторе MS Excel 2007
  14. Табличные данные.xls — файл с данным, сделанный в табличном редакторе MS Excel 2003

На картинке ниже у всех файлов стоят свои расширения (выделены рамочками с красными краями):

Удаляем все расширения файлов, и после этого пропадают все значки программ, с помощью которых можно открывать эти файлы. В Windows XP это выглядит так:

В Windows 7 это выглядит немного по-другому, но смысл тот же — операционная система не знает, какой программой открывать эти файлы.

Теперь при попытке открыть любой файл Windows предложит нам сначала выбрать программу, которой нужно открывать этот файл:

И здесь надо быть аккуратным, поскольку неправильный выбор программы для данного типа файла приведёт к тому, что файл не откроется, и программа выдаст ошибку, а за данным файлом закрепится неправильная ассоциация программы его открытия.

Иногда о том, какой перед нами тип файла и какое расширение у должно быть, можно догадаться и по названию файла. Но мы возьмём тот случай, когда это сделать невозможно.

Итак, перед нами куча файлов с неизвестными форматами и расширениями, и нам надо понять, что это за файлы.

Первый способ узнать, что за тип файла перед нами — это посмотреть содержимое этих файлов с помощью простых текстовых редакторов, например, Блокнота, а лучше — либо с помощью встроенных программ просмотра различных файловых менеджеров, таких, как Total Commander или Far, либо с помощью бесплатного усовершенствованного текстового редактора Notepad++. Рекомендую вам скачать и установить его, поскольку у него есть множество преимуществ перед обычным блокнотом.

Берём первый файл «Bonnie Tyler — Turn around», в списке программ для открытия выбираем Notepad++ (если не установили его — используйте обычный Блокнот, но лучше всё-таки Notepad++, поскольку при открытии больших файлов Блокнот просто зависает), и видим какие-то кракозябры:

Смущать это не должно, поскольку для определения типа файла достаточно посмотреть первую строчку содержимого файла. Здесь видно, что файл начинается с букв «ID3″.

Итак, запоминаем, что если внутри файла его содержимое начинается на «ID3 «, то это музыкальный файл формата mp3, и именно это расширение необходимо ему прописать. После указания расширения файл будет распознан системой как музыкальный, и вы сможете его прослушать.

Открываем второй файл «bonus» той же программой Notepad++ и смотрим его содержимое:

Как видим в первой строчке содержимого файла, в ней неоднократно упоминается, что это видеофайл формата mp4 (выделил красным на скриншоте выше). Да и в целом, если вы видите внутри файла текст вроде «ftypmp42 «, то, как правило, это видеофайл формата mp4.

Проделывая ту же самую операцию по просмотру содержимого со всеми остальными файлами, получаем следующую информацию:

  1. При открытии содержимого файла KeePass-2.28 видно, что файл начинается с букв MZ — это признак того, что перед нами исполняемый файл exe.
  2. При открытии содержимого файла math.zip видно, что файл начинается с букв PK — это говорит нам о том, что данный файл представляет собой архив. Учитывая, что архивы Rar имеют другую запись в содержимом файла, скорее всего это архив Zip, но при этом будьте внимательны и обратите внимание на пункт 6 ниже.
  3. При открытии содержимого файла Point Break в первой же строчке видим подсказку, что перед нами видеофайл формата avi.

  1. При открытии содержимого файла Tulips видим два определяющих формат файла слова — в начале строки «яШя» и затем — «Exif». Эти слова определяют графический формат файла, в частности jpg, и в данном случае мы точно уверены, что перед нами файл-картинка.

  1. Касательно файлов MS Office 2003 «Доклад», «Письмо» и «Табличные данные» — все они во внутреннем содержании начинаются с «РП», поэтому определить сразу, какой из них сделан в Word, Excel или PowerPoint, достаточно сложно. Единственное, в чём можно быть точно уверенным — это то, что данные файлы относятся к одному из приложений MS Office версии 2003 и ниже. Поэтому для открытия таких типов файлов можно использовать перебор трёх расширений, начиная с «doc», затем «xls», затем «ppt». Как правило, одно из них подойдёт.
  2. С файлами «Материалы к совещанию», «Приказ», «Таблица соответствия» немного сложнее — поскольку они сделаны в приложениях MS Office 2007, то по сути они представляют собой архивы, и поэтому в начале их содержимого вы увидите те же буквы, что и в архиве Zip — это буквы «PK». Тем не менее, далее в этой же строке можно увидеть строчку .xml, именно она нам подскажет, что перед нами не просто архив, а документ из серии MS Office Так же, как и в предыдущем пункте, можно использовать последовательный перебор трёх расширений «docx», затем «xlsx», затем «pptx». Одно из них должно подойти.
  1. При открытии содержимого файла «Приложение 4″ видим, что он начинается со слова «Rar» — это самое простое указание на то, что перед нами архив формата rar.
  2. При открытии содержимого файла «резолюция» с самого начала видно указание, что это за файл, поскольку он начинается со строчки «%PDF-1.3″. Цифры могут меняться, но тем не менее аббревиатура pdf обычно присутствует, и указывает на формат файла.

Второй способ определения типа файла требует наличия интернет-соединения, а также желательно, чтобы размер файла был небольшим, поскольку мы будем использовать интернет-сервис для определения формата файла.

Нажимаем мышкой на кнопку «выберите файл», указываем наш файл для анализа (я попробую проанализировать один из сложных файлов «Материалы к совещанию», чтобы увидеть, сможет ли этот анализатор справиться и понять, что этот файл был создан в MS PowerPoint 2007 (у него было расширение pptx, и мы его удалили при нашем эксперименте). После выбора файла нажимаем кнопку «Analize» и получаем следующий результат:

Как видим, сервис с 97%-ой вероятностью определил, что это файл PowerPoint с расширением pptx. И поскольку этот файл также является архивом-контейнером, содержащим внутри себя другие файлы, анализатор также указал трёхпроцентную вероятность, что это может быть архив zip.

Попробуем также проверить, сможет ли этот сервис определить тип нашего файла «резолюция», у которого мы стёрли расширение pdf. Загружаем файл на сервис, нажимаем кнопку «Analize» и видим, что сервис отлично справился с поставленной задачей:

Как я уже говорил, недостатком данного сервиса может быть то, что для анализа файла ему необходимо его полностью загрузить, и если у вас файл большого размера, то этот процесс может затянуться надолго, а то и вовсе не дойти до конца. Поэтому при больших размерах неопознанных файлов попробуйте сначала воспользоваться первым способом определения его типа, а именно — просмотр содержимого файла через файловый менеджер или редактор Notepad++.

Можно конечно воспользоваться специальными программами для определения типа файла, например, File Type Verificator, но на мой взгляд, гораздо проще и быстрее будет воспользоваться одним из двух предложенных выше способов.

Итак, уважаемые посетители сайта, сегодня мы с вами разобрали, как можно определить формат (тип) файла, если было утеряно его расширение. Если у вас появятся какие-либо вопросы, прошу задавать их в комментариях к этой статье.

Навигация записи