select(2) многопоточный

Other Alias

pselect, FD_CLR, FD_ISSET, FD_SET, FD_ZERO

ОБЗОР


/* В соответствии с POSIX.1-2001, POSIX.1-2008 */
#include <sys/select.h>



/* В соответствие с более ранними стандартами */
#include <sys/time.h>
#include <sys/types.h>
#include <unistd.h>

int select(int nfds, fd_set *readfds, fd_set *writefds,
fd_set *exceptfds, struct timeval *utimeout);

void FD_CLR(int fd, fd_set *set);
int FD_ISSET(int fd, fd_set *set);
void FD_SET(int fd, fd_set *set);
void FD_ZERO(fd_set *set);

#include <sys/select.h>

int pselect(int nfds, fd_set *readfds, fd_set *writefds,
fd_set *exceptfds, const struct timespec *ntimeout,
const sigset_t *sigmask);

Требования макроса тестирования свойств для glibc (см. feature_test_macros(7)):

pselect(): _POSIX_C_SOURCE >= 200112L || _XOPEN_SOURCE >= 600

ОПИСАНИЕ

Вызов select() (или pselect()) используется для эффективного слежения за несколькими файловыми дескрипторами — для ожидания, когда какой-то из них не станет «готов», то есть появится возможность чтения-записи данных, или с файловым дескриптором не возникнет «исключительная ситуация».

Основные параметры задаются в виде «набора» файловых дескрипторов: readfds, writefds и exceptfds. Каждый набор имеет тип fd_set и его содержимое можно изменять с помощью макросов FD_CLR(), FD_ISSET(), FD_SET() и FD_ZERO(). При создании нового набора сначала его нужно очистить с помощью FD_ZERO(). Вызов select() изменяет содержимое наборов в соответствии с правилами, описанными далее; после вызова select() вы можете проверить существует ли ещё файловый дескриптор в наборе с помощью макроса FD_ISSET(). Макрос FD_ISSET() возвращает ненулевое значение, если указанный файловый дескриптор присутствует в наборе и ноль, если отсутствует. Макрос FD_CLR() удаляет файловый дескриптор из набора.

Аргументы

readfds
Этот набор служит для слежения за появлением данных, доступных для чтения из любого файлового дескриптора. После возврата из select() в readfds остаются только те дескрипторы файлов, из которых возможно немедленное чтение.
writefds
Этот набор служит для слежения за появлением места для записи данных в любой из файловых дескрипторов набора. После возврата из select() в writefds остаются только те файловые дескрипторы, в которые возможна немедленная запись.
exceptfds
Этот набор служит для слежения за «исключительными ситуациями». На самом деле, отслеживается только одна распространённая исключительная ситуация: доступность внепоточных (out-of-band — OOB) данных для чтения из сокета TCP. Более подробно о данных OOB смотрите в recv(2), send(2) и tcp(7). Другая менее распространённая ситуация: select(2) указывает на исключительную ситуацию с псевдотерминалом в пакетном режиме; см. tty_ioctl(4). После возврата из select() в exceptfds остаются только те файловые дескрипторы, в которых произошла исключительная ситуация.
nfds
Представляет собой целое число, на единицу большее максимального файлового дескриптора в любом из наборов. Другими словами, при добавлении файловых дескрипторов в наборы вам необходимо вычислять максимальное целое значение любого из них, а затем увеличивать это значение на единицу и передавать в nfds.
utimeout
Этот аргумент задаёт наибольшее время, которое вызов select() будет ожидать событий, по прошествии которого завершит работу, даже если ничего не произойдёт. Если значение этого аргумента равно NULL, то select() будет ожидать бесконечно. Значение utimeout может быть установлено в ноль секунд; в этом случае select() возвратит управление немедленно, с информацией о готовности файловых дескрипторов на момент вызова. Структура struct timeval определена следующим образом:
struct timeval {
    time_t tv_sec;    /* секунды */
    long tv_usec;     /* микросекунды */
};
ntimeout
Этот аргумент pselect() имеет то же значение, что и utimeout, но структура struct timespec позволяет указывать время с точностью до наносекунд:
struct timespec {
    long tv_sec;    /* секунды */
    long tv_nsec;   /* наносекунды */
};
sigmask
Этот аргумент содержит набор сигналов, которые ядро должно разблокировать (то есть удалить из маски сигналов вызывающей нити) на время, пока вызывающий заблокирован в вызове pselect() (см. sigaddset(3) и sigprocmask(2)). В качестве аргумента может быть передано значение NULL — вызов не изменяет маску сигналов при входе и выходе из функции. То есть pselect() ведёт себя как select().

Комбинирование событий сигналов и данных

Вызов pselect() полезен как для ожидания сигнала, так и для ожидания готовности файлового дескриптора для ввода-вывода. Программы, принимающие сигналы, как правило, лишь выставляют в обработчике сигнала глобальный флаг, который означает, что требуется обработка события в главном цикле программы. Появление сигнала заставит вызов select() (или pselect()) вернуть управление вызвавшей программе; при этом errno будет присвоено EINTR. Это поведение продиктовано необходимостью обработки сигналов в главном цикле программы во избежание бесконечной блокировки select(). В главном цикле программы должно быть условие, проверяющее глобальный флаг. Возникает вопрос: а что если сигнал придёт после проверки этого условия, но до вызова select()? В этом случае программа навсегда останется в select(), хотя и есть ожидающее событие. Для разрешения этой проблемы существует вызов pselect(). Этот вызов можно использовать для установки в сигнальной маске сигналов, которые принимаются только внутри вызова pselect(). Например, предположим что интересующее нас событие — это завершение дочернего процесса. Перед запуском главного цикла заблокируем SIGCHLD с помощью sigprocmask(2). Наш вызов pselect() разблокирует SIGCHLD, указав пустую маску сигналов. Программа будет выглядеть так:

static volatile sig_atomic_t got_SIGCHLD = 0;
static void
child_sig_handler(int sig)
{
    got_SIGCHLD = 1;
}
int
main(int argc, char *argv[])
{
    sigset_t sigmask, empty_mask;
    struct sigaction sa;
    fd_set readfds, writefds, exceptfds;
    int r;
    sigemptyset(&sigmask);
    sigaddset(&sigmask, SIGCHLD);
    if (sigprocmask(SIG_BLOCK, &sigmask, NULL) == -1) {
        perror("sigprocmask");
        exit(EXIT_FAILURE);
    }
    sa.sa_flags = 0;
    sa.sa_handler = child_sig_handler;
    sigemptyset(&sa.sa_mask);
    if (sigaction(SIGCHLD, &sa, NULL) == -1) {
        perror("sigaction");
        exit(EXIT_FAILURE);
    }
    sigemptyset(&empty_mask);
    for (;;) {          /* главный цикл */
        /* Инициализация readfds, writefds и exceptfds
           до вызова pselect() (код не показан). */
        r = pselect(nfds, &readfds, &writefds, &exceptfds,
                    NULL, &empty_mask);
        if (r == -1 && errno != EINTR) {
            /* обработка ошибки */
        }
        if (got_SIGCHLD) {
            got_SIGCHLD = 0;
            /* Здесь обработка сигнального события; например с
               помощью wait() для завершения потомком (код не показан). */
        }
        /* код основной программы */
    }
}

Практика

Итак, какой прок от использования select()? Разве нельзя просто считывать и записывать данные в файловые дескрипторы когда этого захочется? Смысл использования select() в том, что он позволяет следит за несколькими дескрипторами одновременно и корректно переводить процесс в режим ожидания, когда активности не наблюдается. Программисты UNIX часто попадают в ситуацию, когда необходимо обработать ввод-вывод из более чем одного файлового дескриптора в то время как поток данных может быть неравномерным. Если вы просто создадите последовательность вызовов read(2) и write(2), то можете попасть в ситуацию, когда один из вызовов будет ожидать данные из/в файлового дескриптора, в то время как другой будет простаивать, хотя данные для него уже появились. Вызов select() позволяет эффективно справиться с такой ситуацией.

Правила использования

Многие из тех, кто пытался использовать select(), сталкивались с поведением, которое трудно понять, и которое приводило к непереносимым или просто плохим результатам. Например, вышеприведенная программа тщательно спланирована так, чтобы ни в каком случае не блокироваться, хотя для её файловых дескрипторов не установлен неблокирующий режим. Несложно перечислить не очевидные ошибки, которые лишат всех преимуществ использования select(), поэтому вот список основных моментов, на которые нужно обращать внимание при использовании select().
1.
Всегда старайтесь использовать select() без указания времени ожидания. Ваша программа не должна ничего делать, если нет данных. Код, зависимый от времени ожидания, обычно плохо переносим и сложен для отладки.
2.
Для повышения эффективности значение nfds должно правильно вычисляться, как это объяснялось выше.
3.
Файловые дескрипторы не должны добавляться в наборы, если вы не планируете после вызова select() проверять результат и соответствующим образом реагировать. Смотрите следующее правило.
4.
После возврата из select() должны быть проверены все файловые дескрипторы во всех наборах.
5.
Вызовы read(2), recv(2), write(2) и send(2) не обязательно считывают/записывают данные в полном объёме. Такое, конечно, возможно при низком трафике или быстром потоке, однако происходит далеко не всегда. Вы должны рассчитывать, что ваши функции получают/отправляют только один байт за раз.
6.
Никогда не считывайте/записывайте побайтно, если только вы не абсолютно уверены в том, что нужно обработать небольшой объём данных. Крайне неэффективно считывать/записывать меньшее количество байт, чем вы можете поместить в буфер за один раз. Буферы в вышеприведённом примере имеют размер 1024 байта, однако могут быть легко увеличены до максимального размера пакета в вашей локальной сети.
7.
Вызовы read(2), recv(2), write(2) и send(2) также как и select() могут возвратить -1 с errno равным EINTR, или errno равным EAGAIN (EWOULDBLOCK). Такие ситуации должны быть правильно обработаны (в вышеприведенной программе этого не сделано). Если ваша программа не собирается принимать сигналы, то маловероятно, что вы получите EINTR. Если ваша программа не использует неблокирующий ввод-вывод, то вы не получите EAGAIN.
8.
Никогда не вызывайте read(2), recv(2), write(2) или send(2) с буфером нулевой длины.
9.
Если вызовы read(2), recv(2), write(2) и send(2) завершаются с ошибками, отличными от перечисленных в пункте 7. или один из вызовов ввода вернул 0, что указывает на конец файла, то вы не должны передавать этот файловый дескриптор в select() снова. В примере выше я немедленно закрываю файловый дескриптор и устанавливаю его в -1 для предотвращения его включения в набор.
10.
Значение времени ожидания должно быть инициализировано при каждом новом вызове select(), так как некоторые операционные системы изменяют значение структуры. Однако pselect() не изменяет структуру времени ожидания.
11.
Так как select() изменяет переданные наборы файловых дескрипторов, то при использовании его в цикле наборы должны повторно инициализироваться перед каждым вызовом.

Эмуляция usleep

В системах, не имеющих функции usleep(3), вы можете использовать select() с конечной задержкой и без файловых дескрипторов следующим образом:

    struct timeval tv;
    tv.tv_sec = 0;
    tv.tv_usec = 200000;  /* 0.2 секунды */
    select(0, NULL, NULL, NULL, &tv);

Однако работа гарантируется только в системах UNIX.

ВОЗВРАЩАЕМОЕ ЗНАЧЕНИЕ

При удачно завершении select() возвращает общее число файловых дескрипторов, которые остались в наборах.

При выходе из select() по окончании времени ожидания возвращается ноль. Все наборы файловых дескрипторов будут пусты (но могут быть не пусты на некоторых системах).

Значение -1 указывает на ошибку, при этом errno устанавливается соответствующим образом. В случае ошибки содержимое наборов и структуры struct timeout не определено и не должно быть использовано. Однако вызов pselect() никогда не изменяет ntimeout.

ЗАМЕЧАНИЯ

В общем случае, все операционные системы, поддерживающие сокеты, поддерживают также и select(). Вызов select() можно применять для переносимого и эффективного решения многих задач, вместо которого многие программисты пытаются использовать нити, ветвление процессов, IPC, сигналы, разделение памяти и другие методы.

Системный вызов poll(2) имеет такую же функциональность, как и select() и иногда более эффективен для слежения за разреженным набором файловых дескрипторов. В настоящее время он стал широко распространён, но исторически является менее переносимым чем select().

Программный интерфейс Linux epoll(7) предоставляет более эффективный метод для слежения за большим количеством файловых дескрипторов чем select(2) и poll(2).

ПРИМЕР

Вот пример, который лучше демонстрирует возможности select(). Программа осуществляет перенаправление одного порта TCP в другой.

#include <stdlib.h>
#include <stdio.h>
#include <unistd.h>
#include <sys/time.h>
#include <sys/types.h>
#include <string.h>
#include <signal.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <errno.h>
static int forward_port;
#undef max
#define max(x,y) ((x) > (y) ? (x) : (y))
static int
listen_socket(int listen_port)
{
    struct sockaddr_in a;
    int s;
    int yes;
    s = socket(AF_INET, SOCK_STREAM, 0);
    if (s == -1) {
        perror("socket");
        return -1;
    }
    yes = 1;
    if (setsockopt(s, SOL_SOCKET, SO_REUSEADDR,
            &yes, sizeof(yes)) == -1) {
        perror("setsockopt");
        close(s);
        return -1;
    }
    memset(&a, 0, sizeof(a));
    a.sin_port = htons(listen_port);
    a.sin_family = AF_INET;
    if (bind(s, (struct sockaddr *) &a, sizeof(a)) == -1) {
        perror("bind");
        close(s);
        return -1;
    }
    printf("приём подключений к порту %d\n", listen_port);
    listen(s, 10);
    return s;
}
static int
connect_socket(int connect_port, char *address)
{
    struct sockaddr_in a;
    int s;
    s = socket(AF_INET, SOCK_STREAM, 0);
    if (s == -1) {
        perror("socket");
        close(s);
        return -1;
    }
    memset(&a, 0, sizeof(a));
    a.sin_port = htons(connect_port);
    a.sin_family = AF_INET;
    if (!inet_aton(address, (struct in_addr *) &a.sin_addr.s_addr)) {
        perror("неправильный формат IP-адреса");
        close(s);
        return -1;
    }
    if (connect(s, (struct sockaddr *) &a, sizeof(a)) == -1) {
        perror("connect()");
        shutdown(s, SHUT_RDWR);
        close(s);
        return -1;
    }
    return s;
}
#define SHUT_FD1 do {                                \
                     if (fd1 >= 0) {                 \
                         shutdown(fd1, SHUT_RDWR);   \
                         close(fd1);                 \
                         fd1 = -1;                   \
                     }                               \
                 } while (0)
#define SHUT_FD2 do {                                \
                     if (fd2 >= 0) {                 \
                         shutdown(fd2, SHUT_RDWR);   \
                         close(fd2);                 \
                         fd2 = -1;                   \
                     }                               \
                 } while (0)
#define BUF_SIZE 1024
int
main(int argc, char *argv[])
{
    int h;
    int fd1 = -1, fd2 = -1;
    char buf1[BUF_SIZE], buf2[BUF_SIZE];
    int buf1_avail, buf1_written;
    int buf2_avail, buf2_written;
    if (argc != 4) {
        fprintf(stderr, "Использование\n\tfwd <прослушиваемый-порт> "
                 "<порт-перенаправления> <ip-адрес-перенаправления>\n");
        exit(EXIT_FAILURE);
    }
    signal(SIGPIPE, SIG_IGN);
    forward_port = atoi(argv[2]);
    h = listen_socket(atoi(argv[1]));
    if (h == -1)
        exit(EXIT_FAILURE);
    for (;;) {
        int r, nfds = 0;
        fd_set rd, wr, er;
        FD_ZERO(&rd);
        FD_ZERO(&wr);
        FD_ZERO(&er);
        FD_SET(h, &rd);
        nfds = max(nfds, h);
        if (fd1 > 0 && buf1_avail < BUF_SIZE) {
            FD_SET(fd1, &rd);
            nfds = max(nfds, fd1);
        }
        if (fd2 > 0 && buf2_avail < BUF_SIZE) {
            FD_SET(fd2, &rd);
            nfds = max(nfds, fd2);
        }
        if (fd1 > 0 && buf2_avail - buf2_written > 0) {
            FD_SET(fd1, &wr);
            nfds = max(nfds, fd1);
        }
        if (fd2 > 0 && buf1_avail - buf1_written > 0) {
            FD_SET(fd2, &wr);
            nfds = max(nfds, fd2);
        }
        if (fd1 > 0) {
            FD_SET(fd1, &er);
            nfds = max(nfds, fd1);
        }
        if (fd2 > 0) {
            FD_SET(fd2, &er);
            nfds = max(nfds, fd2);
        }
        r = select(nfds + 1, &rd, &wr, &er, NULL);
        if (r == -1 && errno == EINTR)
            continue;
        if (r == -1) {
            perror("select()");
            exit(EXIT_FAILURE);
        }
        if (FD_ISSET(h, &rd)) {
            unsigned int l;
            struct sockaddr_in client_address;
            memset(&client_address, 0, l = sizeof(client_address));
            r = accept(h, (struct sockaddr *) &client_address, &l);
            if (r == -1) {
                perror("accept()");
            } else {
                SHUT_FD1;
                SHUT_FD2;
                buf1_avail = buf1_written = 0;
                buf2_avail = buf2_written = 0;
                fd1 = r;
                fd2 = connect_socket(forward_port, argv[3]);
                if (fd2 == -1)
                    SHUT_FD1;
                else
                    printf("подключение от %s\n",
                            inet_ntoa(client_address.sin_addr));
            }
        }
        /* NB: чтение данных oob до обычных */
        if (fd1 > 0)
            if (FD_ISSET(fd1, &er)) {
                char c;
                r = recv(fd1, &c, 1, MSG_OOB);
                if (r < 1)
                    SHUT_FD1;
                else
                    send(fd2, &c, 1, MSG_OOB);
            }
        if (fd2 > 0)
            if (FD_ISSET(fd2, &er)) {
                char c;
                r = recv(fd2, &c, 1, MSG_OOB);
                if (r < 1)
                    SHUT_FD2;
                else
                    send(fd1, &c, 1, MSG_OOB);
            }
        if (fd1 > 0)
            if (FD_ISSET(fd1, &rd)) {
                r = read(fd1, buf1 + buf1_avail,
                          BUF_SIZE - buf1_avail);
                if (r < 1)
                    SHUT_FD1;
                else
                    buf1_avail += r;
            }
        if (fd2 > 0)
            if (FD_ISSET(fd2, &rd)) {
                r = read(fd2, buf2 + buf2_avail,
                          BUF_SIZE - buf2_avail);
                if (r < 1)
                    SHUT_FD2;
                else
                    buf2_avail += r;
            }
        if (fd1 > 0)
            if (FD_ISSET(fd1, &wr)) {
                r = write(fd1, buf2 + buf2_written,
                           buf2_avail - buf2_written);
                if (r < 1)
                    SHUT_FD1;
                else
                    buf2_written += r;
            }
        if (fd2 > 0)
            if (FD_ISSET(fd2, &wr)) {
                r = write(fd2, buf1 + buf1_written,
                           buf1_avail - buf1_written);
                if (r < 1)
                    SHUT_FD2;
                else
                    buf1_written += r;
            }
        /* проверить, что записанные данные были прочитаны */
        if (buf1_written == buf1_avail)
            buf1_written = buf1_avail = 0;
        if (buf2_written == buf2_avail)
            buf2_written = buf2_avail = 0;
        /* одна из сторон закрыла соединение, продолжать
           записывать, пока другая сторона не закончит */
        if (fd1 < 0 && buf1_avail - buf1_written == 0)
            SHUT_FD2;
        if (fd2 < 0 && buf2_avail - buf2_written == 0)
            SHUT_FD1;
    }
    exit(EXIT_SUCCESS);
}

Вышеприведенная программа правильно перенаправляет большинство данных задач, использующих соединения TCP, включая внепоточные (OOB) данные, передаваемые серверами telnet. Она справляется со сложной проблемой поддержания одновременного двустороннего обмена данными. Возможно, вы решите, что эффективнее использовать fork(2) и выделить отдельную нить для каждого потока. На самом деле это сложнее, чем кажется. Другой идеей может быть использование неблокирующего ввода-вывода с помощью fcntl(2). Это также может вызвать проблемы из-за того, что придётся использовать неэффективные таймауты.

Программа не обрабатывает более одного соединения, однако она может быть легко доработана путем добавления связанного списка буферов — по одному на каждое соединение. В данный момент новые соединения приводят к закрытию текущего.