Merge branch 'master' into vga-arbiter
[platform/upstream/libpciaccess.git] / src / linux_sysfs.c
1 /*
2  * (C) Copyright IBM Corporation 2006
3  * All Rights Reserved.
4  *
5  * Permission is hereby granted, free of charge, to any person obtaining a
6  * copy of this software and associated documentation files (the "Software"),
7  * to deal in the Software without restriction, including without limitation
8  * on the rights to use, copy, modify, merge, publish, distribute, sub
9  * license, and/or sell copies of the Software, and to permit persons to whom
10  * the Software is furnished to do so, subject to the following conditions:
11  *
12  * The above copyright notice and this permission notice (including the next
13  * paragraph) shall be included in all copies or substantial portions of the
14  * Software.
15  *
16  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
17  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
18  * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT.  IN NO EVENT SHALL
19  * IBM AND/OR THEIR SUPPLIERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
20  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
21  * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
22  * DEALINGS IN THE SOFTWARE.
23  */
24
25 /**
26  * \file linux_sysfs.c
27  * Access PCI subsystem using Linux's sysfs interface.  This interface is
28  * available starting somewhere in the late 2.5.x kernel phase, and is the
29  * preferred method on all 2.6.x kernels.
30  *
31  * \author Ian Romanick <idr@us.ibm.com>
32  */
33
34 #define _GNU_SOURCE
35
36 #include <stdlib.h>
37 #include <string.h>
38 #include <stdio.h>
39 #include <unistd.h>
40 #include <sys/types.h>
41 #include <sys/stat.h>
42 #include <fcntl.h>
43 #include <sys/mman.h>
44 #include <dirent.h>
45 #include <errno.h>
46
47 #include "config.h"
48
49 #ifdef HAVE_MTRR
50 #include <asm/mtrr.h>
51 #include <sys/ioctl.h>
52 #endif
53
54 #include "pciaccess.h"
55 #include "pciaccess_private.h"
56 #include "linux_devmem.h"
57
58 static void pci_device_linux_sysfs_enable(struct pci_device *dev);
59
60 static int pci_device_linux_sysfs_read_rom( struct pci_device * dev,
61     void * buffer );
62
63 static int pci_device_linux_sysfs_probe( struct pci_device * dev );
64
65 static int pci_device_linux_sysfs_map_range(struct pci_device *dev,
66     struct pci_device_mapping *map);
67
68 static int pci_device_linux_sysfs_unmap_range(struct pci_device *dev,
69     struct pci_device_mapping *map);
70
71 static int pci_device_linux_sysfs_read( struct pci_device * dev, void * data,
72     pciaddr_t offset, pciaddr_t size, pciaddr_t * bytes_read );
73
74 static int pci_device_linux_sysfs_write( struct pci_device * dev,
75     const void * data, pciaddr_t offset, pciaddr_t size,
76     pciaddr_t * bytes_written );
77
78 static int pci_device_linux_sysfs_boot_vga( struct pci_device * dev );
79 static int pci_device_linux_sysfs_has_kernel_driver(struct pci_device *dev);
80
81 static const struct pci_system_methods linux_sysfs_methods = {
82     .destroy = NULL,
83     .destroy_device = NULL,
84     .read_rom = pci_device_linux_sysfs_read_rom,
85     .probe = pci_device_linux_sysfs_probe,
86     .map_range = pci_device_linux_sysfs_map_range,
87     .unmap_range = pci_device_linux_sysfs_unmap_range,
88
89     .read = pci_device_linux_sysfs_read,
90     .write = pci_device_linux_sysfs_write,
91
92     .fill_capabilities = pci_fill_capabilities_generic,
93     .enable = pci_device_linux_sysfs_enable,
94     .boot_vga = pci_device_linux_sysfs_boot_vga,
95     .has_kernel_driver = pci_device_linux_sysfs_has_kernel_driver,
96 };
97
98 #define SYS_BUS_PCI "/sys/bus/pci/devices"
99
100
101 static int populate_entries(struct pci_system * pci_sys);
102
103
104 /**
105  * Attempt to access PCI subsystem using Linux's sysfs interface.
106  */
107 _pci_hidden int
108 pci_system_linux_sysfs_create( void )
109 {
110     int err = 0;
111     struct stat st;
112
113
114     /* If the directory "/sys/bus/pci/devices" exists, then the PCI subsystem
115      * can be accessed using this interface.
116      */
117     
118     if ( stat( SYS_BUS_PCI, & st ) == 0 ) {
119         pci_sys = calloc( 1, sizeof( struct pci_system ) );
120         if ( pci_sys != NULL ) {
121             pci_sys->methods = & linux_sysfs_methods;
122 #ifdef HAVE_MTRR
123             pci_sys->mtrr_fd = open("/proc/mtrr", O_WRONLY);
124 #endif
125             err = populate_entries(pci_sys);
126         }
127         else {
128             err = ENOMEM;
129         }
130     }
131     else {
132         err = errno;
133     }
134
135     return err;
136 }
137
138
139 /**
140  * Filter out the names "." and ".." from the scanned sysfs entries.
141  *
142  * \param d  Directory entry being processed by \c scandir.
143  *
144  * \return
145  * Zero if the entry name matches either "." or "..", non-zero otherwise.
146  *
147  * \sa scandir, populate_entries
148  */
149 static int
150 scan_sys_pci_filter( const struct dirent * d )
151 {
152     return !((strcmp( d->d_name, "." ) == 0) 
153              || (strcmp( d->d_name, ".." ) == 0));
154 }
155
156
157 int
158 populate_entries( struct pci_system * p )
159 {
160     struct dirent ** devices;
161     int n;
162     int i;
163     int err = 0;
164
165
166     n = scandir( SYS_BUS_PCI, & devices, scan_sys_pci_filter, alphasort );
167     if ( n > 0 ) {
168         p->num_devices = n;
169         p->devices = calloc( n, sizeof( struct pci_device_private ) );
170
171         if (p->devices != NULL) {
172             for (i = 0 ; i < n ; i++) {
173                 uint8_t config[48];
174                 pciaddr_t bytes;
175                 unsigned dom, bus, dev, func;
176                 struct pci_device_private *device =
177                         (struct pci_device_private *) &p->devices[i];
178
179
180                 sscanf(devices[i]->d_name, "%04x:%02x:%02x.%1u",
181                        & dom, & bus, & dev, & func);
182
183                 device->base.domain = dom;
184                 device->base.bus = bus;
185                 device->base.dev = dev;
186                 device->base.func = func;
187
188
189                 err = pci_device_linux_sysfs_read(& device->base, config, 0,
190                                                   48, & bytes);
191                 if ((bytes == 48) && !err) {
192                     device->base.vendor_id = (uint16_t)config[0]
193                         + ((uint16_t)config[1] << 8);
194                     device->base.device_id = (uint16_t)config[2]
195                         + ((uint16_t)config[3] << 8);
196                     device->base.device_class = (uint32_t)config[9]
197                         + ((uint32_t)config[10] << 8)
198                         + ((uint32_t)config[11] << 16);
199                     device->base.revision = config[8];
200                     device->base.subvendor_id = (uint16_t)config[44]
201                         + ((uint16_t)config[45] << 8);
202                     device->base.subdevice_id = (uint16_t)config[46]
203                         + ((uint16_t)config[47] << 8);
204                 }
205
206                 if (err) {
207                     break;
208                 }
209             }
210         }
211         else {
212             err = ENOMEM;
213         }
214     }
215
216     if (err) {
217         free(p->devices);
218         p->devices = NULL;
219     }
220
221     return err;
222 }
223
224
225 static int
226 pci_device_linux_sysfs_probe( struct pci_device * dev )
227 {
228     char     name[256];
229     uint8_t  config[256];
230     char     resource[512];
231     int fd;
232     pciaddr_t bytes;
233     unsigned i;
234     int err;
235
236
237     err = pci_device_linux_sysfs_read( dev, config, 0, 256, & bytes );
238     if ( bytes >= 64 ) {
239         struct pci_device_private *priv = (struct pci_device_private *) dev;
240
241         dev->irq = config[60];
242         priv->header_type = config[14];
243
244
245         /* The PCI config registers can be used to obtain information
246          * about the memory and I/O regions for the device.  However,
247          * doing so requires some tricky parsing (to correctly handle
248          * 64-bit memory regions) and requires writing to the config
249          * registers.  Since we'd like to avoid having to deal with the
250          * parsing issues and non-root users can write to PCI config
251          * registers, we use a different file in the device's sysfs
252          * directory called "resource".
253          * 
254          * The resource file contains all of the needed information in
255          * a format that is consistent across all platforms.  Each BAR
256          * and the expansion ROM have a single line of data containing
257          * 3, 64-bit hex values:  the first address in the region,
258          * the last address in the region, and the region's flags.
259          */
260         snprintf( name, 255, "%s/%04x:%02x:%02x.%1u/resource",
261                   SYS_BUS_PCI,
262                   dev->domain,
263                   dev->bus,
264                   dev->dev,
265                   dev->func );
266         fd = open( name, O_RDONLY );
267         if ( fd != -1 ) {
268             char * next;
269             pciaddr_t  low_addr;
270             pciaddr_t  high_addr;
271             pciaddr_t  flags;
272
273
274             bytes = read( fd, resource, 512 );
275             resource[511] = '\0';
276
277             close( fd );
278
279             next = resource;
280             for ( i = 0 ; i < 6 ; i++ ) {
281
282                 dev->regions[i].base_addr = strtoull( next, & next, 16 );
283                 high_addr = strtoull( next, & next, 16 );
284                 flags = strtoull( next, & next, 16 );
285                     
286                 if ( dev->regions[i].base_addr != 0 ) {
287                     dev->regions[i].size = (high_addr 
288                                             - dev->regions[i].base_addr) + 1;
289
290                     dev->regions[i].is_IO = (flags & 0x01);
291                     dev->regions[i].is_64 = (flags & 0x04);
292                     dev->regions[i].is_prefetchable = (flags & 0x08);
293                 }
294             }
295
296             low_addr = strtoull( next, & next, 16 );
297             high_addr = strtoull( next, & next, 16 );
298             flags = strtoull( next, & next, 16 );
299             if ( low_addr != 0 ) {
300                 priv->rom_base = low_addr;
301                 dev->rom_size = (high_addr - low_addr) + 1;
302             }
303         }
304     }
305
306     return err;
307 }
308
309
310 static int
311 pci_device_linux_sysfs_read_rom( struct pci_device * dev, void * buffer )
312 {
313     char name[256];
314     int fd;
315     struct stat  st;
316     int err = 0;
317     size_t rom_size;
318     size_t total_bytes;
319
320
321     snprintf( name, 255, "%s/%04x:%02x:%02x.%1u/rom",
322               SYS_BUS_PCI,
323               dev->domain,
324               dev->bus,
325               dev->dev,
326               dev->func );
327     
328     fd = open( name, O_RDWR );
329     if ( fd == -1 ) {
330 #ifdef LINUX_ROM
331         /* If reading the ROM using sysfs fails, fall back to the old
332          * /dev/mem based interface.
333          * disable this for newer kernels using configure
334          */
335         return pci_device_linux_devmem_read_rom(dev, buffer);
336 #else
337         return errno;
338 #endif
339     }
340
341
342     if ( fstat( fd, & st ) == -1 ) {
343         close( fd );
344         return errno;
345     }
346
347     rom_size = st.st_size;
348     if ( rom_size == 0 )
349         rom_size = 0x10000;
350
351     /* This is a quirky thing on Linux.  Even though the ROM and the file
352      * for the ROM in sysfs are read-only, the string "1" must be written to
353      * the file to enable the ROM.  After the data has been read, "0" must be
354      * written to the file to disable the ROM.
355      */
356     write( fd, "1", 1 );
357     lseek( fd, 0, SEEK_SET );
358
359     for ( total_bytes = 0 ; total_bytes < rom_size ; /* empty */ ) {
360         const int bytes = read( fd, (char *) buffer + total_bytes,
361                                 rom_size - total_bytes );
362         if ( bytes == -1 ) {
363             err = errno;
364             break;
365         }
366         else if ( bytes == 0 ) {
367             break;
368         }
369
370         total_bytes += bytes;
371     }
372         
373
374     lseek( fd, 0, SEEK_SET );
375     write( fd, "0", 1 );
376
377     close( fd );
378     return err;
379 }
380
381
382 static int
383 pci_device_linux_sysfs_read( struct pci_device * dev, void * data,
384                              pciaddr_t offset, pciaddr_t size,
385                              pciaddr_t * bytes_read )
386 {
387     char name[256];
388     pciaddr_t temp_size = size;
389     int err = 0;
390     int fd;
391     char *data_bytes = data;
392
393     if ( bytes_read != NULL ) {
394         *bytes_read = 0;
395     }
396
397     /* Each device has a directory under sysfs.  Within that directory there
398      * is a file named "config".  This file used to access the PCI config
399      * space.  It is used here to obtain most of the information about the
400      * device.
401      */
402     snprintf( name, 255, "%s/%04x:%02x:%02x.%1u/config",
403               SYS_BUS_PCI,
404               dev->domain,
405               dev->bus,
406               dev->dev,
407               dev->func );
408
409     fd = open( name, O_RDONLY );
410     if ( fd == -1 ) {
411         return errno;
412     }
413
414
415     while ( temp_size > 0 ) {
416         const ssize_t bytes = pread64( fd, data_bytes, temp_size, offset );
417
418         /* If zero bytes were read, then we assume it's the end of the
419          * config file.
420          */
421         if ( bytes <= 0 ) {
422             err = errno;
423             break;
424         }
425
426         temp_size -= bytes;
427         offset += bytes;
428         data_bytes += bytes;
429     }
430     
431     if ( bytes_read != NULL ) {
432         *bytes_read = size - temp_size;
433     }
434
435     close( fd );
436     return err;
437 }
438
439
440 static int
441 pci_device_linux_sysfs_write( struct pci_device * dev, const void * data,
442                              pciaddr_t offset, pciaddr_t size,
443                              pciaddr_t * bytes_written )
444 {
445     char name[256];
446     pciaddr_t temp_size = size;
447     int err = 0;
448     int fd;
449     const char *data_bytes = data;
450
451     if ( bytes_written != NULL ) {
452         *bytes_written = 0;
453     }
454
455     /* Each device has a directory under sysfs.  Within that directory there
456      * is a file named "config".  This file used to access the PCI config
457      * space.  It is used here to obtain most of the information about the
458      * device.
459      */
460     snprintf( name, 255, "%s/%04x:%02x:%02x.%1u/config",
461               SYS_BUS_PCI,
462               dev->domain,
463               dev->bus,
464               dev->dev,
465               dev->func );
466
467     fd = open( name, O_WRONLY );
468     if ( fd == -1 ) {
469         return errno;
470     }
471
472
473     while ( temp_size > 0 ) {
474         const ssize_t bytes = pwrite64( fd, data_bytes, temp_size, offset );
475
476         /* If zero bytes were written, then we assume it's the end of the
477          * config file.
478          */
479         if ( bytes <= 0 ) {
480             err = errno;
481             break;
482         }
483
484         temp_size -= bytes;
485         offset += bytes;
486         data_bytes += bytes;
487     }
488     
489     if ( bytes_written != NULL ) {
490         *bytes_written = size - temp_size;
491     }
492
493     close( fd );
494     return err;
495 }
496
497 static int
498 pci_device_linux_sysfs_map_range_wc(struct pci_device *dev,
499                                     struct pci_device_mapping *map)
500 {
501     char name[256];
502     int fd;
503     const int prot = ((map->flags & PCI_DEV_MAP_FLAG_WRITABLE) != 0) 
504         ? (PROT_READ | PROT_WRITE) : PROT_READ;
505     const int open_flags = ((map->flags & PCI_DEV_MAP_FLAG_WRITABLE) != 0) 
506         ? O_RDWR : O_RDONLY;
507     const off_t offset = map->base - dev->regions[map->region].base_addr;
508
509     snprintf(name, 255, "%s/%04x:%02x:%02x.%1u/resource%u_wc",
510              SYS_BUS_PCI,
511              dev->domain,
512              dev->bus,
513              dev->dev,
514              dev->func,
515              map->region);
516     fd = open(name, open_flags);
517     if (fd == -1)
518             return errno;
519
520     map->memory = mmap(NULL, map->size, prot, MAP_SHARED, fd, offset);
521     if (map->memory == MAP_FAILED) {
522         map->memory = NULL;
523         close(fd);
524         return errno;
525     }
526
527     close(fd);
528
529     return 0;
530 }
531
532 /**
533  * Map a memory region for a device using the Linux sysfs interface.
534  * 
535  * \param dev   Device whose memory region is to be mapped.
536  * \param map   Parameters of the mapping that is to be created.
537  * 
538  * \return
539  * Zero on success or an \c errno value on failure.
540  *
541  * \sa pci_device_map_rrange, pci_device_linux_sysfs_unmap_range
542  *
543  * \todo
544  * Some older 2.6.x kernels don't implement the resourceN files.  On those
545  * systems /dev/mem must be used.  On these systems it is also possible that
546  * \c mmap64 may need to be used.
547  */
548 static int
549 pci_device_linux_sysfs_map_range(struct pci_device *dev,
550                                  struct pci_device_mapping *map)
551 {
552     char name[256];
553     int fd;
554     int err = 0;
555     const int prot = ((map->flags & PCI_DEV_MAP_FLAG_WRITABLE) != 0) 
556         ? (PROT_READ | PROT_WRITE) : PROT_READ;
557     const int open_flags = ((map->flags & PCI_DEV_MAP_FLAG_WRITABLE) != 0) 
558         ? O_RDWR : O_RDONLY;
559     const off_t offset = map->base - dev->regions[map->region].base_addr;
560 #ifdef HAVE_MTRR
561     struct mtrr_sentry sentry = {
562         .base = map->base,
563         .size = map->size,
564         .type = MTRR_TYPE_UNCACHABLE
565     };
566 #endif
567
568     /* For WC mappings, try sysfs resourceN_wc file first */
569     if ((map->flags & PCI_DEV_MAP_FLAG_WRITE_COMBINE) &&
570         !pci_device_linux_sysfs_map_range_wc(dev, map))
571             return 0;
572
573     snprintf(name, 255, "%s/%04x:%02x:%02x.%1u/resource%u",
574              SYS_BUS_PCI,
575              dev->domain,
576              dev->bus,
577              dev->dev,
578              dev->func,
579              map->region);
580
581     fd = open(name, open_flags);
582     if (fd == -1) {
583         return errno;
584     }
585
586
587     map->memory = mmap(NULL, map->size, prot, MAP_SHARED, fd, offset);
588     if (map->memory == MAP_FAILED) {
589         map->memory = NULL;
590         close(fd);
591         return errno;
592     }
593
594 #ifdef HAVE_MTRR
595     if ((map->flags & PCI_DEV_MAP_FLAG_CACHABLE) != 0) {
596         sentry.type = MTRR_TYPE_WRBACK;
597     } else if ((map->flags & PCI_DEV_MAP_FLAG_WRITE_COMBINE) != 0) {
598         sentry.type = MTRR_TYPE_WRCOMB;
599     }
600
601     if (pci_sys->mtrr_fd != -1 && sentry.type != MTRR_TYPE_UNCACHABLE) {
602         if (ioctl(pci_sys->mtrr_fd, MTRRIOC_ADD_ENTRY, &sentry) < 0) {
603             /* FIXME: Should we report an error in this case?
604              */
605             fprintf(stderr, "error setting MTRR "
606                     "(base = 0x%08lx, size = 0x%08x, type = %u) %s (%d)\n",
607                     sentry.base, sentry.size, sentry.type,
608                     strerror(errno), errno);
609 /*            err = errno;*/
610         }
611         /* KLUDGE ALERT -- rewrite the PTEs to turn off the CD and WT bits */
612         mprotect (map->memory, map->size, PROT_NONE);
613         err = mprotect (map->memory, map->size, PROT_READ|PROT_WRITE);
614
615         if (err != 0) {
616             fprintf(stderr, "mprotect(PROT_READ | PROT_WRITE) failed: %s\n",
617                     strerror(errno));
618             fprintf(stderr, "remapping without mprotect performance kludge.\n");
619
620             munmap(map->memory, map->size);
621             map->memory = mmap(NULL, map->size, prot, MAP_SHARED, fd, offset);
622             if (map->memory == MAP_FAILED) {
623                 map->memory = NULL;
624                 close(fd);
625                 return errno;
626             }
627         }
628     }
629 #endif
630
631     close(fd);
632
633     return 0;
634 }
635
636 /**
637  * Unmap a memory region for a device using the Linux sysfs interface.
638  * 
639  * \param dev   Device whose memory region is to be unmapped.
640  * \param map   Parameters of the mapping that is to be destroyed.
641  * 
642  * \return
643  * Zero on success or an \c errno value on failure.
644  *
645  * \sa pci_device_map_rrange, pci_device_linux_sysfs_map_range
646  *
647  * \todo
648  * Some older 2.6.x kernels don't implement the resourceN files.  On those
649  * systems /dev/mem must be used.  On these systems it is also possible that
650  * \c mmap64 may need to be used.
651  */
652 static int
653 pci_device_linux_sysfs_unmap_range(struct pci_device *dev,
654                                    struct pci_device_mapping *map)
655 {
656     int err = 0;
657 #ifdef HAVE_MTRR
658     struct mtrr_sentry sentry = {
659         .base = map->base,
660         .size = map->size,
661         .type = MTRR_TYPE_UNCACHABLE
662     };
663 #endif
664
665     err = pci_device_generic_unmap_range (dev, map);
666     if (err)
667         return err;
668     
669 #ifdef HAVE_MTRR
670     if ((map->flags & PCI_DEV_MAP_FLAG_CACHABLE) != 0) {
671         sentry.type = MTRR_TYPE_WRBACK;
672     } else if ((map->flags & PCI_DEV_MAP_FLAG_WRITE_COMBINE) != 0) {
673         sentry.type = MTRR_TYPE_WRCOMB;
674     }
675
676     if (pci_sys->mtrr_fd != -1 && sentry.type != MTRR_TYPE_UNCACHABLE) {
677         if (ioctl(pci_sys->mtrr_fd, MTRRIOC_DEL_ENTRY, &sentry) < 0) {
678             /* FIXME: Should we report an error in this case?
679              */
680             fprintf(stderr, "error setting MTRR "
681                     "(base = 0x%08lx, size = 0x%08x, type = %u) %s (%d)\n",
682                     sentry.base, sentry.size, sentry.type,
683                     strerror(errno), errno);
684 /*            err = errno;*/
685         }
686     }
687 #endif
688
689     return err;
690 }
691
692 static void pci_device_linux_sysfs_enable(struct pci_device *dev)
693 {
694     char name[256];
695     int fd;
696
697     snprintf( name, 255, "%s/%04x:%02x:%02x.%1u/enable",
698               SYS_BUS_PCI,
699               dev->domain,
700               dev->bus,
701               dev->dev,
702               dev->func );
703     
704     fd = open( name, O_RDWR );
705     if (fd == -1)
706        return;
707
708     write( fd, "1", 1 );
709     close(fd);
710 }
711
712 static int pci_device_linux_sysfs_boot_vga(struct pci_device *dev)
713 {
714     char name[256];
715     char reply[3];
716     int fd, bytes_read;
717     int ret = 0;
718
719     snprintf( name, 255, "%s/%04x:%02x:%02x.%1u/boot_vga",
720               SYS_BUS_PCI,
721               dev->domain,
722               dev->bus,
723               dev->dev,
724               dev->func );
725     
726     fd = open( name, O_RDONLY );
727     if (fd == -1)
728        return 0;
729
730     bytes_read = read(fd, reply, 1);
731     if (bytes_read != 1)
732         goto out;
733     if (reply[0] == '1')
734         ret = 1;
735 out:
736     close(fd);
737     return ret;
738 }
739
740 static int pci_device_linux_sysfs_has_kernel_driver(struct pci_device *dev)
741 {
742     char name[256];
743     struct stat dummy;
744     int ret;
745
746     snprintf( name, 255, "%s/%04x:%02x:%02x.%1u/driver",
747               SYS_BUS_PCI,
748               dev->domain,
749               dev->bus,
750               dev->dev,
751               dev->func );
752     
753     ret = stat(name, &dummy);
754     if (ret < 0)
755         return 0;
756     return 1;
757 }