刚开一秒传奇私服_从10年前说起 Intel新独立显卡万字解析

  回到顶部阅读热血传奇手游秘境爆

  在进入本文正式论述之前,我们先来看一下今年第二季度PC总体图形市场的占有率比较。需要说明的第一点是,这是总体图形市场的统计,也就是包含整合图形芯片。神鬼传奇手游试炼主宰可能有些读者对ATI和NVIDIA的市场占有率比较熟悉,毕竟这两家公司在图形市场的竞争比较激烈。但从总体占有率来看,相对更“默默无闻”的Intel实际上通过整合图形芯片占据着总体市场的绝对主力。

  需要说明的第二点是,第二季度是Intel比较乐观的一个时期,不过我们在回顾了近两年的市场占有率后发现,Intel的市占率始终维持在50%左右,要知道,Intel目前只有整合图形芯片的产品,而ATI和NVIDIA则都兼顾有整合图形、独立图形卡两部分市场,这进一步证明了Intel在图形市场的实力不是短时间内练就的,也不会在短时间内大幅度浮动。

  Intel制霸显卡新起点 Larrabee全解析 传奇手游沃玛撕裂者传奇手游自动喝药叠加

  下面将要正式进入今天的主题:“Larrabee”——Intel计划在2009或2010年发布的一款独立图形卡产品。那么为什么要在开篇放上一个市场占有率的对比图呢?想必读者和我们有同样的疑问,那就是Intel在保有如此大的图形市场优势的情况下,为什么还要推出独立图形卡产品,难道仅仅是为了将自己的市场占有率进一步扩大吗?

  原因肯定不仅仅是这么简单,否则Intel就不会推出一款非常“另类”的图形卡了:Larrabee基于很老旧Pentium原型(当然改动很大),采用x86架构体系而非渲染游戏更加方便的DirectX或者OpenGL,集成了高达32个甚至48个核心(远远高于目前的多核处理器)。这些关键的规格看起来怎么也不像是一款普通的显卡。

  也许正像Intel自己的技术PPT显示的那样,Larrabee能做的事情远非比一款传统显卡要多。至于Intel为什么要在这个热血传奇手游官方电话时机推出一款面向高端的独立图形卡,回顾一下历史就是必不可少的了,因为相比现在准备发布的Larrabee,十年前(1998年)Intel发布首款独立图形卡i740的时机和历史背景和今天惊人的相似。

  Intel制霸显卡新起点 Larrabee全解析

  ◆ Intel首次试水图形卡是在3D加速的发展初期

  早在上世纪90年代初,3D加速卡就进入了发展的启蒙期,不过3D游戏加速成为一个时代的正式开始,还要算1996年10月的Voodoo卡发售的时候,在其后的12个月中几乎没有什么产品可以取代它的霸主地位。同期,图形业也正式成为PC行业一个热门的部分,多家公司看中了这个契机,想在未来的PC图形市场占据一个重要的位置,于是包括ATI、Matrox、NVIDIA、PowerVR、3Dlabs、Trident、S3、SiS等公司纷纷试水图形芯片,打造了最为繁荣的图轩辕传奇手游游戏攻略形业初期。

  1997年冬季3Dfx发布了有史以来最为成功的3D加速芯片——Voodoo2,这款芯片组包括2个材质贴图单元,在一个时钟周期内得到双倍处理能力。更令人震惊的是,Voodoo2支持SLI屏幕交错扫描技术,允许双卡互联,从而威力倍增,一时间,Voodoo2成为全球PC游戏玩家的终极梦幻配置。Voodoo2已经成就了图形卡发展初期的黄金阶段,但就像我们的定义一样,作为图形轩辕传奇手游选什么职业卡发展的初期,所有的发展都具备不确定的因素。

  Intel制霸显卡新起点 Larrabee全解析

  Intel的首个图形芯片作品——i740 3天火传奇手游好玩么D加速卡

  Intel也在这个时期进入了独立图形卡市场,在1998年2月的时候发布了i740芯片,从此Intel也杀入了3D图形芯片领域。该芯片是Intel与Lockheed-Martin(洛克希德马丁公司)下属的分公司Real3D联合开发的,但是Intel已经购买了Real3D 20%的股份。在游戏性能上,i740仅仅相当于Voodoo2卡的一半,不过参考价格,这个性能已经非常不错了,因为还没有成熟的细分市场策略,Voodoo2仍然只是高端玩家的享受。

  当时光流向1999年,图形市场的钟摆已经滑向NVIDIA,在成功推出Riva128、TNT等显卡后,TNT2也在这一年火热出炉,3Dfx虽然在较晚时间推出Voodoo3,可最为自豪的Glide和OpenGL已经开始成为游戏业的非主流API,3Dfx从此走向没落,1999年虽然没有敲响它的丧钟,但Voodoo3的确是3Dfx转折性的产品——不是向好的方向,而是向差的方向。

  回到顶部阅读

  同样是在1999年4月,Intel发布了他们的i752芯片,是成功的i740的轩辕传奇手游金币花哪里合算 后续版本,最终递交板卡是在8月份。i752采用128位的核心架构,核心频率为100MHz,显存最高支持133MHz,最大16MB。i752采用双像素管线,每秒钟可以产生300万个多边形,像素填充率是1亿每秒,支持环境雾化、单周期纹理合成等3D功能以及16位的Z-buffer。

  此外,i752还增加了很多新特效的支持,比较突出的是用于显示浮雕的凹凸贴图特效(bump mapping),而且也支持纹理压缩功能。此外i752还拥有出色的数字视频加速性能,甚至还提供了基于硬件的MPEG-2硬件动态补偿功功能,用来改善软件播放DVD的效果。i752虽然技术特性比较不错,但恰逢3D显卡高速发展的初期,其性能逊色于TNT2不少,所以Intel最终还是放弃了它的发展,此后Intel将其整合到了自己的芯片组中(i740/i752最后被整合入Intel i810、i815、i815E芯片组中)。

  传奇3d手游后期职业Intel制霸显卡新起点 Larrabee全解析

  i752只不过是i740的加强版,因此在3D性能上并不突出

  i740和i752是Intel首度试水3D图形行业,而“试水的深度”也仅限于此,i752成为Intel独立图形卡的绝唱,从此之后Intel再未推出过独立图形卡产品,而是全面转向整合图形市场。Intel推出的i740和i752虽然获得了不错的市场反应,占领了相当的低端市场。但作为3D加速卡,其游戏性能只能处于中等水平,落后于3dfx与nVIDIA,这无疑令是事必争先的Intel 颇为不悦。

热血传奇手游复活辅助

  最为关键的是,Intel考虑到自身在图形技术方面积累有限,如果进军高端3D游戏领域,即便投入大量的人力与财力,也未见得就会从对手身上占得多少便宜,而且高端3D游戏显卡市场不仅规模实在有限,竞争也更加激烈,除了当时处于领先地位3Dfx、NVIDIA,ATI、S3、Trident、Matrox等都对此虎白日门传奇手游首冲代码视眈眈。

  ◆ Intel再度试水图形卡是因为3D加速走到了转折点?

  在十年前进军3D图形加速业是因为Intel敏感的嗅到了3D加速的市场潜力,但Intel绝对没有估计到图形市场发展到十年后会是如此的模样,否则我相信,Intel当时就算当掉自己的裤子,也要在十年前跟上图形业发展的高端主流,而不是在十年后,当NVIDIA和ATI(AMD)举起倒戈CPU的旗帜后,才幡然悔悟。

  Intel在当时选择的道路并不是错误,相反,Intel的确在图形市场获得了不错的占有率和利润。但是图形业发展的一日千里也的确让人瞠目,所谓量变引起质变,ATI(AMD)和NVIDIA目前都掌握着GPU的高级技术,而GPU的巨大能量也开始向其它领域释放,对Intel直接造成了威胁和打击。

  手游传奇做得好的传奇世界手游烈火专家升级Intel制霸显卡新起点 Larrabee全解析

  AMD收购ATI是Intel发展独立图形芯片的导火索?

  GPGPU概念的提出是最早冲击CPU的论调,早在2006年7月AMD正式宣布收购ATI后,Intel想必已经开始警觉,当时很多大胆的预测已经指出CPU和GPU发展将会合流的趋势。完成收购不久后,AMD开始强调GPGPU的概念,虽然截至目前仍然没有实质性的产品造成重大影响,但这足以影响Intel未来的发展之路。

  Intel制霸显卡新起点 Larrabee全解析

  NVIDIA力推的CUDA技术是Intel发展独立图形芯片的源动力?

  而作为目前仅存的具备领导能力的独立图形商NVIDIA,则直接竖起了向Intel征讨的大旗,OPC优化电脑概念指出了在娱乐领域GPU的主角位置,至于CUDA展示的在多领域的应用更是矛头直指CPU,大有GPU取代CPU的趋势。如果说GPGPU概念让Intel猛醒的话,那么CUDA绝对是让Intel下定决心发展高热血传奇手游 噬血术 施毒术端图形技术的催化剂。

  谈到这里,我们可以做一个总结了。Intel两次进入独立图形卡市场有着相似的时机,第一次是踏着3D加速卡启蒙的黄金时期,第二次是迎着GPU发展的重要转折点;第一次是窥到了这个行业的巨大潜力和利润,第二次是发现了GPU对自身的威胁。相比较第一次,Intel再度进入图形卡市场有着更强烈的背水一战的味道。

  CUDA技术的发明和发展已经开始改变市场的格局,娱乐领域尚且不谈,GPU强大的计算能力和巨大的潜能已经成为科学计算、商业运算的新亮点,而这正是Intel传统的优势所在,面临IBM 傲世中变传奇sfCell处理器乃至当下GPU的迅猛发展,如果在高端通用计算和商业大规模运算市场被逐渐蚕食,将触动Intel最核心的利益所在,这是Intel最不希望看到的,也是Larrabee推出的根本原因。

  对于Larrabee推出的原因传奇sf法师pk技巧 ,我们暂且分析到这里,上述对市场趋向性的分析文字有猜测成分。因为Larrabee的架构不同于当前主流的图形卡,所以其性能也完全是个未知数,未来的市场走向、定位同样是个未知数。本文将谨从技术解析的姿态去评析Larrabee的方方面面,研究它与目前主流显卡架构的异同、它的先进技术以及渲染方法等等,下面我们就从Larrabee的基本硬件架构开始谈起。

  回到顶部阅读

  相信很多朋友很早就听说过Larrabee大名,但是大部分人对于Larrabee的了解仅限于“它是Intel的独立显卡方案”、“它是基于老奔腾架构”等等,而对于Larrabee的详细情况确实鲜有人知。那么Larrabee到底是什么呢?我们借此机会,就对Larrabee问个刨根揭底。首先,我们从Larrabee核心的基本架构开始说起。

  Intel制霸显卡新起点 Larrabee全解析 传奇sf怪物攻击类型仙剑妖狐版传奇sf

  Larrabee内部基本逻辑架构

  Larrabee是按照有序CPU处理核心的多指令集而设计的,得益于内建的宽幅矢量处理器(VPU)单元,这种有序CPU核心运算性能得到了加强。Larrabee内部核心通过高带宽网络相互连接,在这个网络里,包含了固定功能逻辑芯片、内存I/O接口以及其他必要的I/O逻辑芯片在内的多种组件。至于核心与哪个组件相连,主要取决于Larrabee执行何种应用。比如说,如果Larrabee执行GPU应用的话,Larrabee内部核心将会与PCIe相连。

  下图描述的是Larrabee与Intel Core 2 Duo处理器规格之间的对比情况。其中,中间一列表述的是Intel Core 2 Duo无序CPU的性能峰值,而右侧一列正是这款我们要向大家介绍的基于Pentium架构的Larrabee。

  传奇sf195金牛合击Intel制霸显卡新起点 Larrabee全解析 传奇sf没客服端能玩吗

  Pentium架构于1992年首度亮相,算得上是业绩经典CPU,该处理器采用双指令执行指令集。Larrabee虽然基于老旧的Pentium处理器核心,但是经过升级之后,Larrabee具备了可支持4线程同时运算的能力,已经变成了一种16宽幅矢量处理器单元。上图最后两排黑体字描述的是可以被单个CPU、每个时钟内执行一次的非矢量指令集的数量以及每个时钟内被执行一次的矢量操作的总体数量。值得一提的是,这两种配置所需的die面积以及功耗基本相同。

  具体来讲,虽然在一个单指令流的程序中,10核心有序架构(Larrabee)的峰值每个时钟周期可2次操作,仅为2核心乱序架构(Core 2 Duo)的一半,但是在两者die面积以及热设计功耗基本相同的情况下,10核心有序架构的矢量峰值却是无序架构的20倍,而且由于Larrabee的宽幅矢量处理器可以支持积和熔加运算(fused multiply- add, FMA),而Core 2 Duo所采用的SSE指令集不可以,所以10核心有序架构的FLOPS(浮点运算次数,floating-point operations per second)是2核心无序架构的40倍。事实上,以上所说的10核心有序架构处理器还算不上是Larrabee,事实上,Larrabee内部架构更复杂。

  以上所说的10核心有序架构并不等同于Larrabee架构。为了方便进行对比,以上所说的有序核心设计采用的是与无序核刚开一秒网通新开传奇sf心(包括非固定功能绘图逻辑芯片在内)相同的操作以及时钟率。这个简单的对比告诉我们,一个具有简单有序核心的宽幅VPU可以让平行运算达到惊人的运算密度,Larrabee的设计灵感正是源于此。

  下面我们着重介绍Larrabee架构的主要特点:CPU核心、标量单元和缓存控制器指令、矢量处理器、进程间的环形网络以及在固定功能逻辑芯片的执行过程中是如何选择的。

  回到顶部阅读

玩传奇sf怎么没有声音

  单颗Larrabee CPU核心、核心内部的联接通道以及核心的L2高速缓存本地子集是如何连接呢?下图描述的就是内部连接情况,其中,Larrabee核心的指令译码器(Instruction Decoder)不仅支持标准的Pentium x86指令集,此外还支持其他一些指令集,之后我们会着重介绍。

  Larrabee采用有序Pentium处理器,支持64-bit指令集、多线程技术,内建宽幅VPU(矢量处理单元传奇世界复古手游sf)。Larrabee的每颗核心可以快速与相应的256KB L2缓存的本地子集相连。L1高速缓存包括32KB Icache以及32KB Dcache。Larrabee内部每颗核心可以通过L2高速缓存组成环形网络。

  Intel制霸显卡新起点 Larrabee全解析 传奇sf万劫

  Larrabee每个IA核心的内部逻辑架构

  为了让larrabee架构更简单,larrabee CPU核心的标量以及矢量单元采用了分离式寄存器组,在标量以及矢量单元中相互转移的数据首先会被写入内存,然后再从L1高速缓存中读取数据。

  Larrabee内建的L1高速缓存在与标量和矢量单元连接时可以支持低延迟接入,而且可以和Larrabee的VPU(矢量处理单元)指令集协同工作,也就是说,在某种程度上,我们可以把Larrabee的L1高速缓存看做是一种扩展寄存器文件。这种设计模式大大提升了Algorithm(演算法)的性能,特别是在缓存控制指令集下,演算法的性能提升更加明显。单线程Pentium处理器内建8KB Icache(instruction cache,指令缓存)和8KB Dcache(data cache,数据缓存)。

  传奇sf打开全是乱码Intel制霸显卡新起点 Larrabee全解析 要玩传奇sf 要下什么客服端

  Larrabee与“所谓”原始Pentium架构的异同

  Larrabee内建的所有L2高速缓存将会按照CPU核心的个数多少分为若干个单独的本地子集,每颗CPU核心共享一个本地子集。每颗CPU核心具有一条与各自L2本地子集相连的快速通道。每颗CPU核心读取的数据将会被储存在L2高速缓存子集中,而且存储速度非常快;每颗CPU核心写入的数据将会存储到各自的L2高速缓存子集中,而其他CPU核心的子集并不会接收这些数据。这种环形网络可以确保数据分享的连贯性。

  回到顶部阅读

  Larrabee的标量管线(scalar 传奇sf召唤不出英雄pipeline)衍生自双指令执行(dual-issue) Pentium处理器,这种处理器采用一种阶层短、且造价低的执行管线。Larrabee架构支持最新改良技术,如宽幅矢量处理单元(wide vector processing unit, VPU)、多线程、 64位延伸指令以及精密的指令预取功能 (pre-fetching)。

  Larrabee核心可全面支持Pentium X86指令集,所以也可以在目前的操作系统内核或者其他应用代码上运行。此外,Larrabee核心还新增了一些标量指令集,比如bit count(比特制)以及bit scan(比特扫描)指令集,它可以在一个寄存动作中对下一个比特集进行寻址。

  除此之外,Larrabee还为explicit cache control增加了一些新的指令集和指令模式,包括用来把数据预先存储到L1或者L2高速缓存中的指令集,以及用来降低cache line(Cache line是Cache和Memory之间数据传输的最小单元)权重的指令模式。比如说,这些指令集可以让流数据清除缓存中已经存在的数据。在这些数据被清除之前,Larrabee将会标记每一个流体cache line。这些缓存传奇sf外挂哪里买控制指令同时可以让L2高速缓存充当scratchpad memory(暂时存储器)的角色,从而维持整个架构的连贯性。

  Intel制霸显卡新起点 Larrabee全解析 win10版本传奇sf

  在单个Larrabee核心内,(数据)通过多线程同步进入共享存储器是非常容易做到。由于单个核心内的线程共享本地L1高速缓存,所以L1高速缓存内的单个(atomic semaphore)传奇sf点不了确定进入游戏 原子信号量的读取是足够的。相比之下,在多核心之间进行这样的同步操作就要难的多。首先是非常耗成本,因为这种操作需要处理器间的lock 指令(inter-processor lock)。也就是说,在多核心CPU架构中让数据通过多线程同步进入共享寄存器是非常困难的。

  由于某些可同时协作执行某任务的指令集很难被发现,所以多指令执行CPU核心在性能方面通常会有所损失。通过模拟测试我们发现,Larrabee的双指令执行解码器的效率还是比较高的。其主要(primary)指令管线和辅助(secondary)指令管线的分工非常明确,这样的话,在执行离线分析时,程序编译者将会比无序指令的编译者更加自由。

  主要管线可以执行所有的指令集,对于程序编译人员而言无疑就最大程度降低了两种管线指令组合时产生的问题。辅助管线可以执行大量标量X86指令集的子集命令,包括加载、存储、简单的ALU操作、分支、缓存操作以及矢量存储。由于辅助管线相对较短、较便宜,所以辅助管线在每个时钟周期内的双指令执行报错时造成的功耗以及其他损失是非常有限的。通过我们的分析,对于程序编译人员而言,调用双指令执行指令就相对要简单些。

  回到顶部阅读

  我们已经多次提到了矢量运算单元(Vector Processing Unit),那么什么是矢量运算单元呢?Larrabee的运算密度来自16宽幅矢量处理单元(vector processing unit,VPU),这些VPU可以执行整数运算、单精度浮点以及双精度浮点指令集。VPU以及VPU的寄存器虽然仅约占CPU核心面积是三分之一,但是却提供了大部分整数运算和浮点运算性能。下图描述的是VPU以及L1高速缓存的结构图。

  英雄小冰冰传奇sfIntel制霸显卡新起点 Larrabee全解析 轩辕传奇手游奶妈

  我们把16宽幅VPU当成是提高运算密度与获得VPU高利用率的难度之间的一种权衡。之前有分析认为,如果16通道每次可以处理16个分离的像素的话,16 shader像素的利用率可以达到88%。可以这么说,在处理16个像素时,16宽幅VPU 的每个指令处理一种颜色,而不是采用多颜色通道一次性处理。Nvidia GeForce 8的操作模式与此相似,内建了32组标量SIMD处理器,这些标量处理器可以执行相同的指令。Larrabee与Nvidia GeForce 8系列的最大不同之处在于,Larrabee内部的环形控制、缓存管理以及其他操作都是以代码的形式出现的,这些代码与矢量处理单元进行平行运算,而不是像GeForce 8系列那样,在执行这些操作时依赖于固定功能逻辑芯片。

  Larrabee的VPU指令集可以支持3源操作数(Source Operands),其中1个可直接从L1高速缓存中调用。当数据被预先取出并发送到缓存中时,L1高速缓存实际上就成了一个扩展寄存器文件。8-bit unorm、8-bit uint、16-bit sint以及16-bit float数据可以从高速缓存中读取,并且转换手游传奇可以赚钱吗成32-bi浮点或者32-bit整数,此过程不会造成任何性能损耗。这在很大程度上增加了存储在高速缓存中的数据量,同时也可以降低了分离数据转换指令的需求。

  热血传奇手游弓手装备搭配Intel制霸显卡新起点 Larrabee全解析

  下面就该将寄存器以及存储单元中的数据与VPU单元中的处理通道一线排开。首先,寄存器中的数据以多种多种的方式swizzled,比如说支持矩阵乘法(Matrix Multiplication);此外来自存储单元的数据可以通过VPU处理通道进行复制。这种操作手游传奇绿色版可以大大提高缓存效能,事实上,在其他图形以及非图形平行数据处理过程中这种操作也很常见。

  VPU单元可支持大量以整数以及浮点数据形式存在的指令集。其指令系统可以提供标准算术运算,手游热血传奇更新包括积和熔加运算(fused multiply- add, FMA)以及标准逻辑操作(standard logical operations),包括从像素单元中提取non-byte-aligned field的指令集。这些都是load-op格式指令,可以从某些寄存器或者存储单元中读取出来,而且可以将运算结果写入矢量寄存器中。其他加载以及存储指令可以更好的支持数据在有效浮点和比较罕见或比较复杂的数据格式之间转化,这种比较罕见或比较复杂的数据格式在目前的GPU中就可以看到。得益于这些数据格式的分离式指令集,Larrabee用非常小的性能代价便换来了相当客观的功耗节省以及die面积缩小。

  此外,VPU指令系统还可以支持Scatter/Gather(分散-收集)功能,可以实现对存储器非相邻地址的数据进行加载与存储操作。16个元素并不是从单一地址加载16宽幅矢量单元,而是从16个不同的地址加载或者存储到16个地址中,这16个地址被制定在另外一个矢量寄存器中。这种方式支持16个着色实例平行运行,这些实例都是在不间断的运行。尽管如此,很多工作量都是以高度相连的模式出现,所以完成这些任务实际上并不用16个周期。

  最终,Larrabee VPU指令集将会被每个矢量通道为1个字节的屏蔽寄存器(mask register)断定。比如说,通过利用某个指令集将屏蔽寄存器基于一种对比,从而某个标量if-then-else控制结构就可以被映射到VPU单元,然后以屏蔽寄存器的反向执行if和else分句,并控制是否写入结果;如果屏蔽寄存器内全部都是“0”或者“1”的话,待执行分句将会被完全跳过执行。这样的话,就可以降低由于某些短分句而造成的分支预测错误损失(branch misprediction penalties),并且给与程序编写人员在编写指令时充分的自由度。

  此外,VPU还利用这种屏蔽功能批量加载、存储指令,这可以更加有效的处理某些连续存储单元,而且可热血传奇手游虹魔教主以让编程人员收集比较稀有的执行股,更加有效的执行矢量运算。

  回到顶部阅读热血传奇手游元宝升级

  Larrabee采用双向环形网络设计,这种内部设计保证了包括CPU核心、L2缓存以及其他逻辑模块等组件在同一块芯片中相互可以自由连接。当核心扩大到16颗之后,Larrabee就会采用多个短的环形连接方式。

  每个环形数据通道每个方向为512位宽幅。在把信息和数据注入整个环形网络之前,所有的routing decision就已经明确。比如说,在偶数个时钟之内,每个组件都可以从一个方向接受到一条信息;在奇数时钟内,从另一个方向直接另一条信息。这就让routing logic变得相当简单,同时意味着,如果环形网络里出现某种信息时,routers中也不需要存储单元。这样的话,Larrabee就相当于用非常低的成本换来了高带宽率、低集缩比。

  Larrabee的L2高速缓存可以为每一颗核心提供可接入存储地址的高带宽,这些存储地址没有被其他核心写入(written),因此可以被存储在核心的本地L2子集中。每颗核心可以平行接入各自的L2缓存子集。尽管如此,在L2缓存中指定一条新的line之前,Larrabee的环形网络通常被用于检查共享数据,以便可以维持数据的连贯性。

  Intel制霸显卡新起点 Larrabee全解析

  Larrabee的这种核心间环形网络同样可以为L2高速缓存接入存储单元提供通道。某种高级执行可能包含标准设计的多存储界面,并在环形网络中分散开来,以便降低数据堵塞。环形网络内部的Latency(延迟)将会增加存储单元的接入时间,不过这种环形延迟的影响非常小,与DRAM的接入延迟相比不值一提。

  最终,这种处理器核心间的环形传奇世界手游男女选择 网络就把固定功能逻辑芯片和CPU核心连接到一起,然后依次接入L2缓存和存储单元。与内存控制器一起,这些逻辑功能芯片(these)将被分散到环形网络中,从而降低了数据堵塞。

  传奇手游魔龙令牌多少攻击回到顶部阅读

  如今的GPU都包含固定功能逻辑芯片,主要负责各种绘图任务,包括纹理过滤、显示处理、Alpha混合、光栅处理等等,而对于一款能支持通用计算的GP-CPU来说,情况就会不太相同。

  Larrabee执行某种绘图任务时不像GPU那样采用逻辑功能芯片,而是采用了一种软件(我们简单可以理解为软加速,当然Intel会进行很好的优化),这种软件执行的效能非常高。Larrabee内部不包括用于显示处理、Alpha混合、光栅处理以及interpolation(插补算法)的固定功能逻辑芯片。这样的话,就需要Larrabee具备某种特性以及某种优化性能,而且需要使得以上这些任务处理可以在渲染管线中不同的区域进行执行操作,具体在什么区域执行主要取决于待执行的任务在哪里执行更加有效。如果利用软件的方式控制这些任务执行的话,Larrabee就可以为执行某种任务需要多少性能进行智能分配,而不是利用硬件来满足该任务执行时提供的性能峰值。

  轩辕传奇手游什么职业好 手游热血传奇怎么放火墙Intel制霸显卡新起点 Larrabee全解析

  在这几个图形处理功能中,Larrabee唯一没有采用软件处理的功能是“纹理过滤”,Larrabee之所以内建了纹理过滤逻辑单元,主要是因为Larrabee的这种软件功能无法有效执行纹理过滤绘图任务。根据专家们的研究分析,如果用软件功能执行纹理过滤绘图任务的话,过程耗时将是固定功能逻辑单元的12-40倍,而具体手游热血传奇30000战力法师装备 多少倍取决于数据是否需要压缩。具体原因如下:

  纹理过滤到目前为止很大程度上依然依赖于8位颜色分量(color 手游热血传奇30级装备哪里弄component),而利用专门的逻辑单元过滤8位颜色分量的话将会比32位宽幅VPU通道更加行之有效。

  有效过滤非一线排开的2×2 quad需要专门的管线搜集逻辑单元。

  向VPU单元加载待过滤纹理数据需要非常大寄存器文件带宽。

  “On-the-fly”操作的纹理压缩更适合专门的硬件进行处理,而不是CPU代码。

  Larrabee纹理过滤逻辑单元与普通的GPU纹理逻辑单元非常相似。这种逻辑单元可以为每颗核心提供32K的纹理缓存,而且支持所有的普通操作,比如说DirectX 10压缩纹理格式、贴图处理(mipmapping)、各向异性过滤(Anisotropic Filtering)等操作。

  Larrabee核心通过L2高速缓存向纹理单元传递命令,并以相同的方式接受指令。纹理单元执行从虚拟到现实的页转换(page translation),而且可以告诉核心任何一个页错过(page miss),核心收到信息后就会再次对暂存在存储单元里页的发出纹理过滤命令。如果软件可以提供足够的性能,Larrabee也可以用核心直接执行纹理操作。

  回到顶部阅读

  对于任何平行渲染运算法则而言,获得最佳性能的关键在于将待渲染任务分为多个子任务,而且这些子任务可以被平衡加载以便可以被平行同步处理。与传统GPU相比,Larrabee为平行运算提供轩辕传奇手游修为是什么意思了更大的自由度,因为Larrabee具有灵活的存储模式和软件控制调用。

  ◆ Larrabee软件渲染的各个阶段

  首先我们将会传奇手游圣战项链熔炼紫金 渲染一些单一的目标,比如说,像素缓冲(pixel buffer)以境深/模板缓冲(depth/stencil buffer)。这些单一的渲染目标以及渲染命令被统称为RTset。

  单个RTset的渲染命令通常会被图形API定义为一系列渲染状态(rendering state)变化。Larrabee渲染器在单个完整定义结构中捕捉渲染状态,然后渲染器会给一组三角形图像分类,并为采用这种状态的各组图像贴上标签,这组三角形图像以及采用的状态被称为primitive set(原始单元)或者PrimSet,这与DirectX DrawPrimitive 图像渲染函数大致相同,但是两者并不能划等号。

  下图描述的是单个RTset的PrimSets大致渲染结构图。渲染表面被分开并放入像素tile中。每个tile都配有一个bin(存储空间),这一bin将会被来自一个与这个tile交叉的PrimSet内的三角形图像填满。RTset所有的bin称为bin set,这些tile和bin有时候可以交替被使用。本篇论文的特点就是,文中涉及的tile实际上就是像素数据,而bin则是一系列primitive单元,这些primitive单元可以影响到tile。每个tile具有一个bin,以此类推,每个RTset(渲染目标tile组和相关的PrimSet则具有一个bin set(这些bin set包含primitive单元)。

  传奇手游内购怎么破解游戏 回到顶部阅读

  一个单帧(single frame)由一系列相关的渲染命令组成,每条命令会发送到一系列相应的待渲染表面。当今很多应用都采用多像素目标(multiple pixel targets),而且为了获得更加的渲染效果,可能会在单帧内频繁改变目标,比如说reflections(反射)和shadow maps(阴影图)。

  为了在单帧内处理不同的渲染目标能够达到更加的效果,Larrabee的软件渲染器首先会创造出一个传奇手游的沙巴克秘道曲线图,这种曲线图的每个节点相当于一个RTset。之后,曲线图的每个节点再分派给PrimSets,PrimSets将会修饰渲染目标的节点。当一个RTset使用一个之后会被渲染成不同目标的渲染目标(比如一个纹理单元)时,一个dependency(属性)便会在两个RTsets之间建立。比如说,在shadow maps(阴影图)中,场景中的主要RTset都会有一个属性,为阴影图所用。

  属性曲线图生成之后,其节点将会被无序渲染,以便满足属性的要求。比如一个两帧内的属性曲线图,这一场景需要渲染两个shadow maps(阴影图)。简单说,第一帧的阴影图还没有显示出来;该场景的第二帧还不能被渲染,除非第二帧的阴影图被渲染之后第二帧的场景才能显现出来。由于以下实例中的每一帧采用相同的存储单元back buffer以及depth buffer,第二帧也不能被渲染出来,除非第一帧的场景被渲染出来或者被复制到front buffer。尽管如此,第二帧的阴影图渲染可以与有神皇秘境的传奇手游Frame 1的重叠,因为两者间没有属性。如果第二帧采用另一种buffer的话,将会去除虚线属性,这种渲染可以自动执行。

  Intel制霸显卡新起点 Larrabee全解析

  上图为RTset属性图表:PrimSet被分配到一个RTset节点,这个节点基于可以修饰的表面(渲染目标)。属性确保一个表面只有在可以修饰的PrimSet被渲染之后才能使用。

  需要指出的是,与RTset联系在一起的PrimSet可以在任何必要时分成多个子集,只要顺序不变就行。如果一个RTset因为太大而不能作为一个单元有效执行的话就可以分为若干个子集,比手游传奇装符石如说,当需要提供一个比较精准的粒度调度时。并不是所有的Larrabee核心都需要在同一个RTset单元中同时执行PrimSet。RTset的这种任意分裂功能避免了某些tiling架构的局限性。

  哪个传奇手游有生肖回到顶部阅读

  由于绘图渲染命令可以修饰状态,所以执行的顺序就显得至关重要。GPU在执行这些命令是非常有序的,这样做有利于命名按序开始、按序结束。当某个渲染命令平行操作时超过了输入数据,那么输出就必须按序向后进行。几何着色的数据输出流是可变的,所以几何着色需要特别大的FIFO ,以维持数据执行顺序以及最小化数据堵塞。

  Larrabee支持多PrimSet前端处理时是平行执行。根据RTset表中的属性,某个控制处理器可以决定在某个时间点、哪个PrimSet应该被渲染,并且把这些PrimSet单元放入活跃手游热血传奇霓裳羽衣名单。Larrabee核心正是从这份活跃名单中调用PrimSet单元执行前端工作的。Larrabee每个核心在各自的PrimSet单元中工作。当核心的工作完成之后,Larrabee核心将会再次从活跃名单中调用PrimSet。每颗核心使用各自bin内的子集,这样就可以消除与其他前端核心之间的冲突。PrimSet的连续ID号被写入bin内,以便渲染过程在后端处理是自动恢复数据的处理顺序。

  下图描述的是某个单前端核心的处理阶段。第一步是识别每个primitive单元内的vertices单元。这个过程可能有点复杂,因为index buffer允许vertex buffer中的vertices随意映射到primitive单元,比如说有效存储网状物数据。然后,必要的vertices会随着在这些vertices单元上运行vertex 轩辕传奇手游神器显身shader而被改变。改变之后的vertices将会涌入主要的存储单元。然后,为了避免有价值的数据被污染,这些数据将会主动被驱逐出L2缓存,因为这些有用数据到后端处理时才会再次被利用。最后,几何着色将会开始执行,之后依次是frustum、back-face、culling,最后是clipping。

  Intel制霸显卡新起点 Larrabee全解析

  这是一种可以在前端处理时执行数据处理的运算法制,而且可以把这些数据存储到bin里。这样就可以确保一个不错的加载平衡,即便这个bin很小,而且还存储了大量的三角形图像,也是如此。光栅化可以在前端处理时进行,当然也可以在后端处理时进行,因为Larrabee采用的是软件光栅化。

  sf传奇单机构架64位玩传奇sf秒退回到顶部阅读

  与当今GPU不同,Larrabee并不是采用专门的逻辑单元负责光栅(rasterization)处理以及插补(interpolation)处理。“rasterization”和“interpolation”操作并不会占据太多渲染工作量,所以用软件渲染是非常有效的。本章节描述的是我们采用的运算法则以及为什么软件执行更适合Larrabee。

  用软件执行interpolation操作的理由相对简单。在老旧的绘图API中,interpolation可以产生固定的浮点数,类似与目前最为普通的纹理过滤操作。在如今的绘图API中,比如说DirectX 10特效,它所需效果为32位浮点。因此,重新采用VPU单元进行interpolation操作是非常有效的。

  如果以峰值状态传奇sf的虎卫运行的话,采用专门的逻辑芯片进行Rasterization 操作毫无疑问是更有效的,但是对于Larrabee而言,采用专门的逻辑芯片具有非常明显的缺点。在当今的GPU中,rasterizer是一种fine-grain serialization point :在进行Rasterization操作之前,所有primitive单元被按照原来的顺序放回原位。随着核心数量的增多,渲染器也不断变大,这种不断变大的渲染器需要消除所有的、最为精细的纹理浮点。

  不过这样的话将会造成相当可观的通讯成本,而且将会需要软件管理rasterizer资源。不过,这种软件rasterizer可以避免这种浪费。rasterizer同时支持rasterization与多核心平行处理,而且可以将rasterization转移到渲染管线中多个位置。对于某些特殊的工作量,rasterizer还可以优化rasterization代码。

  Intel制霸显卡新起点 Larrabee全解析 手机传奇世界sf发布网

  对于Larrabee,第一步就是利用三角形图像的bounding box找到三角形图像重叠的tile 。之后,Larrabee的VPU单元运算半平面方程式,一次16个模块。比如说,如果tile大小为64×64,第一步要处理的就是覆盖这个tile的16个16×16模块。find first bit指令可以使它有效的完全、部分发现覆盖模块。初期全面检测覆盖模块对于效能非常重要。

干净传奇sf

  第二步要测试每个部分覆盖16×16模块的16个4×4子模块。第三步需要测试每个部分覆盖4×4模块的16个像素。第三步可以支持每个像素中的多个样品位置进行重复操作。大约70%的指令在VPU中执行,并利用Larrabee的运算性能。大约10%的运算法则效能来自某些特殊的指令集,比如说find first bit指令。

  传奇sf真实爆率什么意思回到顶部阅读

  当RTset单元用三角形图像数据填充bin这一前端处理过程完成之后,RTset单元将会被放入一个活跃名单中。负责后端工作的核心不停地从名单中调用可用tile,并在相关bin里渲染三角形图像。这种软件可以采用很多优化操作,这些优化通常都会用当今GPU中的逻辑芯片来执行,比如说fast clear、hierarchical Z 以及early Z tests。其中,hierarchical Z优化操作可以在前端过程执行,同时减低bin单元里primitive的数量。

  后端处理代码首先会预取渲染目标像素,并放入L2高速缓存里。之后所有的渲染操作将会在L2缓存中执行,直到tile单元中没有可渲染primitive存在才会停止,这是渲染操作将会被写入存储单元。结果,此tile单元中的RTset的像素仅仅需要被写入/读取主要存储单元,不管bin单元中有多少重叠的primitive单元。与此同时,两个重要优化操作可以被检测出来,并节省大量存储带宽。如果第一个命令要求清除整个tile的话,读取过程可以被消除。写入操作也可以因为渲染之后某些不必要的depth data而被消除或者减少。

  封神榜传奇sfIntel制霸显卡新起点 Larrabee全解析

  一个tile单元的后端渲染顺序: setup thread处理primitive单元,并为primitive分配三条工作线程中一条,这些线程负责处理early Z depth tests、pixel shader processing、late Z depth 传奇sf合击技能不能使用tests,以及alpha blending。

  这三条工作线程执行所有未被执行的像素处理,包括pre-shader early Z tests、 pixel shader、regular late Z tests以及post-shader blending。目前的GPU采用专门的逻辑芯片进行post-shader blending,而Larrabee采用的是VPU单元。Larrabee的这种操作方式效能非常高,因为很多shader都不用post-shader blending,所以专门的blending逻辑芯片不被用于某些shader处理,而且如果使用的话可能会限制其他shader的性能。

  下面我们再来了解一下纹理合作处理器通道(texture co-processor accesses)。纹理合作处理器通道可以具有数以百计的延迟时钟。这些延迟可以被每个硬件线程的qquad通过处理隐藏起来。一个qquad的shader被称为一个fiber 。一条线程上的不同fiber可以相互切换,而且不受OS的影响。一个fiber切换会在每个纹理read命令之后被执行,并传递给在该线程上运行的其他fiber。fiber的数量是可以选择的。

 开个手机传奇SF要多少钱 回到顶部阅读

  本章节着重介绍Larrabee软件渲染的性能问题,包括软件渲染的稳定性试验、加载平衡研究、向即时模式下渲染器的宽带对比、游戏工作量的性能以及通过图表的形式说明不同阶段下软件渲染的处理时间分割问题。

  游戏性能测试方面我们将会采用三款知名游戏作品:《机器战争》、《F.E.A.R.》和《半条命2:第二章》。下图中的信息包括每款游戏的测试帧数(测试过程是在高分辨率下进行的):

  Intel制霸显卡新起点 Larrabee全解析

  我们通过截取被发送到一款常规显示卡里的DirectX 9命令流来获得游戏帧数,此时游戏的运行速度为标准速度。为了确保运算法则的正确无误并产生正确的图像,我们通过某种功能模式来测试游戏性能。之后我们以非常保守的态度估算出该功能模式下每个截面代码的成本,并为大致建立一个每帧图像轮廓。我们为具有最高成本的截面统一编写代码,并在精准的模拟器中运行,这种反复的改良将会不断被重复进行,直到执行一帧图像的时钟周期达到90%。此外,纹理单元吞吐量、缓存性能以及存储带宽限制都包括到各种各样的模拟当中。

  我们从Larrabee units的角度来衡量游戏工作量的性能呢个。一个Larrabee unit被定义为一个1 GHz Larrabee核心。之所以选择1 GHz时钟频率仅仅是因为便于计算,实际上,Larrabee发布之后将会以多核心的形式出现,而且频率也不尽相同。利用Larrabee units,我们可以对具有不同核心数量、不同运行频率下的Larrabee进行性能对比。单个Larrabee unit理论上的最大吞吐量为32 GFLOPS,而且会把fused 玩一个传奇sf鼠标自己会动multiply-add运算计算为两个操作。

  回到顶部阅读

  Larrabee软件渲染器可以用来在大量核心上有效加载平衡。本节描述的就是六种不同配置下,Larrabee加载平衡的测sf传奇在家怎么玩 试结果,相对于Larrabee核心由8的整数递增到48颗,每种配置下的存储带宽以及纹理过滤速度也随着不断提升。

  Intel制霸显卡新起点 Larrabee全解析

  Larrabee加载平衡模拟测试的传奇sf_通天界面素材ui结果表明:48核心Larrabee线性加速下,游戏性能将会下降7%-10%。对于该测试,如果Larrabee的PrimSet单元包含超过1000个primitive单元的话,PrimSet会被再次细分。此外,测试还表明,如果PrimSet单元被细分为几组200个primitive时,F.E.A.R.的游戏性能仅下降了2%,所以说code tuning(代码调节)应该提升线性。

  那么,若要保证游戏在60 fps或者更快的水平运行,各款游戏需要多少个Larrabee Units (每颗核心的运行频率为1 GHz)?

  下面描述玩传奇sf页面很卡的是在以每秒60帧的速度运行的游戏中,Larrabee units的数量需要渲染的样品图像帧数。这一测试结果是用单核心模拟测试得出的,且假定性能为线性。若要保证游戏在60 fps或者更快的水平运行的话,《Half Life 2 episode 2》大约需要10个Larrabee Unit;而对于《F.E.A.R.》和《Gears of War》则大约需要25个Larrabee Unit。

  Intel制霸显卡新起点 Larrabee全解析

  此外,影响Larrabee可扩传奇sf偏移补丁性的因素为软件lock。在如此高的画质下,软件渲染的模拟multiple frame的成本代价是相当高的。尽管如此,Larrabee这种软件渲染管线可以最小化lock的数量以及其他同步事件。通常来说,以下情况将会大致获得或者释放一个lock:

  当一个bin set两次被加入到需要做什么的名单中

  但PrimSet被某个前端线程处理时,或者当一个tile单元被某个后端线程处理时

  出现一些低频lock时,比如说resource creation anddeletion(资源生成和删除)、缓冲器被主CPU修饰、以及frame 传奇sf如何功城flips或者presents

  如今的游戏通常情况下每帧图像画面不少于10000个lock。Larrabee环形网络为每颗核心、每个lock大约100个时钟的low-contention lock提供了相对不错的性能。

  回到顶部阅读

  我们首先采用一种binning运算法则来最小化软件lock,不过这种运算法则同样受益于加载平衡和存储宽带。

  这一运算法则可以为任何核心分配后端tile单元,但不会试图加载平衡。理论上讲,这将会导致严重加载失衡,尽管核心可自由开始处理下一个RTset单元或者切换到前端处理。Bin失衡对于游戏工作量并不是问题。下图描述的是后端bin处理时间在《机器战争》以16帧速运行下的追踪(trace)。

  Intel制霸显卡新起点 Larrabee全解析 sf热血传奇脱机外挂传奇sf大漠绑定源码

  存储带宽非常重要,因为存储子系统通常都是昂贵或者低廉GPU中造价最贵、耗能最高的部分。存储宽带经常都会是一种资源限制,如果管理欠妥的话,可能会导致性能瓶颈。我们的性能研究将会测试不受存储带宽限制的运算速度,。

  上图描述的是即时模式和binned渲染下,三款游戏每帧的全部带宽进行了对比。在即时模式下,我们假定为perfect hierarchical depth culling、一个128KB纹理缓存、1MB depth,颜色缓存代表一个理想化的执行。此外,我们再假设single-sampling为2倍颜色、4倍depth压缩,以及每个像素的4-samples假定为4倍颜色、8倍depth压缩。

  sf迷失传奇传奇手游结婚Intel制霸显卡新起点 Larrabee全解析

  上图描述的是binning模式以及即时模式下每帧图像带宽对比:binning模式虽然需要bin reads & writes,但是却消除了很多depth/color接入,而hierarchical depth tests是无法检测到这些接入的。这使得binning模式下并不需要过多的带宽。

  即时模式下所有测试frame需要更多的带宽:其在《F.E.A.R》游戏需要的带宽是binning模式的2.4—7倍,《机器战争》为1.5—2.6倍,《Half Life 2 episode 2》为1.6—1.8倍。很明显,当即时模式下带宽最高时,binning模式便得到了最大的提升。即便是depth culling和frame buffer压缩,1MB缓存容量对于缓解大部分像素透支是完全不足的。高分辨率往往更能彰显binning渲染模式的优点。

  传奇世界手游精华值回到顶部阅读

  下图描述的是这三款游戏中每个渲染阶段所耗去的平均时间。无论是哪款游戏,Pixel shading以及interpolant setup渲染都是耗时大户,不过这两个渲染阶段在各款游戏中所占的比例却是不同的。《F.E.A.R》游戏大量采用了stencil-volume shadows,这导致pixel shading加载降低,不过却加重了rasterization(光栅)以及depth test 轩辕传奇手游麒麟技能load。这说明了在不同的渲染阶段,重新分配运算资源的重要性,包括rasterization(光栅)。光栅渲染极端在F.E.A.R.中的比例为20.1%,但是在另外两款游戏中的比例却很小。

  Intel制霸显卡新起点 Larrabee全解析

  下图描述的是《F.E.A.R.》中每个渲染阶段的耗时情况。对于另外两款游戏,待渲染项目耗时比传奇手游充钱例比较接近,但是《F.E.A.R.》的情况却完全相反。此外,对于《F.E.A.R.》而言,某些单帧渲染过程都可以体验出来。Larrabee的核心每处理器完一个tile,将会紧接着处理第二个,这导致了整个frame渲染过程具有适度的uniform load(均布荷载)。相比之下,一个即时模式渲染器不具备如此多的像素处理方式。

  Intel制霸显卡新起点 Larrabee全解析

  由此我们可以得出一个结论就是:游戏应用仅仅依赖于资源平衡是远远不够的。相反,动态加载平衡很可能对于提高平均性能起到至关重要的作用。Larrabee的整个软件安排运算法则为调整加载平衡法则提供了足够的灵活性。

  老版本传奇的手游 回到顶部阅读

  Larrabee 轩辕传奇手游v4Native编程模式类似于x86多核心架构。Larrabee Native编程中心是一个完整的C/C++编译程序,这种编译程序可以在在静止状态下向Larrabee x86指令集里收集程序。很多C/C++应用可以被重新编译成Larrabee可以识别的语言程序,而且可以在不加修饰的情况下正确执行这些应用。这无疑大大提升了程序开发人员在编写Larrabee程序时的效率,特别是在编写那些类似于常常出现在高性能运算环境中的x86代码。

  目前Larrabee的两个局限:1.有些系统call porting的应用不能有效支持;2.目前的驱动架构仍然需要再编译。我们将会着重介绍Larrabee Native应用编程的三个重要方面:software threading(软件渲染)、SIMD vectorization以及主机与Larrabee之间的通讯。

  Intel制霸显卡新起点 Larrabee全解析 传奇手游兄弟会

  Larrabee Native可以提供一种灵活的软件线程功能。这种架构层次的线程能力也就是我们常常提到的POSIX Threads API (P-threads)。我们已经将API进行了扩展,可以允许编程人员与某个特定的HW线程或者核心指定线程。

  尽管P线程是一种非常强大的线程编程API,但是对于某些应用而言,P线程的creation以及switching成本代价通常情况下却非常高。为了缓解这种成本压力,Larrabee Native提供了一种基于分布式任务stealing scheduler的任务安排API,这种API非常轻。这种任务编程API的实际执行传奇手游送vip价格可以在Intel的Thread Building Blocks中看到。最终,Larrabee Native可以通过Larrabee Native 传奇手游怎么自动喊话C/C++编译程序中的OpenMP pragmas提供额外的线程编程支持。

  对于Larrabee Native应用编程人员而言,所有的Larrabee SIMD矢量单元都是完全可编程的。Larrabee Native C/C++编译程序包括Larrabee版的Intel自动矢量化编程技术。需要编写Larrabee矢量单元的编程人员可以仅通过C++矢量intrinsics或者inline Larrabee集合代码轻而易举的编写这种程序。

  在一种基于包括Larrabee的平台的CPU中,对于这个平台,Larrabee将会被OS驱动程序控制管理。Larrabee的library可以提供非常快的数据/信息传输协议,从而更好的在binaries间管理所有的存储数据传输和通讯。此外,某些从Larrabee应用binaries中访问的C/C++标准library功能的执行必须与主操作系统共享数据,特别是诸如read/write/open/close等在内的文件I/O功能。

  除了非常高的吞吐量应用程序外,我们预测编程人员还将会利用Larrabee Native执行更高层次的编程模式,这种编程模式可能让平行编程的某些方面自动执行。比如说,Ct风格的编程模式、诸如Intel Math Kernel Library的高层次library API、physics API等等。目前的GPGPU编程模式同样可以通过Larrabee Native被重新执行。

  回到顶部阅读

  图形渲染管线本身就是一个Larrabee原生应用。由于Larrabee是一个以高级语言和工具写入的软件,Larrabee可以轻易扩展并增加极具创新的渲染能力。这里我们将会着重讨论三个图形管线的扩展实例。

  渲染目标的读取(Render Target Read):由于Larrabee的图形渲染管线采用了软件frame buffer(帧缓冲),所以我们可以让其他一些程序员使用这些数据结构。而且值得一提的是,Larrabee渲染管线的某个无价值的扩展将会允许像素shader在被存储价值之前直接读取出来。这种能力可以用于各种各样的渲染,包括程序人员界定混合操作(programmer defined blending operations)、单通道基频模式映射(single-pass tone mapping)以及相关功能。

  无规则透明度(Order Independent Transparency):这两种方法均不允许post-rendering area(粘贴渲染)效果,这种效果可能是不透明模式。下图描述的是如果这种效果在出现透明表面之后再被应用的话就会出现伪影(artifact)。

  Intel制霸显卡新起点 Larrabee全解析

  上图具有pre-resolve效果和不具有这种效果的透明性:上面的图像在应用雾补丁(fog patch)之前把几何和解析进行了分类处理;下边的图像应用雾补丁,使得图像表面透明,然后再解析图像。透过翅膀,右图中的雾是可见的,但是在左图中却看不到雾。

  即使没有额外的专门逻辑单元,Larrabee一样可以通过将多透明表面存储到一个per-pixel spatial数据结构中的方式来支持无规则透明度(order independent transparency,OIT)。几何渲染之后,我们可以在透明表明执行效果,因为在分类以及解析图像片段之前,每个表面都保留这各自的深度(depth)和颜色(color)。

  不规则阴影映射(Irregular Shadow Mapping):阴影映射(Shadow mapping)是一种非常流行的适时阴影接近技术(shadow approximation technique),不过大部分执行却通常会带来令人厌烦的锯齿伪影。过去人们就一直在探求一种可以消除伪影的办法。不规则阴影映射 (Irregular shadow mapping,ISM)为我们提供了一个非常好的解决办法,而且不会给应用编程带来任何额外的负重。

  Intel制霸显卡新起点 Larrabee全解析

  为了执行ISM,我们首先用可以用camera view模式捕捉到的深度样品并建立一个灯光视图(light view)模式三维数据结构。然后通过增加某个渲染阶段来制定化Larrabee的所有软件图形管线,这些渲染阶段可以执行light view ISM光栅。由于阴影映射是在某个准确位置被捕捉到的,所以被捕捉到的阴影映射是完全自由的。这种技术可以被用于操作适时硬阴影效果,正如上图所示。

  回到顶部阅读

  Larrabee也适合执行大量基于非光栅化的吞吐量应用。以下是一个关于某些采样可扩性和特性的简要说明。

  Intel制霸显卡新起点 Larrabee全解析

  游戏物理可扩性性能(Game Physics Scalability Performance):上图说明Larrabee架构是可以满足互动式硬体(interactive rigid body)、流体(fluid)以及布料模拟运算法(cloth simulation algorithms)对性能的不断提升的要求。

  游戏物理(Game Physics):我们已经了解了Larrabee在不同数量核心下的几款游戏物理工作量的可扩性模拟分析。上图表明某些游戏物理的硬体(rigid body)、流体(fluid)以及布料(cloth)基准和运算法则是可以被测量的。采用64核心设计的Larrabee可以取得高于50%的资源利用,而且在某些情况下,Larrabee达到了接近线性平行运算速度。游戏的rigid body模拟基于流行的10K大小的“城堡(castle)”破坏场景。游戏fluid模拟基于平滑粒子流体力学(smoothed particle hydrodynamics,SPH)运算法则。

  Intel制霸显卡新起点 Larrabee全解析

  上图描述的是Larrabee的适时光线追踪:一幅需要4M光线的1Kx1K样品图像。光线追踪器采用C++语言执行,某些手工编写(hand-coded)的集合代码可以用来执行诸如光线交叉(ray intersection)之类的重要操作。Kd-trees(线段树)一共为25MB,是由一帧一帧的图像组成的。一开始从视点发出的光线(primary rays)以及反射光线(reflection rays)被16光束测试。几乎所有的234K三角形图像对于一开始从视点发出的光线(primary rays)以及反射光线(reflection rays)的光线都是可见的。

  回到顶部阅读

  对于Larrabee的架构和渲染的技术分析我们暂且探讨到这里,对Larrabee的一句总结性结论那就是:其并不是一款简单的GPU或者独立显卡产品。这一点我们在文章开始就探讨了。

  算起来ATI(目前已经隶属于AMD)和NVIDIA公司早在五年前就已经开始着眼于GPU通用性方面的硬件研发工作,现在大家都认为Intel公司目前正在做的Larrabee项目实际上这两家公司在四年前就已经在进行了。不过现在这三家公司正在为同一个目的而各自做着不同的努力。

  正是基于这个背景,广大消费者对于未来通用处理器在性能方面的提高,以及在应用软件方面需求变化所带来了惊人的变革让人是充满了期待。那么也许你会问,所谓的通用处理器究竟是什么样的产品呢?对此,Intel负责万亿级计算项目研究的主管Jim Held表示,所谓通用处理器就是可以满足创新软件的处理需求,并且可以满足并行处理大量数据的要求,而这一点似乎已经为处理器业界所接受。

  Intel制霸显卡新起点 Larrabee全解析

  而Intel公司目前正在计划于2009年推出Larrabee,Intel自身对Larrabee的介绍也是“它将会是一款非常特别的处理器”,Intel也将会凭借这款处理器正式进入数据并行处理市场。目前ATI和NVIDIA都对Larrabee的出现而感到紧张,Intel将有可能通过该产品一举占领这个新兴市场。

  至于Larrabee作为一款娱乐应用的图形显示卡,目前倒很难判断其是否真正能对ATI和NVIDIA的主流产品造成实际冲击,毕竟对于游戏的渲染除了架构以外,还有驱动的优化、API的兼容等等众多问题,Larrabee作为一个脱离DirectX而采用x86架构的产品,渲染当前的游戏需要优化的路估计还很长。

  【每日焦点】包快递 承启4G/800超频内存底价团购

  【游戏推荐】《劲舞团》未上恶俗榜引起网友公愤

  中国游戏金酸梅奖-十大恶俗游戏评选活动转眼间已经进行了一周了,评论栏中已经有了 100多条留言了,而不少网友都在质问,《劲舞团》这款游戏为什么没有上榜?[详细]

  【游戏推荐】暴雪解析《星际争霸2》新单位与新改动

  《星际2》的完成度越来越高,出现了新的改动和新的单位,想必大家都对人族的新单位“骡子”都充满了疑问吧,还有就是对虫族一个主基地生出一圈飞龙心存疑虑。[详细]

  【游戏推荐】一切尽在不言中 人皇Sky肢体访谈录

  人皇Sky–李晓峰,魔兽界呼风唤雨的顶级选手,中国电子竞技的旗帜人物,我们不需要用花哨的言语来形容Sky所取得的辉煌成绩,“前无古人,后无来者”是对他真实的评述。[详细]

传奇私服http://www.um01.cn 天龙八部sf发布网http://www.fansbrain.com 轻变传奇私服http://www.jiangsuyika.com

CopyRight @ 2018-2162zwchuyou.com 超级变态传奇 All right reserved sf999-zhaosf-jjj传奇私服发布网 网站地图 传奇手游
搜服找服就来传奇开服网🌎🚩💖为您提供今日刚开火爆新服表,尽在开服网传奇网站.欢迎点击开服网网站,这里有您需要的开服表,开服网网站提供刚开传奇新服好服
沪ICP备16014914号